IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7563485情報処理プログラム、情報処理方法および情報処理装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置
(51)【国際特許分類】
   G16C 20/10 20190101AFI20241001BHJP
【FI】
G16C20/10
【請求項の数】 10
(21)【出願番号】P 2022569687
(86)(22)【出願日】2020-12-18
(86)【国際出願番号】 JP2020047562
(87)【国際公開番号】W WO2022130648
(87)【国際公開日】2022-06-23
【審査請求日】2023-04-18
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】片岡 正弘
(72)【発明者】
【氏名】萩原 稔
(72)【発明者】
【氏名】和田 光人
(72)【発明者】
【氏名】松村 量
【審査官】松野 広一
(56)【参考文献】
【文献】中国特許出願公開第109872780(CN,A)
【文献】特表2001-507675(JP,A)
【文献】特開2020-015442(JP,A)
【文献】米国特許出願公開第2020/0152295(US,A1)
【文献】米国特許出願公開第2019/0286791(US,A1)
【文献】米国特許出願公開第2019/0340160(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16C 10/00-99/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
PubMed
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
目的化合物に対応する説明変数のベクトルと、前記目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象の目的化合物を受け付け、
前記分析対象の目的化合物を受け付けた場合、前記分析対象の目的化合物のベクトルを前記学習モデルに入力することで、前記分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する
処理を実行させることを特徴とする情報処理プログラム。
【請求項2】
前記算出する処理によって、算出された複数のサブ化合物のベクトルと、代替候補となる複数の試薬のベクトルとの類似度合いに基づき、前記分析対象の目的化合物のサブ化合物と代替可能な試薬を分析する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
前記分析する処理は、前記代替可能な試薬の情報として、試薬の示性式の情報を検索し、検索結果を出力することを特徴とする請求項2に記載の情報処理プログラム。
【請求項4】
前記分析対象の目的化合物は複数の基を組み合わせた情報で示され、前記複数の基のベクトルを積算することで、前記分析対象の目的化合物のベクトルを算出する処理を更にコンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。
【請求項5】
コンピュータに、
目的化合物を製造するための合成経路に含まれる複数のサブ化合物に対応する説明変数のベクトルと、サブ化合物の構造および試薬の構造のうち共通する構造を示す共通構造に対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象のサブ化合物を受け付け、
前記分析対象のサブ化合物を受け付けた場合、前記分析対象のサブ化合物のベクトルを前記学習モデルに入力することで、前記分析対象のサブ化合物に対応する共通構造のベクトルを算出する
処理を実行させることを特徴とする情報処理プログラム。
【請求項6】
前記サブ化合物のベクトルと、代替候補となる複数の試薬のベクトルとを類似を基にして、前記サブ化合物のベクトルに類似する試薬のベクトルを検索し、検索した試薬のベクトルと、前記算出した共通構造のベクトルとを基にして、前記サブ化合物の構造と、検索した試薬の構造とで異なる部分の構造を示す変換構造のベクトルを算出する処理を更にコンピュータに実行することを特徴とする請求項5に記載の情報処理プログラム。
【請求項7】
コンピュータが実行する情報処理方法であって、
目的化合物に対応する説明変数のベクトルと、前記目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象の目的化合物を受け付け、
前記分析対象の目的化合物を受け付けた場合、前記分析対象の目的化合物のベクトルを前記学習モデルに入力することで、前記分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する
処理を実行することを特徴とする情報処理方法。
【請求項8】
コンピュータが実行する情報処理方法であって、
目的化合物を製造するための合成経路に含まれる複数のサブ化合物に対応する説明変数のベクトルと、サブ化合物の構造および試薬の構造のうち共通する構造を示す共通構造に対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象のサブ化合物を受け付け、
前記分析対象のサブ化合物を受け付けた場合、前記分析対象のサブ化合物のベクトルを前記学習モデルに入力することで、前記分析対象のサブ化合物に対応する共通構造のベクトルを算出する
処理を実行することを特徴とする情報処理方法。
【請求項9】
目的化合物に対応する説明変数のベクトルと、前記目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する学習部と、
分析対象の目的化合物を受け付け、
前記分析対象の目的化合物を受け付けた場合、前記分析対象の目的化合物のベクトルを前記学習モデルに入力することで、前記分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する算出部と
を有することを特徴とする情報処理装置。
【請求項10】
目的化合物を製造するための合成経路に含まれる複数のサブ化合物に対応する説明変数のベクトルと、サブ化合物の構造および試薬の構造のうち共通する構造を示す共通構造に対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する学習部と、
分析対象のサブ化合物を受け付け、
前記分析対象のサブ化合物を受け付けた場合、前記分析対象のサブ化合物のベクトルを前記学習モデルに入力することで、前記分析対象のサブ化合物に対応する共通構造のベクトルを算出する算出部と
を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム等に関する。
【背景技術】
【0002】
自然界の存在する天然有機化合物は創薬の候補として非常に有望であるが、希少であり、かかる天然有機化合物をそのまま用いて、各種の製品を製造することは難しい。このため、安価で入手しやすい原料や試薬をもとに、汎用性の高い変換反応を用いて、希少な天然有機化合物に相当する有機化合物を製造している。以下の説明では、天然有機化合物に相当する有機化合物を「目的化合物」と表記する。
【0003】
たとえば、天然有機化合物に対して、逆合成解析を実行することで、目的化合物を製造するために変換反応させる複数の試薬(あるいは原料)の組み合わせや、合成の順番等を示す合成経路を設計する従来技術がある。かかる従来技術によって設計された合成経路に基づいて、試薬を順に反応させていくことで、目的化合物が合成され、製造される。
【0004】
図22は、逆合成および合成経路の一例を説明するための図である。たとえば、アスピリン(鎮痛剤)として知られるアセチルサリチル酸1-1の逆合成について説明する。アセチルサリチル酸1-1の官能基は、エステルとカルボキシル基である。エステルはカルボン酸とアルコールから得られるので、アセチルサリチル酸1-1の前の前駆体は、サリチル酸1-2であり、用いる試薬は無水酢酸となる。サリチル酸1-2は、安価なフェノールのナトリウム塩に、二酸化炭素を高圧化で反応させるKolbe-Schmitt反応から得られるので、サリチル酸の前駆体はフェノール1-3となる。かかる逆合成の結果を基にして、合成経路1-4が設計され、フェノール1-3からアセチルサリチル酸1-1が合成される。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2020-154442号公報
【文献】特表2001-507675号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
目的化合物を製造するために逆合成解析で得られた複数の試薬は、類似の特性を有する他の試薬によって代替可能である場合には、入手しやすく、より安価で変換反応できる他の試薬に切り替えて目的化合物を合成し、製造することが有効である。しかし、従来技術では、無数に存在する試薬の候補から、代替可能な試薬を絞り込み、変換反応を特定することが困難である。
【0007】
1つの側面では、本発明は、目的化合物の逆合成解析で得られた試薬に類似する試薬を検出し、その変換反応を特定することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、目的化合物に対応するベクトルと、目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応するベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する。コンピュータは、分析対象の目的化合物を受け付けた場合、分析対象の目的化合物のベクトルを学習モデルに入力することで、分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する。
【発明の効果】
【0009】
目的化合物の試薬に類似する試薬を検出することができる。
【図面の簡単な説明】
【0010】
図1図1は、本実施例1に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。
図2図2は、本実施例1に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。
図3図3は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。
図4図4は、化学構造式ファイルのデータ構造の一例を示す図である。
図5図5は、基辞書の一例を示す図である。
図6図6は、試薬辞書の一例を示す図である。
図7A図7Aは、サブ化合物辞書の一例を示す図である。
図7B図7Bは、目的化合物辞書の一例を示す図である。
図7C図7Cは、共通構造辞書の一例を示す図である。
図8図8は、基ベクトテーブルのデータ構造の一例を示す図である。
図9図9は、試薬ベクトテーブルのデータ構造の一例を示す図である。
図10A図10Aは、サブ化合物ベクトテーブルのデータ構造の一例を示す図である。
図10B図10Bは、目的化合物ベクトテーブルのデータ構造の一例を示す図である。
図10C図10Cは、共通構造ベクトテーブルのデータ構造の一例を示す図である。
図11図11は、基転置インデックスのデータ構造の一例を示す図である。
図12図12は、試薬転置インデックスのデータ構造の一例を示す図である。
図13A図13Aは、サブ化合物転置インデックスのデータ構造の一例を示す図である。
図13B図13Bは、目的化合物転置インデックスのデータ構造の一例を示す図である。
図13C図13Cは、共通構造転置インデックスのデータ構造の一例を示す図である。
図14図14は、逆合成解析テーブルのデータ構造の一例を示す図である。
図15図15は、本実施例1に係る情報処理装置の処理手順を示すフローチャート(1)である。
図16図16は、本実施例1に係る情報処理装置の処理手順を示すフローチャート(2)である。
図17図17は、本実施例2に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。
図18図18は、本実施例2に係る情報処理装置の処理を説明するための図である。
図19図19は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。
図20図20は、本実施例2に係る情報処理装置の処理手順を示すフローチャートである。
図21図21は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図22図22は、逆合成および合成経路の一例を説明するための図である。
【発明を実施するための形態】
【0011】
以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
【実施例1】
【0012】
本実施例1に係る情報処理装置の処理の一例について説明する。本実施例1に係る情報処理装置は、事前処理によって、目的化合物のベクトルを算出する処理、目的化合物に対応する各サブ化合物(試薬)のベクトルをそれぞれ算出する処理を実行しておくものとする。なお、目的化合物に対して逆合成解析が実行されることで、目的化合物を製造するための合成経路が設計され、目的化合物と、かかる目的化合物を合成し、製造するための各試薬と変換反応との関係が特定される。
【0013】
図1は、本実施例1に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図1に示すように、情報処理装置は、学習データ65を用いて、学習モデル70の学習を実行する。学習モデル70は、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等に対応する。
【0014】
学習データ65は、逆合成解析と合成の実績がある目的化合物のベクトルと、目的化合物を逆合成解析し、合成するための用いられる複数のサブ化合物のベクトルとの関係を定義する。たとえば、目的化合物のベクトルが、入力データに対応し、複数のサブ化合物のベクトルがその出力データの正解値となる。
【0015】
情報処理装置は、目的化合物のベクトルを学習モデル70に入力した際の出力が、各サブ化合物のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ65に含まれる目的化合物のベクトルと、複数のサブ化合物のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル70のパラメータを調整する(機械学習を実行する)。
【0016】
図2は、本実施例1に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。情報処理装置は、分析フェーズにおいて、学習フェーズで学習した学習モデル70を用いて次の処理を実行する。
【0017】
情報処理装置は、目的化合物を指定した分析クエリ80を受け付けると、分析クエリ80の目的化合物をベクトルVob80に変換する。情報処理装置は、ベクトルVob80を、学習モデル70に入力することで、各サブ化合物に対応する複数のベクトル(Vsb80-1、Vsb80-2、Vsb80-3、・・・Vsb80-n)を算出する。
【0018】
情報処理装置は、試薬ベクトルテーブルT2に格納された、各試薬に対応する複数のベクトル(Vr80-1、Vr80-2、Vr80-3、・・・Vr80-n)と、各サブ化合物に対応する複数のベクトル(Vsb80-1、Vsb80-2、Vsb80-3、・・・Vsb80-n)との類似度を比較して、類似するサブ化合物と、試薬とを分析する。情報処理装置は、類似するサブ化合物のベクトルと、試薬のベクトルとを対応付けて、サブ化合物・試薬テーブル85に登録する。
【0019】
上記のように、本実施例1に係る情報処理装置は、目的化合物のベクトルと、逆合成解析に基づく各サブ化合物のベクトルとの関係を定義した学習データ65を基にして、学習モデル70の学習を実行しておく。情報処理装置は、学習済みの学習モデル70に分析クエリのベクトルを入力することで、分析クエリの目的化合物に対応する各サブ化合物のベクトルを算出する。学習モデル70から出力される各サブ化合物のベクトルを用いることで、目的化合物の合成経路に定義されたサブ化合物に類似する各試薬を検出することを容易に実行することができる。
【0020】
次に、本実施例1に係る情報処理装置の構成の一例について説明する。図3は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。図3に示すように、この情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
【0021】
通信部110は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
【0022】
入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
【0023】
表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
【0024】
記憶部140は、化学構造式ファイル50、基符号化ファイル51、試薬符号化ファイル52、サブ化合物符号化ファイル53、目的化合物符号化ファイル54、共通構造符号化ファイル55を有する。記憶部140は、基辞書D1、試薬辞書D2、サブ化合物辞書D3、目的化合物辞書D4、共通構造辞書D5を有する。記憶部140は、基ベクトルテーブルT1、試薬ベクトルテーブルT2、サブ化合物テーブルT3、目的化合物ベクトルテーブルT4、共通構造ベクトルテーブルT5を有する。記憶部140は、基転置インデクスIn1、試薬転置インデックスIn2、サブ化合物転置インデックスIn3、目的化合物インデックスIn4、共通構造インデックスIn5を有する。記憶部140は、逆合成解析結果テーブル60、学習データ65、学習モデル70、分析クエリ80、サブ化合物・試薬テーブル85を有する。
【0025】
記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0026】
化学構造式ファイル50は、複数の官能基の示性式を含む情報であり、最小単位の官能基の示性式が組み合わされることで、一次構造あるいは二次構造の示性式となるものとする。本実施例1では一例として、一次構造の示性式が「サブ化合物」または「試薬」に対応し、二次構造(あるいは、高次構造)の示性式が「目的化合物(あるいは、天然有機化合物)」に対応するものとして説明を行う。
【0027】
たとえば、化学構造式ファイル50は、各サブ化合物(または試薬)に対応する示性式を記述したサブ化合物(試薬)記述領域と、各目的化合物に対応する示性式を記述した目的化合物記述領域とに分けられる。また、化学構造式ファイル50は、後述する逆合成解析結果テーブル60の情報を含んでいてもよい。
【0028】
図4は、化学構造式ファイルのデータ構造の一例を示す図である。示性式(化学構造式)は化合物を構成する元素の配列を示す式であり、SMILES法などで記述されてもよい。
【0029】
官能基の基符号化ファイル51は、化学構造式ファイル50を、基の単位で圧縮したファイルである。後述するように、基符号化ファイル51は、化学構造式ファイル50と、基辞書D1とを基にして作成される。
【0030】
試薬符号化ファイル52は、基符号化ファイル51の試薬圧縮領域を基に生成されるファイルであり、試薬の単位で圧縮されたファイルである。1つの試薬の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、試薬符号化ファイル52は、試薬圧縮領域の圧縮符号と、試薬辞書D2とを基にして作成される。
【0031】
サブ化合物符号化ファイル53は、基符号化ファイル51を基に生成されるファイルであり、サブ化合物の単位で圧縮されたファイルである。1つのサブ化合物の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、サブ化合物符号化ファイル53は、サブ化合物圧縮領域の圧縮符号と、サブ化合物辞書D3とを基にして作成される。
【0032】
目的化合物符号化ファイル54は、基符号化ファイル51の目的化合物圧縮領域を基に生成されるファイルであり、目的化合物の単位で圧縮されたファイルである。1つの目的化合物の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、目的化合物符号化ファイル54は、目的化合物圧縮領域の圧縮符号と、目的化合物辞書D4とを基にして作成される。
【0033】
共通構造符号化ファイル55は、基符号化ファイル51を基に生成されるファイルであり、共通構造の単位で圧縮されたファイルである。1つの共通構造の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、共通構造符号化ファイル55は、共通構造領域の圧縮符号と、共通構造辞書D5とを基にして作成される。
【0034】
基辞書D1は、基の圧縮符号と基を構成する元素の配列を示性式で定義したものである。図5は、基辞書の一例を示す図である。図5に示すように、基辞書D1は、圧縮符号と、名称と、示性式とを対応付ける。圧縮符号は、基に割り当てられた圧縮符号である。名称は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。
【0035】
たとえば「メチル基」には、圧縮符号「D0008000h」が割り当てられる。圧縮符号「D0008000h」に対応する示性式は「CH3」となる。「h」は、圧縮符号が16進数であることを示す記号である。
【0036】
試薬辞書D2は、試薬の圧縮符号と、かかる試薬を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図6は、試薬辞書の一例を示す図である。図6に示すように、試薬辞書D2は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、試薬に割り当てられた圧縮符号である。名称は、該当する試薬の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。
【0037】
サブ化合物辞書D3は、目的化合物の圧縮符号と、かかる目的化合物を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図7Aは、サブ化合物辞書の一例を示す図である。図7Aに示すように、サブ化合物辞書D3は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、サブ化合物に割り当てられた圧縮符号である。名称は、該当するサブ化合物の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。
【0038】
目的化合物辞書D4は、目的化合物の圧縮符号と、かかる目的化合物を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図7Bは、目的化合物辞書の一例を示す図である。図7Bに示すように、目的化合物辞書D4は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、目的化合物に割り当てられた圧縮符号である。名称は、該当する目的化合物の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。
【0039】
共通構造辞書D5は、複数の試薬に含まれる構造のうち、共通する構造である。共通構造辞書D5は、共通構造の圧縮符号と、かかる共通構造を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図7Cは、共通構造辞書の一例を示す図である。図7Cに示すように、共通構造辞書D5は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、共通構造に割り当てられた圧縮符号である。名称は、該当する共通構造の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。
【0040】
基ベクトルテーブルT1は、基のベクトルを定義するテーブルである。図8は、基ベクトテーブルのデータ構造の一例を示す図である。図8に示すように、この基ベクトルテーブルT1は、基の圧縮符号と、この基の圧縮符号に割り当てられたベクトルとが対応付けられる。基のベクトルは、ポアンカレエンベッディングによって算出される。
【0041】
試薬ベクトルテーブルT2は、試薬のベクトルを定義するテーブルである。図9は、試薬ベクトテーブルのデータ構造の一例を示す図である。図9に示すように、この試薬ベクトルテーブルT2は、試薬の圧縮符号と、この試薬の圧縮符号に割り当てられたベクトルとが対応付けられる。試薬のベクトルは、試薬を構成する基の圧縮符号のベクトルを積算したものとなる。試薬ベクトルテーブルT2は、試薬の名称、試薬の示性式等の特徴を更に対応付けて保持してもよい。
【0042】
サブ化合物ベクトルテーブルT3は、サブ化合物のベクトルを定義するテーブルである。図10Aは、サブ化合物ベクトテーブルのデータ構造の一例を示す図である。図10Aに示すように、このサブ化合物ベクトルテーブルT3は、サブ化合物の圧縮符号と、このサブ化合物の圧縮符号に割り当てられたベクトルとが対応付けられる。サブ化合物のベクトルは、サブ化合物を構成する基の圧縮符号のベクトルを積算したものとなる。サブ化合物ベクトルテーブルT3は、サブ化合物の名称、サブ化合物の示性式等の特徴を更に対応付けて保持してもよい。
【0043】
目的化合物ベクトルテーブルT4は、目的化合物のベクトルを定義するテーブルである。図10Bは、目的化合物ベクトテーブルのデータ構造の一例を示す図である。図10Bに示すように、この目的化合物ベクトルテーブルT3は、目的化合物の圧縮符号と、この目的化合物の圧縮符号に割り当てられたベクトルとが対応付けられる。目的化合物のベクトルは、目的化合物を構成する基の圧縮符号のベクトルを積算したものとなる。
【0044】
共通構造ベクトルテーブルT5は、共通構造のベクトルを定義するテーブルである。図10Cは、共通構造ベクトテーブルのデータ構造の一例を示す図である。図10Cに示すように、この共通構造ベクトルテーブルT5は、共通構造の圧縮符号と、この共通構造の圧縮符号に割り当てられたベクトルとが対応付けられる。共通構造のベクトルは、共通構造を構成する基の圧縮符号のベクトルを積算したものとなる。
【0045】
基転置インデックスIn1は、基の圧縮符号について、基符号化ファイル51の出現位置(オフセット)を示す。図11は、基転置インデックスのデータ構造の一例を示す図である。図11に示すように、基転置インデックスIn1の横軸は、オフセットに対応する軸である。基転置インデックスIn1の縦軸は、基の圧縮符号に対応する軸である。基転置インデックスIn1は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0046】
たとえば、基符号化ファイル51の先頭の基の圧縮符号のオフセットを「0」とする。基符号化ファイル51の先頭から2番目の位置に、基の符号「D008000h(メチル基)」が含まれる場合、基転置インデックスIn1のオフセット「1」の列と、基の圧縮符号「D008000h(メチル基)」の行とが交差する位置のビットが「1」となる。
【0047】
試薬転置インデックスIn2は、試薬の圧縮符号について、試薬符号化ファイル52の出現位置(オフセット)を示す。図12は、試薬転置インデックスのデータ構造の一例を示す図である。図12に示すように、試薬転置インデックスIn2の横軸は、オフセットに対応する軸である。試験薬転置インデックスIn2の縦軸は、試薬の圧縮符号に対応する軸である。試薬転置インデックスIn2は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0048】
たとえば、試薬符号化ファイル52の先頭の試薬の圧縮符号のオフセットを「0」とする。試薬符号化ファイル52の先頭から9番目の位置に、試薬の符号「D0008000h」が含まれる場合、試薬転置インデックスIn2のオフセット「8」の列と、試薬の圧縮符号「D0008000h」の行とが交差する位置のビットが「1」となる。
【0049】
サブ化合物転置インデックスIn3は、サブ化合物の圧縮符号について、サブ化合物符号化ファイル53の出現位置(オフセット)を示す。図13Aは、サブ化合物転置インデックスのデータ構造の一例を示す図である。図13Aに示すように、サブ化合物転置インデックスIn3の横軸は、オフセットに対応する軸である。サブ化合物転置インデックスIn3の縦軸は、サブ化合物の圧縮符号に対応する軸である。サブ化合物転置インデックスIn3は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0050】
たとえば、サブ化合物符号化ファイル53の先頭のサブ化合物の圧縮符号のオフセットを「0」とする。サブ化合物符号化ファイル53の先頭から9番目の位置に、サブ化合物の符号「D0008000h」が含まれる場合、サブ化合物転置インデックスIn3のオフセット「8」の列と、サブ化合物の圧縮符号「D0008000h」の行とが交差する位置のビットが「1」となる。
【0051】
目的化合物転置インデックスIn4は、目的化合物の圧縮符号について、目的化合物符号化ファイル54の出現位置(オフセット)を示す。図13Bは、目的化合物転置インデックスのデータ構造の一例を示す図である。図13Bに示すように、目的化合物転置インデックスIn4の横軸は、オフセットに対応する軸である。目的化合物薬転置インデックスIn4の縦軸は、目的化合物の圧縮符号に対応する軸である。目的化合物転置インデックスIn4は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0052】
たとえば、目的化合物符号化ファイル54の先頭の目的化合物の圧縮符号のオフセットを「0」とする。目的化合物符号化ファイル54の先頭から9番目の位置に、目的化合物の符号「D0008000h」が含まれる場合、目的化合物転置インデックスIn4のオフセット「8」の列と、目的化合物の圧縮符号「D0008000h」の行とが交差する位置のビットが「1」となる。
【0053】
共通構造転置インデックスIn5は、共通構造の圧縮符号について、共通構造符号化ファイル55の出現位置(オフセット)を示す。図13Cは、共通構造転置インデックスのデータ構造の一例を示す図である。図13Cに示すように、共通構造転置インデックスIn5の横軸は、オフセットに対応する軸である。共通構造転置インデックスIn5の縦軸は、共通構造の圧縮符号に対応する軸である。共通構造転置インデックスIn5は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
【0054】
たとえば、共通構造符号化ファイル55の先頭の共通構造の圧縮符号のオフセットを「0」とする。共通構造符号化ファイル55の先頭から9番目の位置に、共通構造の符号「D0008000h」が含まれる場合、共通構造転置インデックスIn4のオフセット「8」の列と、サブ化合物の圧縮符号「D0008000h」の行とが交差する位置のビットが「1」となる。
【0055】
逆合成解析結果テーブル60は、目的化合物(目的化合物に相当する天然有機化合物)に対して、逆合成解析を実行することで得られる情報(合成経路)を保持する。図14は、逆合成解析結果テーブルのデータ構造の一例を示す図である。図14に示すように、この逆合成解析結果テーブル60は、目的化合物の名称と、かかる目的化合物に対して逆合成解析を行うことで得られた合成経路とを対応付ける。合計経路には、合成経路の途中で反応させる各試薬の名称が含まれるものとする。
【0056】
なお、図14では、目的化合物の名称と、各サブ化合物(試薬)の名称とを対応付ける場合について説明したが、これに限定されるものではなく、示性式で、目的化合物と、各サブ化合物(試薬)の名称とを対応付けてもよい。また、逆合成解析結果テーブル60の情報は、化学構造式ファイル50の一部であってもよい。
【0057】
学習データ65は、目的化合物のベクトルと、目的化合物を製造するための用いられる複数のサブ化合物(試薬)のベクトルとの関係を定義する。学習データ65のデータ構造は、図1で説明した学習データのデータ構造に対応する。
【0058】
学習モデル70は、CNNやRNN等に対応するモデルであり、パラメータが設定される。
【0059】
分析クエリ80には、試薬の分析対象となる目的化合物の示性式の情報が含まれる。
【0060】
サブ化合物・試薬テーブル85は、類似するサブ化合物のベクトルと、試薬のベクトルとを対応付けて保持するテーブルである。サブ化合物・試薬テーブル85のデータ構造は、図2で説明したサブ化合物・試薬テーブルのデータ構造に対応する。
【0061】
図3の説明に戻る。制御部150は、前処理部151、学習部152、算出部153、分析部154を有する。制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実行されてもよい。
【0062】
前処理部151は、下記の各種の処理を実行することで、目的化合物のベクトルおよびサブ化合物(試薬)のベクトル等を算出する。
【0063】
たとえば、前処理部151は、基符号化ファイル51を生成する処理、基ベクトルテーブルT1、基転置インデックスIn1を生成する処理、試薬符号化ファイル52、試薬ベクトルテーブルT2、試薬転置インデックスIn2を生成する処理を実行する。前処理部151は、サブ化合物符号化ファイル53、サブ化合物ベクトルテーブルT3、サブ化合物転置インデックスIn3を生成する処理を実行する。前処理部151は、目的化合物符号化ファイル54、目的化合物ベクトルテーブルT4、目的化合物転置インデックスIn4を生成する処理を実行する。前処理部151は、学習データ65を生成する処理を実行する。
【0064】
前処理部151が、基符号化ファイル51を生成する処理の一例について説明する。前処理部151は、化学構造式ファイル50と、基辞書D1とを基にして、化学構造式ファイル50に含まれる基の示性式を特定し、特定した基の示性式を圧縮符号に置き換える処理を繰り返し実行することで、基符号化ファイル51を生成する。たとえば、基符号化ファイル51には、試薬圧縮領域と、サブ化合物圧縮領域と、目的化合物圧縮領域とが含まれる。
【0065】
前処理部151は、基符号化ファイル51の試薬記述領域に含まれる各示性式に対して、上記処理を実行することで、試薬圧縮領域の基符号化配列を生成する。前処理部151は、基符号化ファイル51のサブ化合物記述領域に含まれる各示性式に対して、上記処理を実行することで、サブ化合物圧縮領域の基符号化配列を生成する。前処理部151は、基符号化ファイル51の目的化合物記述領域に含まれる各示性式に対して、上記処理を実行することで、目的化合物圧縮領域の基符号化配列を生成する。
【0066】
前処理部151が、基ベクトルテーブルT1、基転置インデックスIn1を生成する処理の一例について説明する。前処理部151は、基ベクトルテーブルT1を生成する際に、ポアンカレエンベッディングを実行する。
【0067】
前処理部151は、基の圧縮符号を、ポアンカレ空間に埋め込むことで、基(基の圧縮符号)のベクトルを算出する。ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング(Poincare Embeddings)と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。
【0068】
ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、類似の特徴を有する各基は、ポアンカレ空間において、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。図示を省略するが、前処理部151は、類似する基同士を定義した基類似テーブルを参照して、各基の圧縮符号をポアンカレ空間に埋め込み、各基の圧縮符号のベクトルを算出する。前処理部151は、基辞書D1に定義された各基の圧縮符号に対して、ポアンカレエンベッディングを事前に実行しておいてもよい。
【0069】
前処理部151は、基(基の圧縮符号)と、基のベクトルとを対応付けることで、基ベクトルテーブルT1を生成する。前処理部151は、基のベクトルと、基符号化ファイル51における基(基の圧縮符号)の位置との関係を基にして、基転置インデックスIn1を生成する。
【0070】
前処理部151が、試薬符号化ファイル52、試薬ベクトルテーブルT2、試薬転置インデックスIn2を生成する処理の一例について説明する。前処理部151は、基符号化ファイル51に含まれる試薬圧縮領域の基符号化配列と、試薬辞書D2とを基にして、試薬に対応する基符号化配列を、試薬の圧縮符号に置き換える処理を繰り返し実行することで、試薬符号化ファイル52を生成する。
【0071】
前処理部151は、試薬に対応する基符号化配列と、基ベクトルテーブルT1とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、試薬に対応するベクトルを算出する。
【0072】
前処理部151は、試薬(試薬の圧縮符号)と、試薬のベクトルとを対応付けることで、試薬ベクトルテーブルT2を生成する。前処理部151は、試薬のベクトルと、試薬符号化ファイル52における試薬(試薬の圧縮符号)の位置との関係を基にして、試薬転置インデックスIn2を生成する。
【0073】
前処理部151が、サブ化合物符号化ファイル53、サブ化合物ベクトルテーブルT3、サブ化合物転置インデックスIn3を生成する処理の一例について説明する。前処理部151は、基符号化ファイル51に含まれるサブ化合物圧縮領域の基符号化配列と、サブ化合物辞書D3とを基にして、サブ化合物に対応する基符号化配列を、サブ化合物の圧縮符号に置き換える処理を繰り返し実行することで、サブ化合物符号化ファイル53を生成する。
【0074】
前処理部151は、サブ化合物に対応する基符号化配列と、基ベクトルテーブルT1とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、サブ化合物に対応するベクトルを算出する。
【0075】
前処理部151は、サブ化合物(サブ化合物の圧縮符号)と、サブ化合物のベクトルとを対応付けることで、サブ化合物ベクトルテーブルT3を生成する。前処理部151は、サブ化合物のベクトルと、サブ化合物符号化ファイル53におけるサブ化合物(サブ化合物の圧縮符号)の位置との関係を基にして、サブ化合物転置インデックスIn3を生成する。
【0076】
前処理部151が、目的化合物符号化ファイル54、目的化合物ベクトルテーブルT4、目的化合物転置インデックスIn4を生成する処理の一例について説明する。前処理部151は、基符号化ファイル51に含まれる目的化合物圧縮領域の基符号化配列と、目的化合物辞書D4とを基にして、目的化合物に対応する基符号化配列を、目的化合物の圧縮符号に置き換える処理を繰り返し実行することで、目的化合物符号化ファイル54を生成する。
【0077】
前処理部151は、目的化合物に対応する基符号化配列と、基ベクトルテーブルT1とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、目的化合物に対応するベクトルを算出する。
【0078】
前処理部151は、目的化合物(目的化合物の圧縮符号)と、目的化合物のベクトルとを対応付けることで、目的化合物ベクトルテーブルT4を生成する。前処理部151は、目的化合物のベクトルと、目的化合物符号化ファイル54における目的化合物(目的化合物の圧縮符号)の位置との関係を基にして、目的化合物転置インデックスIn4を生成する。
【0079】
前処理部151は、共通構造符号化ファイル55、共通構造ベクトルテーブルT5、共通構造転置インデックスIn5を生成してもよい。前処理部151は、基符号化ファイル51に含まれる共通構造領域の基符号化配列と、共通構造辞書D5とを基にして、共通構造に対応する基符号化配列を、共通構造の圧縮符号に置き換える処理を繰り返し実行することで、共通構造符号化ファイル55を生成する。
【0080】
前処理部151は、共通構造に対応する基符号化配列と、基ベクトルテーブルT1とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、共通構造に対応するベクトルを算出する。
【0081】
前処理部151は、共通構造(共通構造の圧縮符号)と、共通構造のベクトルとを対応付けることで、共通構造ベクトルテーブルT5を生成する。前処理部151は、共通構造のベクトルと、共通構造符号化ファイル55における共通構造(共通構造の圧縮符号)の位置との関係を基にして、共通構造インデックスIn5を生成する。
【0082】
前処理部151が、学習データ65を生成する処理の一例について説明する。前処理部151は、逆合成解析結果テーブル60を基にして、目的化合物の名称と、この目的化合物の合成経路で反応させる複数のサブ化合物(試薬)の名称との関係を特定する。前処理部151は、目的化合物の名称と、目的化合物ベクトルテーブルT4とを基にして、目的化合物のベクトルを特定する。前処理部151は、各サブ化合物(試薬)の名称と、試薬ベクトルテーブルT2(あるいは、サブ化合物ベクトルテーブルT3)とを基にして、サブ化合物(試薬)のベクトルを特定する。前処理部151は、かかる処理によって、目的化合物のベクトルと、目的化合物の合成経路で反応させる各サブ化合物(試薬)のベクトルとの関係を特定し、学習データ65に登録する。
【0083】
前処理部151は、逆合成解析結果テーブル60の各レコード(目的化合物の名称、各サブ化合物(試薬)の名称)について、上記の処理を繰り返し実行することで、学習データ65を生成する。
【0084】
図3の説明に戻る。学習部152は、学習データ65を用いて、学習モデル70の学習を実行する。学習部152の処理は、図1で説明した処理に対応する。学習部152は、学習データ65から、目的化合物のベクトルと、この目的化合物のベクトルに対応する各サブ化合物(試薬)のベクトルとの組を取得する。学習部152は、目的化合物のベクトルを、学習モデル70に入力した場合の、学習モデル70の出力の値が、各サブ化合物(試薬)のベクトルの値に近づくように、誤差逆伝播による学習を実行することで、学習モデル70のパラメータを調整する。
【0085】
学習部152は、学習データ65の目的化合物のベクトルと、各サブ化合物(試薬)のベクトルとの組について、上記処理を繰り返し実行することで、学習モデル70の学習を実行する。
【0086】
算出部153は、分析クエリ80の指定を受け付けた場合に、学習済みの学習モデル70を用いて、分析クエリ80の目的化合物の合成経路で反応させる各サブ化合物のベクトルを算出する。算出部153の処理は、図2で説明した処理に対応する。算出部153は、分析クエリ80を、入力部120から受付けてもよいし、通信部110を介して、外部装置から受付けてもよい。
【0087】
算出部153は、分析クエリ80に含まれる目的化合物の示性式を取得する。算出部153は、目的化合物の示性式と、基辞書D1とを比較して、目的化合物の示性式に含まれる基を特定し、基の単位で、目的化合物の示性式をそれぞれ圧縮符号に変換する。
【0088】
算出部153は、変換した各基の圧縮符号と、基ベクトルテーブルT1とを比較して、各基の圧縮符号のベクトルを特定する。算出部153は、特定した各基の圧縮符号のベクトルを積算することで、分析クエリ80に含まれる目的化合物に対応するベクトルVob80を算出する。
【0089】
算出部153は、ベクトルVob80を、学習モデル70に入力することで、各サブ化合物(試薬)に対応する複数のベクトルを算出する。算出部153は、算出した各サブ化合物のベクトルを、分析部154に出力する。
【0090】
以下の説明では、算出部153が算出した各サブ化合物(試薬)のベクトルを、それぞれ「分析ベクトル」と表記する。
【0091】
分析部154は、分析ベクトルを基にして、分析ベクトルに類似するベクトルを有する試薬の情報を検索する。分析部154は、検索結果を基にして、目的化合物を構成する各サブ化合物のベクトルと類似した各試薬のベクトル(以下に示す類似ベクトル)とを対応付けて、サブ化合物・試薬テーブル85に登録する。
【0092】
たとえば、分析部154は、分析ベクトルと、試薬ベクトルテーブルT2に含まれる各ベクトルとの距離をそれぞれ算出し、分析ベクトルとの距離が閾値未満となるベクトルを特定する。試薬ベクトルテーブルT2に含まれるベクトルであって、分析ベクトルとの距離が閾値未満となるベクトルが「類似ベクトル」となる。
【0093】
分析部154は、試薬ベクトルテーブルT2を基にして、類似ベクトルに対応する試薬の圧縮符号を特定し、特定した試薬の圧縮符号と、試薬辞書D2と、基辞書D1とを基にして、試薬の圧縮符号に対応する示性式を特定する。また、試薬ベクトルテーブルT2に、試薬の特徴が対応付けられていてもよく、この場合には、分析部154は、類似ベクトルに対応する試薬の特徴を取得する。分析部154は、かかる処理を実行することで、類似ベクトルに対応する試薬の示性式、試薬の特徴を検索し、検索した結果を、サブ化合物・試薬テーブル85に登録する。
【0094】
分析部154は、各分析ベクトルについて、上記処理を繰り返し実行することで、分析ベクトル毎に、類似ベクトルに対応する試薬の示性式、試薬の特徴を検索し、サブ化合物・試薬テーブル85に登録してもよい。分析部154は、サブ化合物・試薬テーブル85を、表示部130に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。
【0095】
次に、本実施例1に係る情報処理装置100の処理手順の一例について説明する。図15は、本実施例1に係る情報処理装置の処理手順を示すフローチャート(1)である。図15に示すように、情報処理装置100の前処理部151は、ポアンカレエンベッディングを実行することで、各基の圧縮符号のベクトルを算出する(ステップS101)。
【0096】
前処理部151は、化学構造式ファイル50および基辞書D1を基にして、基符号化ファイル51、基ベクトルテーブルT1、基転置インデックスIn1を生成する(ステップS102)。
【0097】
前処理部151は、基符号化ファイル51およびサブ化合物辞書D3を基にして、サブ化合物符号化ファイル53、サブ化合物ベクトルテーブルT3、サブ化合物転置インデックスIn3を生成する(ステップS103)。
【0098】
前処理部151は、基符号化ファイル51および目的化合物辞書を基にして、目的化合物符号化ファイル54、目的化合物ベクトルテーブルT4、目的化合物転置インデックスIn4を生成する(ステップS104)。
【0099】
前処理部151は、逆合成解析結果テーブル60を基にして、目的化合物のベクトルと、この目的化合物を製造するための各サブ化合物(試薬)のベクトルとの関係を特定し、学習データ65を生成する(ステップS105)。
【0100】
情報処理装置100の学習部152は、学習データ65を基にして、学習モデルの学習を実行する(ステップS106)。
【0101】
図16は、本実施例1に係る情報処理装置の処理手順を示すフローチャート(2)である。情報処理装置100の算出部153は、分析クエリ80を受け付ける(ステップS201)。
【0102】
算出部153は、分析クエリ80に含まれる目的化合物の示性式を基にして、目的化合物のベクトルを算出する(ステップS202)。
【0103】
算出部153は、算出した目的化合物のベクトルを、学習済みの学習モデル70に入力することで、各サブ化合物のベクトルを算出する(ステップS203)。算出部153は、各サブ化合物のベクトルと各サブ化合物を出力する(ステップS204)。
【0104】
分析部154は、学習モデル70から出力された各サブ化合物のベクトルと、試薬ベクトルテーブルT2とを用いて、目的化合物を構成する各サブ化合物と類似した各試薬のベクトルを検索し、サブ化合物・試薬テーブル85を生成する(ステップS205)。
【0105】
次に、本実施例1に係る情報処理装置100の効果について説明する。情報処理装置100は、学習フェーズで、目的化合物のベクトルと、逆合成解析に基づく各サブ化合物(試薬)のベクトルとの関係を定義した学習データ65を基にして、学習モデル70の学習を実行しておく。情報処理装置100は、分析フェーズで、学習済みの学習モデル70に分析クエリのベクトルを入力することで、分析クエリの目的化合物に対応する各サブ化合物(試薬)のベクトルを算出する。学習モデル70から出力される各サブ化合物(試薬)のベクトルを用いることで、目的化合物の合成経路に定義されたサブ化合物に類似する試薬を検出することを容易に実行することができる。
【0106】
官能基の二次構造である目的化合物は、複数の官能基の一次構造であるサブ化合物で構成されている。また、サブ化合物を構成する複数の各官能基のベクトルの推移はゆるやかであが、サブ化合物の末尾の官能基のベクトルと、継続するサブ化合物の先頭の官能基のベクトルは乖離することが多い。実績のある逆合成解析された目的化合物の官能基の二次構造のベクトルと、サブ化合物の官能基の一次構造のベクトルをもとに、機械学習を行うことで、有機化合物の逆合成解析の精度を向上することができる。
【実施例2】
【0107】
図17は、本実施例2に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図17に示すように、情報処理装置は、学習データ90を用いて、学習モデル91の学習を実行する。学習モデル91は、CNNやRNN等に対応する。
【0108】
学習データ90は、目的化合物を合成する複数のサブ化合物のベクトルと、試薬を基に変換反応で保持される共通構造のベクトルとの関係を定義する。たとえば、サブ化合物のベクトルが、入力データに対応し、複数の共通構造のベクトルが正解値となる。
【0109】
情報処理装置は、サブ化合物のベクトルを学習モデル91に入力した際の出力が、各共通構造のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ90に含まれるサブ化合物のベクトルと、共通構造のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル91のパラメータを調整する(機械学習を実行する)。
【0110】
図18は、本実施例2に係る情報処理装置の処理を説明するための図である。実施例2に係る情報処理装置は、実施例1の情報処理装置100と同様にして、学習モデル70を学習しておいてもよい。また、情報処理装置は、図17で説明したように、学習モデル70とは別の、学習モデル91を学習する。学習モデル70は、分析クエリ(目的化合物)80のベクトルが入力された場合に、各サブ化合物のベクトルを出力する。学習モデル90は、分析クエリ(サブ化合物)92のベクトルが入力された場合に、共通構造のベクトルを出力する。
【0111】
情報処理装置は、サブ化合物を指定した分析クエリ92を受け付けると、サブ化合物ベクトルテーブルT3を用いて、分析クエリ92のサブ化合物をベクトルVsb92-1に変換する。情報処理装置は、サブ化合物のベクトルVsb92-1を、学習モデル91に入力することで、共通構造に対応するベクトルVcm92-1を算出する。
【0112】
ここで、情報処理装置は、サブ化合物のベクトルVsb92-1と、試薬ベクトルテーブルT2に含まれる複数の試薬のベクトルとを比較する。試薬ベクトルテーブルT2は、実施例1で説明した試薬ベクトルテーブルT2に対応する。
【0113】
情報処理装置は、サブ化合物のベクトルVsb92-1について、類似する試薬のベクトルを特定する。たとえば、サブ化合物のベクトルVsb92-1と類似する試薬のベクトルをVr92-1とする。そうすると、ベクトルVsb92-1のサブ化合物と、ベクトルVr92-1の試薬とで共通する共通構造のベクトルが、学習モデル91から出力されるベクトルVcm92-1となることがわかる。また、試薬のベクトルVr92-1から、共通構造のベクトルVcm92-1を減算した結果が、類似する試薬とサブ化合物とで相違する相違構造のベクトル(変換構造のベクトル)となる。
【0114】
情報処理装置は、共通構造のベクトルと、変換構造とのベクトルとの関係を、共通構造・変換構造テーブル93に登録する。情報処理装置は、各サブ化合物のベクトルについて、上記処理を繰り返し実行することで、共通構造・変換構造テーブル93を生成する。
【0115】
なお、情報処理装置は、「サブ化合物のベクトル-共通構造のベクトル=試薬のベクトル-共通構造のベクトル+変換構造ベクトル」の関係を用いて、変換構造のベクトルを算出してもよい。
【0116】
上記のように、本実施例2に係る情報処理装置は、学習済みの学習モデル91に分析クエリ92のベクトルを入力し、分析クエリのサブ化合物に対応する各共通構造のベクトルを算出する。また、サブ化合物に類似する試薬の各ベクトルから、共通構造のベクトルを減算することで、類似するサブ化合物と、試薬とで相違する変換構造のベクトルを算出する。上記の共通構造のベクトルや、変換構造のベクトルを用いることで、目的化合物の合成や製造に使用可能なよりよい試薬を容易に分析することができる。
【0117】
次に、本実施例2に係る情報処理装置の構成の一例について説明する。図19は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。図19に示すように、この情報処理装置200は、通信部210、入力部220、表示部230、記憶部240、制御部250を有する。
【0118】
通信部210、入力部220、表示部230に関する説明は、実施例1で説明した通信部110、入力部120、表示部130に関する説明と同様である。
【0119】
記憶部240は、化学構造式ファイル50、基符号化ファイル51、試薬符号化ファイル52、サブ化合物符号化ファイル53、目的化合物符号化ファイル54、共通構造符号化ファイル55を有する。記憶部240は、基辞書D1、試薬辞書D2、サブ化合物辞書D3、目的化合物辞書D4、共通構造辞書D5を有する。記憶部240は、基ベクトルテーブルT1、試薬ベクトルテーブルT2、サブ化合物ベクトルテーブルT3、目的化合物テーブルT4、共通構造ベクトルテーブルT5を有する。記憶部240は、基転置インデクスIn1、試薬転置インデックスIn2、サブ化合物転置インデックスIn3、目的化合物インデックスIn4、共通構造インデックスIn5を有する。記憶部240は、逆合成解析結果テーブル60、学習データ90、学習モデル91、分析クエリ92を有する。記憶部240は、共通構造・変換構造テーブル93を有する。
【0120】
記憶部240は、たとえば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
【0121】
化学構造式ファイル50、基符号化ファイル51、試薬符号化ファイル52、サブ化合物符号化ファイル53、目的化合物符号化ファイル54、共通構造符号化ファイル55に関する説明は、実施例1で説明した内容と同様である。基辞書D1、試薬辞書D2、サブ化合物辞書D3、目的化合物辞書D4、共通構造辞書D5に関する説明は、実施例1で説明した内容と同様である。基ベクトルテーブルT1、試薬ベクトルテーブルT2、サブ化合物ベクトルテーブルT3、目的化合物テーブルT4、共通構造ベクトルテーブルT5に関する説明は、実施例1で説明した内容と同様である。基転置インデクスIn1、試薬転置インデックスIn2、サブ化合物転置インデックスIn3、目的化合物インデックスIn4、共通構造インデックスIn5に関する説明は、実施例1で説明した内容と同様である。逆合成解析結果テーブル60は、実施例1で説明した内容と同様である。学習データ90は、図17で説明した内容と同様である。学習モデル91、分析クエリ92に関する説明は、図18で説明した内容と同様である。
【0122】
共通構造・変換構造テーブル93は、図18で説明したように、共通構造ベクトルに類似した試薬からサブ化合物に変換反応するための変換構造ベクトルの情報が含まれる。図18では、たとえば、共通構造・変換構造テーブル93には、Vcm92-1に対応した変換構造ベクトルが含まれる。共通構造のベクトルと、変換構造のベクトルとを積算したベクトルが、試薬のベクトルに対応するベクトルとなる。
【0123】
図19に説明に戻る。制御部250は、前処理部251、学習部252、算出部253、分析部254を有する。制御部250は、例えば、CPUやMPUにより実現される。また、制御部250は、例えばASICやFPGA等の集積回路により実行されてもよい。
【0124】
前処理部251に関する説明は、実施例1で説明した前処理部151に関する処理の説明と同様である。前処理部251によって、基符号化ファイル51、試薬符号化ファイル52、サブ化合物符号化ファイル53、目的化合物符号化ファイル54、共通構造符号化ファイル55が生成される。前処理部251によって、基ベクトルテーブルT1、試薬ベクトルテーブルT2、サブ化合物ベクトルテーブルT3、目的化合物テーブルT4、共通構造ベクトルテーブルT5が生成される。前処理部251によって、基転置インデクスIn1、試薬転置インデックスIn2、サブ化合物転置インデックスIn3、目的化合物インデックスIn4、共通構造インデックスIn5が生成される。前処理部251は、学習データ90を、外部装置から取得してもよいし、前処理部251が生成してもよい。
【0125】
学習部252は、学習データ90を用いて、学習モデル91の学習を実行する。学習部252の処理は、図17で説明した処理に対応する。学習部252は、学習データ90から、サブ化合物のベクトルと、このサブ化合物のベクトルに対応する共通構造のベクトルとの組を取得する。学習部252は、サブ化合物のベクトルを、学習モデル91に入力した場合の、学習モデル91の出力の値が、共通構造のベクトルの値に近づくように、誤差逆伝播による学習を実行することで、学習モデル91のパラメータを調整する。
【0126】
算出部253は、分析クエリ92の指定を受け付けた場合に、学習済みの学習モデル91を用いて、分析クエリ92のサブ化合物の合成経路で変換反応させる各共通構造のベクトルを算出する。算出部253は、算出した各共通構造のベクトルを、分析部254に出力する。
【0127】
以下の説明では、算出部253が算出した各共通構造のベクトルを、それぞれ「共通構造ベクトル」と表記する。
【0128】
分析部254は、分析クエリ92のサブ化合物のベクトルと、共通構造ベクトルと、試薬ベクトルテーブルT2とを基にして、共通構造・変更機構テーブル93を生成する。以下において、分析部254の処理の一例について説明する。
【0129】
分析部254は、サブ化合物のベクトルと、試薬ベクトルテーブルT2に含まれる各ベクトルとの距離をそれぞれ算出し、サブ化合物のベクトルとの距離が閾値未満となるベクトルを特定する。試薬ベクトルテーブルT2に含まれるベクトルであって、サブ化合物のベクトルとの距離が閾値未満となるベクトルを「類似ベクトル」と表記する。
【0130】
分析部254は、類似ベクトルから、共通構造ベクトルを減算することで、変換構造のベクトルを算出し、共通構造ベクトルと、変換構造のベクトルとの対応関係を特定する。分析部254は、共通構造ベクトルと、変換構造のベクトルとを共通構造・変換構造テーブル93に登録する。分析部245は、上記処理を繰り返し実行することで、共通構造・変換構造テーブル93を生成する。分析部245は、共通構造・変換構造テーブル93を、表示部230に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。
【0131】
次に、本実施例2に係る情報処理装置200の処理手順の一例について説明する。図20は、本実施例2に係る情報処理装置の処理手順を示すフローチャートである。情報処理装置200の算出部253は、分析クエリ92を受け付ける(ステップS301)。
【0132】
算出部253は、サブ化合物ベクトルテーブルT3を基にして、分析クエリ92のサブ化合物をベクトルに変換する(ステップS302)。
【0133】
算出部253は、サブ化合物のベクトルを、学習済みの学習モデル91に入力することで、共通構造のベクトルを算出する(ステップS303)。情報処理装置200の分析部254は、共通構造のベクトルと、試薬ベクトルテーブルT2の各ベクトルとの距離を基にして、類似試薬ベクトルを特定する(ステップS304)。
【0134】
分析部254は、サブ化合物と類似試薬の各ベクトルから共通構造のベクトルを減算することで、変換構造のベクトルを算出する(ステップS305)。分析部254は、共通構造のベクトルと、変換構造のベクトルとの関係を、共通構造・変換構造テーブルに登録する(ステップS306)。分析部254は、共通構造・変換構造テーブルの情報を出力する(ステップS307)。
【0135】
次に、本実施例2に係る情報処理装置200の効果について説明する。情報処理装置100は、学習済みの学習モデル91に分析クエリ92のベクトルを入力し、分析クエリのサブ化合物に対応する各共通構造のベクトルを算出する。また、サブ化合物に類似する試薬のベクトルから各、共通構造のベクトルを減算することで、類似するサブ化合物と、試薬とで相違する変換構造のベクトルを算出する。上記の共通構造のベクトルや、変換構造のベクトルを用いることで、目的化合物への変換反応や再合成や製造に使用可能なよりよい試薬を容易に分析することができる。
【0136】
サブ化合物と試薬は、複数の官能基で構成される一次構造である。また、官能基の分散ベクトルを用いることで、ある官能基に隣接する官能基を推定することができ、各官能基の結合度や安定性の評価に応用することができる。実績のあるサブ化合物への試薬からの変換反応に関し、サブ化合物や試薬の一次構造を構成する複数の官能基のベクトルをもとに、機械学習を行うことで、試薬からの変換反応と再合成の分析精度を向上することができる。
【0137】
次に、上記実施例に示した情報処理装置200(100)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図21は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
【0138】
図21に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
【0139】
ハードディスク装置307は、前処理プログラム307a、学習プログラム307b、算出プログラム307c、分析プログラム307dを有する。また、CPU301は、各プログラム307a~307dを読み出してRAM306に展開する。
【0140】
前処理プログラム307aは、前処理プロセス306aとして機能する。学習プログラム307bは、学習プロセス306bとして機能する。算出プログラム307cは、算出プロセス306cとして機能する。分析プログラム307dは、分析プロセス306dとして機能する。
【0141】
前処理プロセス306aの処理は、前処理部151,251の処理に対応する。学習プロセス306bの処理は、学習部152,252の処理に対応する。算出プロセス306cの処理は、算出部153,253の処理に対応する。分析プロセス306dの処理は、分析部154,254の処理に対応する。
【0142】
なお、各プログラム307a~307dについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307dを読み出して実行するようにしてもよい。
【符号の説明】
【0143】
50 化学構造式ファイル
51 基符号化ファイル
52 試薬符号化ファイル
53 サブ化合物符号化ファイル
54 目的化合物符号化ファイル
55 共通構造符号化ファイル
60 逆合成解析結果テーブル
65,90 学習データ
70,91 学習モデル
80,92 分析クエリ
85 サブ化合物・試薬テーブル
93 共通構造・変換構造テーブル
100,200 情報処理装置
110,210 通信部
120,220 入力部
130,230 表示部
140,240 記憶部
150,250 制御部
151,251 前処理部
152,252 学習部
153,253 算出部
154,254 分析部
図1
図2
図3
図4
図5
図6
図7A
図7B
図7C
図8
図9
図10A
図10B
図10C
図11
図12
図13A
図13B
図13C
図14
図15
図16
図17
図18
図19
図20
図21
図22