特許7563485 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7563485情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
7C
8
9
10A
10B
10C
11
12
13A
13B
13C
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-30

(45)【発行日】2024-10-08

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G16C 20/10 20190101AFI20241001BHJP

【ＦＩ】

G16C20/10

【請求項の数】 10

(21)【出願番号】P 2022569687

(86)(22)【出願日】2020-12-18

(86)【国際出願番号】 JP2020047562

(87)【国際公開番号】W WO2022130648

(87)【国際公開日】2022-06-23

【審査請求日】2023-04-18

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】片岡正弘

(72)【発明者】

【氏名】萩原稔

(72)【発明者】

【氏名】和田光人

(72)【発明者】

【氏名】松村量

【審査官】松野広一

(56)【参考文献】

【文献】中国特許出願公開第１０９８７２７８０（ＣＮ，Ａ）

【文献】特表２００１－５０７６７５（ＪＰ，Ａ）

【文献】特開２０２０－０１５４４２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２０／０１５２２９５（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０２８６７９１（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１９／０３４０１６０（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｃ１０／００－９９／００

ＪＳＴＰｌｕｓ／ＪＭＥＤＰｌｕｓ／ＪＳＴ７５８０（ＪＤｒｅａｍＩＩＩ）

ＰｕｂＭｅｄ

(57)【特許請求の範囲】

【請求項1】

コンピュータに、
目的化合物に対応する説明変数のベクトルと、前記目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象の目的化合物を受け付け、
前記分析対象の目的化合物を受け付けた場合、前記分析対象の目的化合物のベクトルを前記学習モデルに入力することで、前記分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する
処理を実行させることを特徴とする情報処理プログラム。

【請求項2】

前記算出する処理によって、算出された複数のサブ化合物のベクトルと、代替候補となる複数の試薬のベクトルとの類似度合いに基づき、前記分析対象の目的化合物のサブ化合物と代替可能な試薬を分析する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項3】

前記分析する処理は、前記代替可能な試薬の情報として、試薬の示性式の情報を検索し、検索結果を出力することを特徴とする請求項２に記載の情報処理プログラム。

【請求項4】

前記分析対象の目的化合物は複数の基を組み合わせた情報で示され、前記複数の基のベクトルを積算することで、前記分析対象の目的化合物のベクトルを算出する処理を更にコンピュータに実行させることを特徴とする請求項１に記載の情報処理プログラム。

【請求項5】

コンピュータに、
目的化合物を製造するための合成経路に含まれる複数のサブ化合物に対応する説明変数のベクトルと、サブ化合物の構造および試薬の構造のうち共通する構造を示す共通構造に対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象のサブ化合物を受け付け、
前記分析対象のサブ化合物を受け付けた場合、前記分析対象のサブ化合物のベクトルを前記学習モデルに入力することで、前記分析対象のサブ化合物に対応する共通構造のベクトルを算出する
処理を実行させることを特徴とする情報処理プログラム。

【請求項6】

前記サブ化合物のベクトルと、代替候補となる複数の試薬のベクトルとを類似を基にして、前記サブ化合物のベクトルに類似する試薬のベクトルを検索し、検索した試薬のベクトルと、前記算出した共通構造のベクトルとを基にして、前記サブ化合物の構造と、検索した試薬の構造とで異なる部分の構造を示す変換構造のベクトルを算出する処理を更にコンピュータに実行することを特徴とする請求項５に記載の情報処理プログラム。

【請求項7】

コンピュータが実行する情報処理方法であって、
目的化合物に対応する説明変数のベクトルと、前記目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象の目的化合物を受け付け、
前記分析対象の目的化合物を受け付けた場合、前記分析対象の目的化合物のベクトルを前記学習モデルに入力することで、前記分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する
処理を実行することを特徴とする情報処理方法。

【請求項8】

コンピュータが実行する情報処理方法であって、
目的化合物を製造するための合成経路に含まれる複数のサブ化合物に対応する説明変数のベクトルと、サブ化合物の構造および試薬の構造のうち共通する構造を示す共通構造に対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行し、
分析対象のサブ化合物を受け付け、
前記分析対象のサブ化合物を受け付けた場合、前記分析対象のサブ化合物のベクトルを前記学習モデルに入力することで、前記分析対象のサブ化合物に対応する共通構造のベクトルを算出する
処理を実行することを特徴とする情報処理方法。

【請求項9】

目的化合物に対応する説明変数のベクトルと、前記目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する学習部と、
分析対象の目的化合物を受け付け、
前記分析対象の目的化合物を受け付けた場合、前記分析対象の目的化合物のベクトルを前記学習モデルに入力することで、前記分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する算出部と
を有することを特徴とする情報処理装置。

【請求項10】

目的化合物を製造するための合成経路に含まれる複数のサブ化合物に対応する説明変数のベクトルと、サブ化合物の構造および試薬の構造のうち共通する構造を示す共通構造に対応する目的変数のベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する学習部と、
分析対象のサブ化合物を受け付け、
前記分析対象のサブ化合物を受け付けた場合、前記分析対象のサブ化合物のベクトルを前記学習モデルに入力することで、前記分析対象のサブ化合物に対応する共通構造のベクトルを算出する算出部と
を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理プログラム等に関する。

【背景技術】

【0002】

自然界の存在する天然有機化合物は創薬の候補として非常に有望であるが、希少であり、かかる天然有機化合物をそのまま用いて、各種の製品を製造することは難しい。このため、安価で入手しやすい原料や試薬をもとに、汎用性の高い変換反応を用いて、希少な天然有機化合物に相当する有機化合物を製造している。以下の説明では、天然有機化合物に相当する有機化合物を「目的化合物」と表記する。

【0003】

たとえば、天然有機化合物に対して、逆合成解析を実行することで、目的化合物を製造するために変換反応させる複数の試薬（あるいは原料）の組み合わせや、合成の順番等を示す合成経路を設計する従来技術がある。かかる従来技術によって設計された合成経路に基づいて、試薬を順に反応させていくことで、目的化合物が合成され、製造される。

【0004】

図２２は、逆合成および合成経路の一例を説明するための図である。たとえば、アスピリン（鎮痛剤）として知られるアセチルサリチル酸１－１の逆合成について説明する。アセチルサリチル酸１－１の官能基は、エステルとカルボキシル基である。エステルはカルボン酸とアルコールから得られるので、アセチルサリチル酸１－１の前の前駆体は、サリチル酸１－２であり、用いる試薬は無水酢酸となる。サリチル酸１－２は、安価なフェノールのナトリウム塩に、二酸化炭素を高圧化で反応させるKolbe-Schmitt反応から得られるので、サリチル酸の前駆体はフェノール１－３となる。かかる逆合成の結果を基にして、合成経路１－４が設計され、フェノール１－３からアセチルサリチル酸１－１が合成される。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０２０－１５４４４２号公報

【文献】特表２００１－５０７６７５号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

目的化合物を製造するために逆合成解析で得られた複数の試薬は、類似の特性を有する他の試薬によって代替可能である場合には、入手しやすく、より安価で変換反応できる他の試薬に切り替えて目的化合物を合成し、製造することが有効である。しかし、従来技術では、無数に存在する試薬の候補から、代替可能な試薬を絞り込み、変換反応を特定することが困難である。

【0007】

１つの側面では、本発明は、目的化合物の逆合成解析で得られた試薬に類似する試薬を検出し、その変換反応を特定することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0008】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、目的化合物に対応するベクトルと、目的化合物を製造するための合成経路に含まれる複数のサブ化合物のそれぞれに対応するベクトルとの関係を定義した学習データを基にして、学習モデルの学習を実行する。コンピュータは、分析対象の目的化合物を受け付けた場合、分析対象の目的化合物のベクトルを学習モデルに入力することで、分析対象の目的化合物に対応する複数のサブ化合物のベクトルを算出する。

【発明の効果】

【0009】

目的化合物の試薬に類似する試薬を検出することができる。

【図面の簡単な説明】

【0010】

【図1】図１は、本実施例１に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。

【図2】図２は、本実施例１に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。

【図3】図３は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。

【図4】図４は、化学構造式ファイルのデータ構造の一例を示す図である。

【図5】図５は、基辞書の一例を示す図である。

【図6】図６は、試薬辞書の一例を示す図である。

【図7A】図７Ａは、サブ化合物辞書の一例を示す図である。

【図7B】図７Ｂは、目的化合物辞書の一例を示す図である。

【図7C】図７Ｃは、共通構造辞書の一例を示す図である。

【図8】図８は、基ベクトテーブルのデータ構造の一例を示す図である。

【図9】図９は、試薬ベクトテーブルのデータ構造の一例を示す図である。

【図10A】図１０Ａは、サブ化合物ベクトテーブルのデータ構造の一例を示す図である。

【図10B】図１０Ｂは、目的化合物ベクトテーブルのデータ構造の一例を示す図である。

【図10C】図１０Ｃは、共通構造ベクトテーブルのデータ構造の一例を示す図である。

【図11】図１１は、基転置インデックスのデータ構造の一例を示す図である。

【図12】図１２は、試薬転置インデックスのデータ構造の一例を示す図である。

【図13A】図１３Ａは、サブ化合物転置インデックスのデータ構造の一例を示す図である。

【図13B】図１３Ｂは、目的化合物転置インデックスのデータ構造の一例を示す図である。

【図13C】図１３Ｃは、共通構造転置インデックスのデータ構造の一例を示す図である。

【図14】図１４は、逆合成解析テーブルのデータ構造の一例を示す図である。

【図15】図１５は、本実施例１に係る情報処理装置の処理手順を示すフローチャート（１）である。

【図16】図１６は、本実施例１に係る情報処理装置の処理手順を示すフローチャート（２）である。

【図17】図１７は、本実施例２に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。

【図18】図１８は、本実施例２に係る情報処理装置の処理を説明するための図である。

【図19】図１９は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。

【図20】図２０は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。

【図21】図２１は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図22】図２２は、逆合成および合成経路の一例を説明するための図である。

【発明を実施するための形態】

【0011】

以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例1】

【0012】

本実施例１に係る情報処理装置の処理の一例について説明する。本実施例１に係る情報処理装置は、事前処理によって、目的化合物のベクトルを算出する処理、目的化合物に対応する各サブ化合物（試薬）のベクトルをそれぞれ算出する処理を実行しておくものとする。なお、目的化合物に対して逆合成解析が実行されることで、目的化合物を製造するための合成経路が設計され、目的化合物と、かかる目的化合物を合成し、製造するための各試薬と変換反応との関係が特定される。

【0013】

図１は、本実施例１に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図１に示すように、情報処理装置は、学習データ６５を用いて、学習モデル７０の学習を実行する。学習モデル７０は、ＣＮＮ（Convolutional Neural Network）やＲＮＮ（Recurrent Neural Network）等に対応する。

【0014】

学習データ６５は、逆合成解析と合成の実績がある目的化合物のベクトルと、目的化合物を逆合成解析し、合成するための用いられる複数のサブ化合物のベクトルとの関係を定義する。たとえば、目的化合物のベクトルが、入力データに対応し、複数のサブ化合物のベクトルがその出力データの正解値となる。

【0015】

情報処理装置は、目的化合物のベクトルを学習モデル７０に入力した際の出力が、各サブ化合物のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ６５に含まれる目的化合物のベクトルと、複数のサブ化合物のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル７０のパラメータを調整する（機械学習を実行する）。

【0016】

図２は、本実施例１に係る情報処理装置の分析フェーズの処理の一例を説明するための図である。情報処理装置は、分析フェーズにおいて、学習フェーズで学習した学習モデル７０を用いて次の処理を実行する。

【0017】

情報処理装置は、目的化合物を指定した分析クエリ８０を受け付けると、分析クエリ８０の目的化合物をベクトルＶｏｂ８０に変換する。情報処理装置は、ベクトルＶｏｂ８０を、学習モデル７０に入力することで、各サブ化合物に対応する複数のベクトル（Ｖｓｂ８０－１、Ｖｓｂ８０－２、Ｖｓｂ８０－３、・・・Ｖｓｂ８０－ｎ）を算出する。

【0018】

情報処理装置は、試薬ベクトルテーブルＴ２に格納された、各試薬に対応する複数のベクトル（Ｖｒ８０－１、Ｖｒ８０－２、Ｖｒ８０－３、・・・Ｖｒ８０－ｎ）と、各サブ化合物に対応する複数のベクトル（Ｖｓｂ８０－１、Ｖｓｂ８０－２、Ｖｓｂ８０－３、・・・Ｖｓｂ８０－ｎ）との類似度を比較して、類似するサブ化合物と、試薬とを分析する。情報処理装置は、類似するサブ化合物のベクトルと、試薬のベクトルとを対応付けて、サブ化合物・試薬テーブル８５に登録する。

【0019】

上記のように、本実施例１に係る情報処理装置は、目的化合物のベクトルと、逆合成解析に基づく各サブ化合物のベクトルとの関係を定義した学習データ６５を基にして、学習モデル７０の学習を実行しておく。情報処理装置は、学習済みの学習モデル７０に分析クエリのベクトルを入力することで、分析クエリの目的化合物に対応する各サブ化合物のベクトルを算出する。学習モデル７０から出力される各サブ化合物のベクトルを用いることで、目的化合物の合成経路に定義されたサブ化合物に類似する各試薬を検出することを容易に実行することができる。

【0020】

次に、本実施例１に係る情報処理装置の構成の一例について説明する。図３は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図３に示すように、この情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

【0021】

通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

【0022】

入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0023】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、タッチパネル等に対応する。

【0024】

記憶部１４０は、化学構造式ファイル５０、基符号化ファイル５１、試薬符号化ファイル５２、サブ化合物符号化ファイル５３、目的化合物符号化ファイル５４、共通構造符号化ファイル５５を有する。記憶部１４０は、基辞書Ｄ１、試薬辞書Ｄ２、サブ化合物辞書Ｄ３、目的化合物辞書Ｄ４、共通構造辞書Ｄ５を有する。記憶部１４０は、基ベクトルテーブルＴ１、試薬ベクトルテーブルＴ２、サブ化合物テーブルＴ３、目的化合物ベクトルテーブルＴ４、共通構造ベクトルテーブルＴ５を有する。記憶部１４０は、基転置インデクスＩｎ１、試薬転置インデックスＩｎ２、サブ化合物転置インデックスＩｎ３、目的化合物インデックスＩｎ４、共通構造インデックスＩｎ５を有する。記憶部１４０は、逆合成解析結果テーブル６０、学習データ６５、学習モデル７０、分析クエリ８０、サブ化合物・試薬テーブル８５を有する。

【0025】

記憶部１４０は、たとえば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0026】

化学構造式ファイル５０は、複数の官能基の示性式を含む情報であり、最小単位の官能基の示性式が組み合わされることで、一次構造あるいは二次構造の示性式となるものとする。本実施例１では一例として、一次構造の示性式が「サブ化合物」または「試薬」に対応し、二次構造（あるいは、高次構造）の示性式が「目的化合物（あるいは、天然有機化合物）」に対応するものとして説明を行う。

【0027】

たとえば、化学構造式ファイル５０は、各サブ化合物（または試薬）に対応する示性式を記述したサブ化合物（試薬）記述領域と、各目的化合物に対応する示性式を記述した目的化合物記述領域とに分けられる。また、化学構造式ファイル５０は、後述する逆合成解析結果テーブル６０の情報を含んでいてもよい。

【0028】

図４は、化学構造式ファイルのデータ構造の一例を示す図である。示性式（化学構造式）は化合物を構成する元素の配列を示す式であり、ＳＭＩＬＥＳ法などで記述されてもよい。

【0029】

官能基の基符号化ファイル５１は、化学構造式ファイル５０を、基の単位で圧縮したファイルである。後述するように、基符号化ファイル５１は、化学構造式ファイル５０と、基辞書Ｄ１とを基にして作成される。

【0030】

試薬符号化ファイル５２は、基符号化ファイル５１の試薬圧縮領域を基に生成されるファイルであり、試薬の単位で圧縮されたファイルである。１つの試薬の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、試薬符号化ファイル５２は、試薬圧縮領域の圧縮符号と、試薬辞書Ｄ２とを基にして作成される。

【0031】

サブ化合物符号化ファイル５３は、基符号化ファイル５１を基に生成されるファイルであり、サブ化合物の単位で圧縮されたファイルである。１つのサブ化合物の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、サブ化合物符号化ファイル５３は、サブ化合物圧縮領域の圧縮符号と、サブ化合物辞書Ｄ３とを基にして作成される。

【0032】

目的化合物符号化ファイル５４は、基符号化ファイル５１の目的化合物圧縮領域を基に生成されるファイルであり、目的化合物の単位で圧縮されたファイルである。１つの目的化合物の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、目的化合物符号化ファイル５４は、目的化合物圧縮領域の圧縮符号と、目的化合物辞書Ｄ４とを基にして作成される。

【0033】

共通構造符号化ファイル５５は、基符号化ファイル５１を基に生成されるファイルであり、共通構造の単位で圧縮されたファイルである。１つの共通構造の圧縮符号は、複数の基の圧縮符号の組み合わせに対応する。後述するように、共通構造符号化ファイル５５は、共通構造領域の圧縮符号と、共通構造辞書Ｄ５とを基にして作成される。

【0034】

基辞書Ｄ１は、基の圧縮符号と基を構成する元素の配列を示性式で定義したものである。図５は、基辞書の一例を示す図である。図５に示すように、基辞書Ｄ１は、圧縮符号と、名称と、示性式とを対応付ける。圧縮符号は、基に割り当てられた圧縮符号である。名称は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。

【0035】

たとえば「メチル基」には、圧縮符号「Ｄ０００８０００ｈ」が割り当てられる。圧縮符号「Ｄ０００８０００ｈ」に対応する示性式は「ＣＨ３」となる。「ｈ」は、圧縮符号が１６進数であることを示す記号である。

【0036】

試薬辞書Ｄ２は、試薬の圧縮符号と、かかる試薬を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図６は、試薬辞書の一例を示す図である。図６に示すように、試薬辞書Ｄ２は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、試薬に割り当てられた圧縮符号である。名称は、該当する試薬の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。

【0037】

サブ化合物辞書Ｄ３は、目的化合物の圧縮符号と、かかる目的化合物を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図７Ａは、サブ化合物辞書の一例を示す図である。図７Ａに示すように、サブ化合物辞書Ｄ３は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、サブ化合物に割り当てられた圧縮符号である。名称は、該当するサブ化合物の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。

【0038】

目的化合物辞書Ｄ４は、目的化合物の圧縮符号と、かかる目的化合物を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図７Ｂは、目的化合物辞書の一例を示す図である。図７Ｂに示すように、目的化合物辞書Ｄ４は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、目的化合物に割り当てられた圧縮符号である。名称は、該当する目的化合物の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。

【0039】

共通構造辞書Ｄ５は、複数の試薬に含まれる構造のうち、共通する構造である。共通構造辞書Ｄ５は、共通構造の圧縮符号と、かかる共通構造を構成する複数の基の圧縮符号の組み合わせとの関係を定義する。図７Ｃは、共通構造辞書の一例を示す図である。図７Ｃに示すように、共通構造辞書Ｄ５は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、共通構造に割り当てられた圧縮符号である。名称は、該当する共通構造の名称の一例である。基符号配列は、複数の基の圧縮符号を組み合わせた符号配列である。

【0040】

基ベクトルテーブルＴ１は、基のベクトルを定義するテーブルである。図８は、基ベクトテーブルのデータ構造の一例を示す図である。図８に示すように、この基ベクトルテーブルＴ１は、基の圧縮符号と、この基の圧縮符号に割り当てられたベクトルとが対応付けられる。基のベクトルは、ポアンカレエンベッディングによって算出される。

【0041】

試薬ベクトルテーブルＴ２は、試薬のベクトルを定義するテーブルである。図９は、試薬ベクトテーブルのデータ構造の一例を示す図である。図９に示すように、この試薬ベクトルテーブルＴ２は、試薬の圧縮符号と、この試薬の圧縮符号に割り当てられたベクトルとが対応付けられる。試薬のベクトルは、試薬を構成する基の圧縮符号のベクトルを積算したものとなる。試薬ベクトルテーブルＴ２は、試薬の名称、試薬の示性式等の特徴を更に対応付けて保持してもよい。

【0042】

サブ化合物ベクトルテーブルＴ３は、サブ化合物のベクトルを定義するテーブルである。図１０Ａは、サブ化合物ベクトテーブルのデータ構造の一例を示す図である。図１０Ａに示すように、このサブ化合物ベクトルテーブルＴ３は、サブ化合物の圧縮符号と、このサブ化合物の圧縮符号に割り当てられたベクトルとが対応付けられる。サブ化合物のベクトルは、サブ化合物を構成する基の圧縮符号のベクトルを積算したものとなる。サブ化合物ベクトルテーブルＴ３は、サブ化合物の名称、サブ化合物の示性式等の特徴を更に対応付けて保持してもよい。

【0043】

目的化合物ベクトルテーブルＴ４は、目的化合物のベクトルを定義するテーブルである。図１０Ｂは、目的化合物ベクトテーブルのデータ構造の一例を示す図である。図１０Ｂに示すように、この目的化合物ベクトルテーブルＴ３は、目的化合物の圧縮符号と、この目的化合物の圧縮符号に割り当てられたベクトルとが対応付けられる。目的化合物のベクトルは、目的化合物を構成する基の圧縮符号のベクトルを積算したものとなる。

【0044】

共通構造ベクトルテーブルＴ５は、共通構造のベクトルを定義するテーブルである。図１０Ｃは、共通構造ベクトテーブルのデータ構造の一例を示す図である。図１０Ｃに示すように、この共通構造ベクトルテーブルＴ５は、共通構造の圧縮符号と、この共通構造の圧縮符号に割り当てられたベクトルとが対応付けられる。共通構造のベクトルは、共通構造を構成する基の圧縮符号のベクトルを積算したものとなる。

【0045】

基転置インデックスＩｎ１は、基の圧縮符号について、基符号化ファイル５１の出現位置（オフセット）を示す。図１１は、基転置インデックスのデータ構造の一例を示す図である。図１１に示すように、基転置インデックスＩｎ１の横軸は、オフセットに対応する軸である。基転置インデックスＩｎ１の縦軸は、基の圧縮符号に対応する軸である。基転置インデックスＩｎ１は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0046】

たとえば、基符号化ファイル５１の先頭の基の圧縮符号のオフセットを「０」とする。基符号化ファイル５１の先頭から２番目の位置に、基の符号「Ｄ００８０００ｈ（メチル基）」が含まれる場合、基転置インデックスＩｎ１のオフセット「１」の列と、基の圧縮符号「Ｄ００８０００ｈ（メチル基）」の行とが交差する位置のビットが「１」となる。

【0047】

試薬転置インデックスＩｎ２は、試薬の圧縮符号について、試薬符号化ファイル５２の出現位置（オフセット）を示す。図１２は、試薬転置インデックスのデータ構造の一例を示す図である。図１２に示すように、試薬転置インデックスＩｎ２の横軸は、オフセットに対応する軸である。試験薬転置インデックスＩｎ２の縦軸は、試薬の圧縮符号に対応する軸である。試薬転置インデックスＩｎ２は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0048】

たとえば、試薬符号化ファイル５２の先頭の試薬の圧縮符号のオフセットを「０」とする。試薬符号化ファイル５２の先頭から９番目の位置に、試薬の符号「Ｄ０００８０００ｈ」が含まれる場合、試薬転置インデックスＩｎ２のオフセット「８」の列と、試薬の圧縮符号「Ｄ０００８０００ｈ」の行とが交差する位置のビットが「１」となる。

【0049】

サブ化合物転置インデックスＩｎ３は、サブ化合物の圧縮符号について、サブ化合物符号化ファイル５３の出現位置（オフセット）を示す。図１３Ａは、サブ化合物転置インデックスのデータ構造の一例を示す図である。図１３Ａに示すように、サブ化合物転置インデックスＩｎ３の横軸は、オフセットに対応する軸である。サブ化合物転置インデックスＩｎ３の縦軸は、サブ化合物の圧縮符号に対応する軸である。サブ化合物転置インデックスＩｎ３は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0050】

たとえば、サブ化合物符号化ファイル５３の先頭のサブ化合物の圧縮符号のオフセットを「０」とする。サブ化合物符号化ファイル５３の先頭から９番目の位置に、サブ化合物の符号「Ｄ０００８０００ｈ」が含まれる場合、サブ化合物転置インデックスＩｎ３のオフセット「８」の列と、サブ化合物の圧縮符号「Ｄ０００８０００ｈ」の行とが交差する位置のビットが「１」となる。

【0051】

目的化合物転置インデックスＩｎ４は、目的化合物の圧縮符号について、目的化合物符号化ファイル５４の出現位置（オフセット）を示す。図１３Ｂは、目的化合物転置インデックスのデータ構造の一例を示す図である。図１３Ｂに示すように、目的化合物転置インデックスＩｎ４の横軸は、オフセットに対応する軸である。目的化合物薬転置インデックスＩｎ４の縦軸は、目的化合物の圧縮符号に対応する軸である。目的化合物転置インデックスＩｎ４は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0052】

たとえば、目的化合物符号化ファイル５４の先頭の目的化合物の圧縮符号のオフセットを「０」とする。目的化合物符号化ファイル５４の先頭から９番目の位置に、目的化合物の符号「Ｄ０００８０００ｈ」が含まれる場合、目的化合物転置インデックスＩｎ４のオフセット「８」の列と、目的化合物の圧縮符号「Ｄ０００８０００ｈ」の行とが交差する位置のビットが「１」となる。

【0053】

共通構造転置インデックスＩｎ５は、共通構造の圧縮符号について、共通構造符号化ファイル５５の出現位置（オフセット）を示す。図１３Ｃは、共通構造転置インデックスのデータ構造の一例を示す図である。図１３Ｃに示すように、共通構造転置インデックスＩｎ５の横軸は、オフセットに対応する軸である。共通構造転置インデックスＩｎ５の縦軸は、共通構造の圧縮符号に対応する軸である。共通構造転置インデックスＩｎ５は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

【0054】

たとえば、共通構造符号化ファイル５５の先頭の共通構造の圧縮符号のオフセットを「０」とする。共通構造符号化ファイル５５の先頭から９番目の位置に、共通構造の符号「Ｄ０００８０００ｈ」が含まれる場合、共通構造転置インデックスＩｎ４のオフセット「８」の列と、サブ化合物の圧縮符号「Ｄ０００８０００ｈ」の行とが交差する位置のビットが「１」となる。

【0055】

逆合成解析結果テーブル６０は、目的化合物（目的化合物に相当する天然有機化合物）に対して、逆合成解析を実行することで得られる情報（合成経路）を保持する。図１４は、逆合成解析結果テーブルのデータ構造の一例を示す図である。図１４に示すように、この逆合成解析結果テーブル６０は、目的化合物の名称と、かかる目的化合物に対して逆合成解析を行うことで得られた合成経路とを対応付ける。合計経路には、合成経路の途中で反応させる各試薬の名称が含まれるものとする。

【0056】

なお、図１４では、目的化合物の名称と、各サブ化合物（試薬）の名称とを対応付ける場合について説明したが、これに限定されるものではなく、示性式で、目的化合物と、各サブ化合物（試薬）の名称とを対応付けてもよい。また、逆合成解析結果テーブル６０の情報は、化学構造式ファイル５０の一部であってもよい。

【0057】

学習データ６５は、目的化合物のベクトルと、目的化合物を製造するための用いられる複数のサブ化合物（試薬）のベクトルとの関係を定義する。学習データ６５のデータ構造は、図１で説明した学習データのデータ構造に対応する。

【0058】

学習モデル７０は、ＣＮＮやＲＮＮ等に対応するモデルであり、パラメータが設定される。

【0059】

分析クエリ８０には、試薬の分析対象となる目的化合物の示性式の情報が含まれる。

【0060】

サブ化合物・試薬テーブル８５は、類似するサブ化合物のベクトルと、試薬のベクトルとを対応付けて保持するテーブルである。サブ化合物・試薬テーブル８５のデータ構造は、図２で説明したサブ化合物・試薬テーブルのデータ構造に対応する。

【0061】

図３の説明に戻る。制御部１５０は、前処理部１５１、学習部１５２、算出部１５３、分析部１５４を有する。制御部１５０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ(Micro Processing Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実行されてもよい。

【0062】

前処理部１５１は、下記の各種の処理を実行することで、目的化合物のベクトルおよびサブ化合物（試薬）のベクトル等を算出する。

【0063】

たとえば、前処理部１５１は、基符号化ファイル５１を生成する処理、基ベクトルテーブルＴ１、基転置インデックスＩｎ１を生成する処理、試薬符号化ファイル５２、試薬ベクトルテーブルＴ２、試薬転置インデックスＩｎ２を生成する処理を実行する。前処理部１５１は、サブ化合物符号化ファイル５３、サブ化合物ベクトルテーブルＴ３、サブ化合物転置インデックスＩｎ３を生成する処理を実行する。前処理部１５１は、目的化合物符号化ファイル５４、目的化合物ベクトルテーブルＴ４、目的化合物転置インデックスＩｎ４を生成する処理を実行する。前処理部１５１は、学習データ６５を生成する処理を実行する。

【0064】

前処理部１５１が、基符号化ファイル５１を生成する処理の一例について説明する。前処理部１５１は、化学構造式ファイル５０と、基辞書Ｄ１とを基にして、化学構造式ファイル５０に含まれる基の示性式を特定し、特定した基の示性式を圧縮符号に置き換える処理を繰り返し実行することで、基符号化ファイル５１を生成する。たとえば、基符号化ファイル５１には、試薬圧縮領域と、サブ化合物圧縮領域と、目的化合物圧縮領域とが含まれる。

【0065】

前処理部１５１は、基符号化ファイル５１の試薬記述領域に含まれる各示性式に対して、上記処理を実行することで、試薬圧縮領域の基符号化配列を生成する。前処理部１５１は、基符号化ファイル５１のサブ化合物記述領域に含まれる各示性式に対して、上記処理を実行することで、サブ化合物圧縮領域の基符号化配列を生成する。前処理部１５１は、基符号化ファイル５１の目的化合物記述領域に含まれる各示性式に対して、上記処理を実行することで、目的化合物圧縮領域の基符号化配列を生成する。

【0066】

前処理部１５１が、基ベクトルテーブルＴ１、基転置インデックスＩｎ１を生成する処理の一例について説明する。前処理部１５１は、基ベクトルテーブルＴ１を生成する際に、ポアンカレエンベッディングを実行する。

【0067】

前処理部１５１は、基の圧縮符号を、ポアンカレ空間に埋め込むことで、基（基の圧縮符号）のベクトルを算出する。ポアンカレ空間に埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング（Poincare Embeddings）と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。

【0068】

ポアンカレエンベディングでは、ポアンカレ空間に埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、類似の特徴を有する各基は、ポアンカレ空間において、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。図示を省略するが、前処理部１５１は、類似する基同士を定義した基類似テーブルを参照して、各基の圧縮符号をポアンカレ空間に埋め込み、各基の圧縮符号のベクトルを算出する。前処理部１５１は、基辞書Ｄ１に定義された各基の圧縮符号に対して、ポアンカレエンベッディングを事前に実行しておいてもよい。

【0069】

前処理部１５１は、基（基の圧縮符号）と、基のベクトルとを対応付けることで、基ベクトルテーブルＴ１を生成する。前処理部１５１は、基のベクトルと、基符号化ファイル５１における基（基の圧縮符号）の位置との関係を基にして、基転置インデックスＩｎ１を生成する。

【0070】

前処理部１５１が、試薬符号化ファイル５２、試薬ベクトルテーブルＴ２、試薬転置インデックスＩｎ２を生成する処理の一例について説明する。前処理部１５１は、基符号化ファイル５１に含まれる試薬圧縮領域の基符号化配列と、試薬辞書Ｄ２とを基にして、試薬に対応する基符号化配列を、試薬の圧縮符号に置き換える処理を繰り返し実行することで、試薬符号化ファイル５２を生成する。

【0071】

前処理部１５１は、試薬に対応する基符号化配列と、基ベクトルテーブルＴ１とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、試薬に対応するベクトルを算出する。

【0072】

前処理部１５１は、試薬（試薬の圧縮符号）と、試薬のベクトルとを対応付けることで、試薬ベクトルテーブルＴ２を生成する。前処理部１５１は、試薬のベクトルと、試薬符号化ファイル５２における試薬（試薬の圧縮符号）の位置との関係を基にして、試薬転置インデックスＩｎ２を生成する。

【0073】

前処理部１５１が、サブ化合物符号化ファイル５３、サブ化合物ベクトルテーブルＴ３、サブ化合物転置インデックスＩｎ３を生成する処理の一例について説明する。前処理部１５１は、基符号化ファイル５１に含まれるサブ化合物圧縮領域の基符号化配列と、サブ化合物辞書Ｄ３とを基にして、サブ化合物に対応する基符号化配列を、サブ化合物の圧縮符号に置き換える処理を繰り返し実行することで、サブ化合物符号化ファイル５３を生成する。

【0074】

前処理部１５１は、サブ化合物に対応する基符号化配列と、基ベクトルテーブルＴ１とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、サブ化合物に対応するベクトルを算出する。

【0075】

前処理部１５１は、サブ化合物（サブ化合物の圧縮符号）と、サブ化合物のベクトルとを対応付けることで、サブ化合物ベクトルテーブルＴ３を生成する。前処理部１５１は、サブ化合物のベクトルと、サブ化合物符号化ファイル５３におけるサブ化合物（サブ化合物の圧縮符号）の位置との関係を基にして、サブ化合物転置インデックスＩｎ３を生成する。

【0076】

前処理部１５１が、目的化合物符号化ファイル５４、目的化合物ベクトルテーブルＴ４、目的化合物転置インデックスＩｎ４を生成する処理の一例について説明する。前処理部１５１は、基符号化ファイル５１に含まれる目的化合物圧縮領域の基符号化配列と、目的化合物辞書Ｄ４とを基にして、目的化合物に対応する基符号化配列を、目的化合物の圧縮符号に置き換える処理を繰り返し実行することで、目的化合物符号化ファイル５４を生成する。

【0077】

前処理部１５１は、目的化合物に対応する基符号化配列と、基ベクトルテーブルＴ１とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、目的化合物に対応するベクトルを算出する。

【0078】

前処理部１５１は、目的化合物（目的化合物の圧縮符号）と、目的化合物のベクトルとを対応付けることで、目的化合物ベクトルテーブルＴ４を生成する。前処理部１５１は、目的化合物のベクトルと、目的化合物符号化ファイル５４における目的化合物（目的化合物の圧縮符号）の位置との関係を基にして、目的化合物転置インデックスＩｎ４を生成する。

【0079】

前処理部１５１は、共通構造符号化ファイル５５、共通構造ベクトルテーブルＴ５、共通構造転置インデックスＩｎ５を生成してもよい。前処理部１５１は、基符号化ファイル５１に含まれる共通構造領域の基符号化配列と、共通構造辞書Ｄ５とを基にして、共通構造に対応する基符号化配列を、共通構造の圧縮符号に置き換える処理を繰り返し実行することで、共通構造符号化ファイル５５を生成する。

【0080】

前処理部１５１は、共通構造に対応する基符号化配列と、基ベクトルテーブルＴ１とを比較することで、基符号化配列に含まれる各基の圧縮符号を特定し、特定した各基の圧縮符号のベクトルを積算することで、共通構造に対応するベクトルを算出する。

【0081】

前処理部１５１は、共通構造（共通構造の圧縮符号）と、共通構造のベクトルとを対応付けることで、共通構造ベクトルテーブルＴ５を生成する。前処理部１５１は、共通構造のベクトルと、共通構造符号化ファイル５５における共通構造（共通構造の圧縮符号）の位置との関係を基にして、共通構造インデックスＩｎ５を生成する。

【0082】

前処理部１５１が、学習データ６５を生成する処理の一例について説明する。前処理部１５１は、逆合成解析結果テーブル６０を基にして、目的化合物の名称と、この目的化合物の合成経路で反応させる複数のサブ化合物（試薬）の名称との関係を特定する。前処理部１５１は、目的化合物の名称と、目的化合物ベクトルテーブルＴ４とを基にして、目的化合物のベクトルを特定する。前処理部１５１は、各サブ化合物（試薬）の名称と、試薬ベクトルテーブルＴ２（あるいは、サブ化合物ベクトルテーブルＴ３）とを基にして、サブ化合物（試薬）のベクトルを特定する。前処理部１５１は、かかる処理によって、目的化合物のベクトルと、目的化合物の合成経路で反応させる各サブ化合物（試薬）のベクトルとの関係を特定し、学習データ６５に登録する。

【0083】

前処理部１５１は、逆合成解析結果テーブル６０の各レコード（目的化合物の名称、各サブ化合物（試薬）の名称）について、上記の処理を繰り返し実行することで、学習データ６５を生成する。

【0084】

図３の説明に戻る。学習部１５２は、学習データ６５を用いて、学習モデル７０の学習を実行する。学習部１５２の処理は、図１で説明した処理に対応する。学習部１５２は、学習データ６５から、目的化合物のベクトルと、この目的化合物のベクトルに対応する各サブ化合物（試薬）のベクトルとの組を取得する。学習部１５２は、目的化合物のベクトルを、学習モデル７０に入力した場合の、学習モデル７０の出力の値が、各サブ化合物（試薬）のベクトルの値に近づくように、誤差逆伝播による学習を実行することで、学習モデル７０のパラメータを調整する。

【0085】

学習部１５２は、学習データ６５の目的化合物のベクトルと、各サブ化合物（試薬）のベクトルとの組について、上記処理を繰り返し実行することで、学習モデル７０の学習を実行する。

【0086】

算出部１５３は、分析クエリ８０の指定を受け付けた場合に、学習済みの学習モデル７０を用いて、分析クエリ８０の目的化合物の合成経路で反応させる各サブ化合物のベクトルを算出する。算出部１５３の処理は、図２で説明した処理に対応する。算出部１５３は、分析クエリ８０を、入力部１２０から受付けてもよいし、通信部１１０を介して、外部装置から受付けてもよい。

【0087】

算出部１５３は、分析クエリ８０に含まれる目的化合物の示性式を取得する。算出部１５３は、目的化合物の示性式と、基辞書Ｄ１とを比較して、目的化合物の示性式に含まれる基を特定し、基の単位で、目的化合物の示性式をそれぞれ圧縮符号に変換する。

【0088】

算出部１５３は、変換した各基の圧縮符号と、基ベクトルテーブルＴ１とを比較して、各基の圧縮符号のベクトルを特定する。算出部１５３は、特定した各基の圧縮符号のベクトルを積算することで、分析クエリ８０に含まれる目的化合物に対応するベクトルＶｏｂ８０を算出する。

【0089】

算出部１５３は、ベクトルＶｏｂ８０を、学習モデル７０に入力することで、各サブ化合物（試薬）に対応する複数のベクトルを算出する。算出部１５３は、算出した各サブ化合物のベクトルを、分析部１５４に出力する。

【0090】

以下の説明では、算出部１５３が算出した各サブ化合物（試薬）のベクトルを、それぞれ「分析ベクトル」と表記する。

【0091】

分析部１５４は、分析ベクトルを基にして、分析ベクトルに類似するベクトルを有する試薬の情報を検索する。分析部１５４は、検索結果を基にして、目的化合物を構成する各サブ化合物のベクトルと類似した各試薬のベクトル（以下に示す類似ベクトル）とを対応付けて、サブ化合物・試薬テーブル８５に登録する。

【0092】

たとえば、分析部１５４は、分析ベクトルと、試薬ベクトルテーブルＴ２に含まれる各ベクトルとの距離をそれぞれ算出し、分析ベクトルとの距離が閾値未満となるベクトルを特定する。試薬ベクトルテーブルＴ２に含まれるベクトルであって、分析ベクトルとの距離が閾値未満となるベクトルが「類似ベクトル」となる。

【0093】

分析部１５４は、試薬ベクトルテーブルＴ２を基にして、類似ベクトルに対応する試薬の圧縮符号を特定し、特定した試薬の圧縮符号と、試薬辞書Ｄ２と、基辞書Ｄ１とを基にして、試薬の圧縮符号に対応する示性式を特定する。また、試薬ベクトルテーブルＴ２に、試薬の特徴が対応付けられていてもよく、この場合には、分析部１５４は、類似ベクトルに対応する試薬の特徴を取得する。分析部１５４は、かかる処理を実行することで、類似ベクトルに対応する試薬の示性式、試薬の特徴を検索し、検索した結果を、サブ化合物・試薬テーブル８５に登録する。

【0094】

分析部１５４は、各分析ベクトルについて、上記処理を繰り返し実行することで、分析ベクトル毎に、類似ベクトルに対応する試薬の示性式、試薬の特徴を検索し、サブ化合物・試薬テーブル８５に登録してもよい。分析部１５４は、サブ化合物・試薬テーブル８５を、表示部１３０に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。

【0095】

次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図１５は、本実施例１に係る情報処理装置の処理手順を示すフローチャート（１）である。図１５に示すように、情報処理装置１００の前処理部１５１は、ポアンカレエンベッディングを実行することで、各基の圧縮符号のベクトルを算出する（ステップＳ１０１）。

【0096】

前処理部１５１は、化学構造式ファイル５０および基辞書Ｄ１を基にして、基符号化ファイル５１、基ベクトルテーブルＴ１、基転置インデックスＩｎ１を生成する（ステップＳ１０２）。

【0097】

前処理部１５１は、基符号化ファイル５１およびサブ化合物辞書Ｄ３を基にして、サブ化合物符号化ファイル５３、サブ化合物ベクトルテーブルＴ３、サブ化合物転置インデックスＩｎ３を生成する（ステップＳ１０３）。

【0098】

前処理部１５１は、基符号化ファイル５１および目的化合物辞書を基にして、目的化合物符号化ファイル５４、目的化合物ベクトルテーブルＴ４、目的化合物転置インデックスＩｎ４を生成する（ステップＳ１０４）。

【0099】

前処理部１５１は、逆合成解析結果テーブル６０を基にして、目的化合物のベクトルと、この目的化合物を製造するための各サブ化合物（試薬）のベクトルとの関係を特定し、学習データ６５を生成する（ステップＳ１０５）。

【0100】

情報処理装置１００の学習部１５２は、学習データ６５を基にして、学習モデルの学習を実行する（ステップＳ１０６）。

【0101】

図１６は、本実施例１に係る情報処理装置の処理手順を示すフローチャート（２）である。情報処理装置１００の算出部１５３は、分析クエリ８０を受け付ける（ステップＳ２０１）。

【0102】

算出部１５３は、分析クエリ８０に含まれる目的化合物の示性式を基にして、目的化合物のベクトルを算出する（ステップＳ２０２）。

【0103】

算出部１５３は、算出した目的化合物のベクトルを、学習済みの学習モデル７０に入力することで、各サブ化合物のベクトルを算出する（ステップＳ２０３）。算出部１５３は、各サブ化合物のベクトルと各サブ化合物を出力する（ステップＳ２０４）。

【0104】

分析部１５４は、学習モデル７０から出力された各サブ化合物のベクトルと、試薬ベクトルテーブルＴ２とを用いて、目的化合物を構成する各サブ化合物と類似した各試薬のベクトルを検索し、サブ化合物・試薬テーブル８５を生成する（ステップＳ２０５）。

【0105】

次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、学習フェーズで、目的化合物のベクトルと、逆合成解析に基づく各サブ化合物（試薬）のベクトルとの関係を定義した学習データ６５を基にして、学習モデル７０の学習を実行しておく。情報処理装置１００は、分析フェーズで、学習済みの学習モデル７０に分析クエリのベクトルを入力することで、分析クエリの目的化合物に対応する各サブ化合物（試薬）のベクトルを算出する。学習モデル７０から出力される各サブ化合物（試薬）のベクトルを用いることで、目的化合物の合成経路に定義されたサブ化合物に類似する試薬を検出することを容易に実行することができる。

【0106】

官能基の二次構造である目的化合物は、複数の官能基の一次構造であるサブ化合物で構成されている。また、サブ化合物を構成する複数の各官能基のベクトルの推移はゆるやかであが、サブ化合物の末尾の官能基のベクトルと、継続するサブ化合物の先頭の官能基のベクトルは乖離することが多い。実績のある逆合成解析された目的化合物の官能基の二次構造のベクトルと、サブ化合物の官能基の一次構造のベクトルをもとに、機械学習を行うことで、有機化合物の逆合成解析の精度を向上することができる。

【実施例2】

【0107】

図１７は、本実施例２に係る情報処理装置の学習フェーズの処理の一例を説明するための図である。図１７に示すように、情報処理装置は、学習データ９０を用いて、学習モデル９１の学習を実行する。学習モデル９１は、ＣＮＮやＲＮＮ等に対応する。

【0108】

学習データ９０は、目的化合物を合成する複数のサブ化合物のベクトルと、試薬を基に変換反応で保持される共通構造のベクトルとの関係を定義する。たとえば、サブ化合物のベクトルが、入力データに対応し、複数の共通構造のベクトルが正解値となる。

【0109】

情報処理装置は、サブ化合物のベクトルを学習モデル９１に入力した際の出力が、各共通構造のベクトルに近づくように、誤差逆伝播による学習を実行する。情報処理装置は、学習データ９０に含まれるサブ化合物のベクトルと、共通構造のベクトルとの関係を基にして、上記処理を繰り返し実行することで、学習モデル９１のパラメータを調整する（機械学習を実行する）。

【0110】

図１８は、本実施例２に係る情報処理装置の処理を説明するための図である。実施例２に係る情報処理装置は、実施例１の情報処理装置１００と同様にして、学習モデル７０を学習しておいてもよい。また、情報処理装置は、図１７で説明したように、学習モデル７０とは別の、学習モデル９１を学習する。学習モデル７０は、分析クエリ（目的化合物）８０のベクトルが入力された場合に、各サブ化合物のベクトルを出力する。学習モデル９０は、分析クエリ（サブ化合物）９２のベクトルが入力された場合に、共通構造のベクトルを出力する。

【0111】

情報処理装置は、サブ化合物を指定した分析クエリ９２を受け付けると、サブ化合物ベクトルテーブルＴ３を用いて、分析クエリ９２のサブ化合物をベクトルＶｓｂ９２－１に変換する。情報処理装置は、サブ化合物のベクトルＶｓｂ９２－１を、学習モデル９１に入力することで、共通構造に対応するベクトルＶｃｍ９２－１を算出する。

【0112】

ここで、情報処理装置は、サブ化合物のベクトルＶｓｂ９２－１と、試薬ベクトルテーブルＴ２に含まれる複数の試薬のベクトルとを比較する。試薬ベクトルテーブルＴ２は、実施例１で説明した試薬ベクトルテーブルＴ２に対応する。

【0113】

情報処理装置は、サブ化合物のベクトルＶｓｂ９２－１について、類似する試薬のベクトルを特定する。たとえば、サブ化合物のベクトルＶｓｂ９２－１と類似する試薬のベクトルをＶｒ９２－１とする。そうすると、ベクトルＶｓｂ９２－１のサブ化合物と、ベクトルＶｒ９２－１の試薬とで共通する共通構造のベクトルが、学習モデル９１から出力されるベクトルＶｃｍ９２－１となることがわかる。また、試薬のベクトルＶｒ９２－１から、共通構造のベクトルＶｃｍ９２－１を減算した結果が、類似する試薬とサブ化合物とで相違する相違構造のベクトル（変換構造のベクトル）となる。

【0114】

情報処理装置は、共通構造のベクトルと、変換構造とのベクトルとの関係を、共通構造・変換構造テーブル９３に登録する。情報処理装置は、各サブ化合物のベクトルについて、上記処理を繰り返し実行することで、共通構造・変換構造テーブル９３を生成する。

【0115】

なお、情報処理装置は、「サブ化合物のベクトル－共通構造のベクトル＝試薬のベクトル－共通構造のベクトル＋変換構造ベクトル」の関係を用いて、変換構造のベクトルを算出してもよい。

【0116】

上記のように、本実施例２に係る情報処理装置は、学習済みの学習モデル９１に分析クエリ９２のベクトルを入力し、分析クエリのサブ化合物に対応する各共通構造のベクトルを算出する。また、サブ化合物に類似する試薬の各ベクトルから、共通構造のベクトルを減算することで、類似するサブ化合物と、試薬とで相違する変換構造のベクトルを算出する。上記の共通構造のベクトルや、変換構造のベクトルを用いることで、目的化合物の合成や製造に使用可能なよりよい試薬を容易に分析することができる。

【0117】

次に、本実施例２に係る情報処理装置の構成の一例について説明する。図１９は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図１９に示すように、この情報処理装置２００は、通信部２１０、入力部２２０、表示部２３０、記憶部２４０、制御部２５０を有する。

【0118】

通信部２１０、入力部２２０、表示部２３０に関する説明は、実施例１で説明した通信部１１０、入力部１２０、表示部１３０に関する説明と同様である。

【0119】

記憶部２４０は、化学構造式ファイル５０、基符号化ファイル５１、試薬符号化ファイル５２、サブ化合物符号化ファイル５３、目的化合物符号化ファイル５４、共通構造符号化ファイル５５を有する。記憶部２４０は、基辞書Ｄ１、試薬辞書Ｄ２、サブ化合物辞書Ｄ３、目的化合物辞書Ｄ４、共通構造辞書Ｄ５を有する。記憶部２４０は、基ベクトルテーブルＴ１、試薬ベクトルテーブルＴ２、サブ化合物ベクトルテーブルＴ３、目的化合物テーブルＴ４、共通構造ベクトルテーブルＴ５を有する。記憶部２４０は、基転置インデクスＩｎ１、試薬転置インデックスＩｎ２、サブ化合物転置インデックスＩｎ３、目的化合物インデックスＩｎ４、共通構造インデックスＩｎ５を有する。記憶部２４０は、逆合成解析結果テーブル６０、学習データ９０、学習モデル９１、分析クエリ９２を有する。記憶部２４０は、共通構造・変換構造テーブル９３を有する。

【0120】

記憶部２４０は、たとえば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

【0121】

化学構造式ファイル５０、基符号化ファイル５１、試薬符号化ファイル５２、サブ化合物符号化ファイル５３、目的化合物符号化ファイル５４、共通構造符号化ファイル５５に関する説明は、実施例１で説明した内容と同様である。基辞書Ｄ１、試薬辞書Ｄ２、サブ化合物辞書Ｄ３、目的化合物辞書Ｄ４、共通構造辞書Ｄ５に関する説明は、実施例１で説明した内容と同様である。基ベクトルテーブルＴ１、試薬ベクトルテーブルＴ２、サブ化合物ベクトルテーブルＴ３、目的化合物テーブルＴ４、共通構造ベクトルテーブルＴ５に関する説明は、実施例１で説明した内容と同様である。基転置インデクスＩｎ１、試薬転置インデックスＩｎ２、サブ化合物転置インデックスＩｎ３、目的化合物インデックスＩｎ４、共通構造インデックスＩｎ５に関する説明は、実施例１で説明した内容と同様である。逆合成解析結果テーブル６０は、実施例１で説明した内容と同様である。学習データ９０は、図１７で説明した内容と同様である。学習モデル９１、分析クエリ９２に関する説明は、図１８で説明した内容と同様である。

【0122】

共通構造・変換構造テーブル９３は、図１８で説明したように、共通構造ベクトルに類似した試薬からサブ化合物に変換反応するための変換構造ベクトルの情報が含まれる。図１８では、たとえば、共通構造・変換構造テーブル９３には、Ｖｃｍ９２－１に対応した変換構造ベクトルが含まれる。共通構造のベクトルと、変換構造のベクトルとを積算したベクトルが、試薬のベクトルに対応するベクトルとなる。

【0123】

図１９に説明に戻る。制御部２５０は、前処理部２５１、学習部２５２、算出部２５３、分析部２５４を有する。制御部２５０は、例えば、ＣＰＵやＭＰＵにより実現される。また、制御部２５０は、例えばＡＳＩＣやＦＰＧＡ等の集積回路により実行されてもよい。

【0124】

前処理部２５１に関する説明は、実施例１で説明した前処理部１５１に関する処理の説明と同様である。前処理部２５１によって、基符号化ファイル５１、試薬符号化ファイル５２、サブ化合物符号化ファイル５３、目的化合物符号化ファイル５４、共通構造符号化ファイル５５が生成される。前処理部２５１によって、基ベクトルテーブルＴ１、試薬ベクトルテーブルＴ２、サブ化合物ベクトルテーブルＴ３、目的化合物テーブルＴ４、共通構造ベクトルテーブルＴ５が生成される。前処理部２５１によって、基転置インデクスＩｎ１、試薬転置インデックスＩｎ２、サブ化合物転置インデックスＩｎ３、目的化合物インデックスＩｎ４、共通構造インデックスＩｎ５が生成される。前処理部２５１は、学習データ９０を、外部装置から取得してもよいし、前処理部２５１が生成してもよい。

【0125】

学習部２５２は、学習データ９０を用いて、学習モデル９１の学習を実行する。学習部２５２の処理は、図１７で説明した処理に対応する。学習部２５２は、学習データ９０から、サブ化合物のベクトルと、このサブ化合物のベクトルに対応する共通構造のベクトルとの組を取得する。学習部２５２は、サブ化合物のベクトルを、学習モデル９１に入力した場合の、学習モデル９１の出力の値が、共通構造のベクトルの値に近づくように、誤差逆伝播による学習を実行することで、学習モデル９１のパラメータを調整する。

【0126】

算出部２５３は、分析クエリ９２の指定を受け付けた場合に、学習済みの学習モデル９１を用いて、分析クエリ９２のサブ化合物の合成経路で変換反応させる各共通構造のベクトルを算出する。算出部２５３は、算出した各共通構造のベクトルを、分析部２５４に出力する。

【0127】

以下の説明では、算出部２５３が算出した各共通構造のベクトルを、それぞれ「共通構造ベクトル」と表記する。

【0128】

分析部２５４は、分析クエリ９２のサブ化合物のベクトルと、共通構造ベクトルと、試薬ベクトルテーブルＴ２とを基にして、共通構造・変更機構テーブル９３を生成する。以下において、分析部２５４の処理の一例について説明する。

【0129】

分析部２５４は、サブ化合物のベクトルと、試薬ベクトルテーブルＴ２に含まれる各ベクトルとの距離をそれぞれ算出し、サブ化合物のベクトルとの距離が閾値未満となるベクトルを特定する。試薬ベクトルテーブルＴ２に含まれるベクトルであって、サブ化合物のベクトルとの距離が閾値未満となるベクトルを「類似ベクトル」と表記する。

【0130】

分析部２５４は、類似ベクトルから、共通構造ベクトルを減算することで、変換構造のベクトルを算出し、共通構造ベクトルと、変換構造のベクトルとの対応関係を特定する。分析部２５４は、共通構造ベクトルと、変換構造のベクトルとを共通構造・変換構造テーブル９３に登録する。分析部２４５は、上記処理を繰り返し実行することで、共通構造・変換構造テーブル９３を生成する。分析部２４５は、共通構造・変換構造テーブル９３を、表示部２３０に出力して表示させてもよいし、ネットワークに接続された外部装置に送信してもよい。

【0131】

次に、本実施例２に係る情報処理装置２００の処理手順の一例について説明する。図２０は、本実施例２に係る情報処理装置の処理手順を示すフローチャートである。情報処理装置２００の算出部２５３は、分析クエリ９２を受け付ける（ステップＳ３０１）。

【0132】

算出部２５３は、サブ化合物ベクトルテーブルＴ３を基にして、分析クエリ９２のサブ化合物をベクトルに変換する（ステップＳ３０２）。

【0133】

算出部２５３は、サブ化合物のベクトルを、学習済みの学習モデル９１に入力することで、共通構造のベクトルを算出する（ステップＳ３０３）。情報処理装置２００の分析部２５４は、共通構造のベクトルと、試薬ベクトルテーブルＴ２の各ベクトルとの距離を基にして、類似試薬ベクトルを特定する（ステップＳ３０４）。

【0134】

分析部２５４は、サブ化合物と類似試薬の各ベクトルから共通構造のベクトルを減算することで、変換構造のベクトルを算出する（ステップＳ３０５）。分析部２５４は、共通構造のベクトルと、変換構造のベクトルとの関係を、共通構造・変換構造テーブルに登録する（ステップＳ３０６）。分析部２５４は、共通構造・変換構造テーブルの情報を出力する（ステップＳ３０７）。

【0135】

次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置１００は、学習済みの学習モデル９１に分析クエリ９２のベクトルを入力し、分析クエリのサブ化合物に対応する各共通構造のベクトルを算出する。また、サブ化合物に類似する試薬のベクトルから各、共通構造のベクトルを減算することで、類似するサブ化合物と、試薬とで相違する変換構造のベクトルを算出する。上記の共通構造のベクトルや、変換構造のベクトルを用いることで、目的化合物への変換反応や再合成や製造に使用可能なよりよい試薬を容易に分析することができる。

【0136】

サブ化合物と試薬は、複数の官能基で構成される一次構造である。また、官能基の分散ベクトルを用いることで、ある官能基に隣接する官能基を推定することができ、各官能基の結合度や安定性の評価に応用することができる。実績のあるサブ化合物への試薬からの変換反応に関し、サブ化合物や試薬の一次構造を構成する複数の官能基のベクトルをもとに、機械学習を行うことで、試薬からの変換反応と再合成の分析精度を向上することができる。

【0137】

次に、上記実施例に示した情報処理装置２００（１００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図２１は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0138】

図２１に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

【0139】

ハードディスク装置３０７は、前処理プログラム３０７ａ、学習プログラム３０７ｂ、算出プログラム３０７ｃ、分析プログラム３０７ｄを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｄを読み出してＲＡＭ３０６に展開する。

【0140】

前処理プログラム３０７ａは、前処理プロセス３０６ａとして機能する。学習プログラム３０７ｂは、学習プロセス３０６ｂとして機能する。算出プログラム３０７ｃは、算出プロセス３０６ｃとして機能する。分析プログラム３０７ｄは、分析プロセス３０６ｄとして機能する。

【0141】

前処理プロセス３０６ａの処理は、前処理部１５１，２５１の処理に対応する。学習プロセス３０６ｂの処理は、学習部１５２，２５２の処理に対応する。算出プロセス３０６ｃの処理は、算出部１５３，２５３の処理に対応する。分析プロセス３０６ｄの処理は、分析部１５４，２５４の処理に対応する。

【0142】

なお、各プログラム３０７ａ～３０７ｄについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｄを読み出して実行するようにしてもよい。

【符号の説明】

【0143】

５０化学構造式ファイル
５１基符号化ファイル
５２試薬符号化ファイル
５３サブ化合物符号化ファイル
５４目的化合物符号化ファイル
５５共通構造符号化ファイル
６０逆合成解析結果テーブル
６５，９０学習データ
７０，９１学習モデル
８０，９２分析クエリ
８５サブ化合物・試薬テーブル
９３共通構造・変換構造テーブル
１００，２００情報処理装置
１１０，２１０通信部
１２０，２２０入力部
１３０，２３０表示部
１４０，２４０記憶部
１５０，２５０制御部
１５１，２５１前処理部
１５２，２５２学習部
１５３，２５３算出部
１５４，２５４分析部

【図1】