特開2024-64115 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社理論創薬研究所の特許一覧

特開2024-64115画像－文字列変換システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2
3
4A
4B
4C
4D
5A
5B
6
7
8
9
10
11A
11B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024064115

(43)【公開日】2024-05-14

(54)【発明の名称】画像－文字列変換システム

(51)【国際特許分類】

G16C 20/70 20190101AFI20240507BHJP

G16C 20/30 20190101ALI20240507BHJP

【ＦＩ】

G16C20/70

G16C20/30

【審査請求】未請求

【請求項の数】25

【出願形態】ＯＬ

(21)【出願番号】P 2022172467

(22)【出願日】2022-10-27

(71)【出願人】

【識別番号】504365146

【氏名又は名称】株式会社理論創薬研究所

(74)【代理人】

【識別番号】100136629

【弁理士】

【氏名又は名称】鎌田光宜

(74)【代理人】

【識別番号】100080791

【弁理士】

【氏名又は名称】高島一

(74)【代理人】

【識別番号】100118371

【弁理士】

【氏名又は名称】▲駒▼谷剛志

(74)【代理人】

【識別番号】230113332

【弁護士】

【氏名又は名称】山本健策

(72)【発明者】

【氏名】吉森篤史

(57)【要約】

【課題】画像を文字列に変換すること。
【解決手段】本発明の画像－文字列変換システムは、画像を受信する受信手段と、前記画像に対応する文字列を導出する導出手段と、前記導出された文字列を出力する出力手段とを備える。画像－文字列変換システムは、化学構造推定システムの一部を構成し得る。化学構造推定システムは、化学構造を変換して画像を生成する第１の生成手段と、前記生成された画像を改変して改変画像を生成する第２の生成手段と、前記改変画像に対応する文字列を導出する導出手段と、前記導出された文字列に対応する化学構造を出力する出力手段とを備える。
【選択図】図１Ｃ

【特許請求の範囲】

【請求項1】

画像を受信する受信手段と、
前記画像に対応する文字列を導出する導出手段と、
前記導出された文字列を出力する出力手段と
を備えるシステム。

【請求項2】

前記導出手段は、学習用画像と、前記学習用画像に対応する文字列の一部の文字とを入力すると、前記文字の次の文字を出力するように学習した学習済モデルを用いて、前記画像に対応する文字列を導出する、請求項１に記載のシステム。

【請求項3】

前記学習済モデルは、
前記次の文字の候補である複数の候補文字のそれぞれについて、前記次の文字となる確率を出力することと、
前記確率に基づいて、前記次の文字を出力することと
を行うように構成されている、請求項２に記載のシステム。

【請求項4】

前記確率に基づいて、前記次の文字を出力することは、
前記複数の候補文字のうちの前記確率が最も高い１つの候補文字を選択することと、
前記選択された候補文字を前記次の文字として出力することと
を含む、請求項３に記載のシステム。

【請求項5】

前記確率に基づいて、前記次の文字を出力することは、
前記複数の候補文字のそれぞれの前記確率の分布に従って、前記複数の候補文字のうちの１つの候補文字を選択することと、
前記選択された候補文字を前記次の文字として出力することと
を含む、請求項３に記載のシステム。

【請求項6】

前記確率の分布に重みをつけることをさらに含む、請求項５に記載のシステム。

【請求項7】

前記画像は、化学構造を表す画像である、請求項１に記載のシステム。

【請求項8】

前記文字列は、化学構造を表す文字列である、請求項７に記載のシステム。

【請求項9】

前記出力手段は、前記導出された文字列を構造式に変換して出力する、請求項８に記載のシステム。

【請求項10】

文字列を変換して画像を生成する生成手段と、
学習用化学構造を表す文字列を変換した画像と、前記学習用化学構造の特性との関係を学習した第２の学習済モデルを用いて、化学構造の特性を予測する予測手段と
をさらに備え、
前記生成手段は、前記出力された文字列を変換して画像を生成し、
前記予測手段は、前記生成された画像に基づいて、前記画像に対応する化学構造の特性を予測する、請求項７～９のいずれか一項に記載のシステム。

【請求項11】

化学構造推定システムであって、
化学構造を変換して画像を生成する第１の生成手段と、
前記生成された画像を改変して改変画像を生成する第２の生成手段と、
前記改変画像に対応する文字列を導出する導出手段と、
前記導出された文字列に対応する化学構造を出力する出力手段と
を備える化学構造推定システム。

【請求項12】

前記第１の生成手段は、第１の化学構造を表す第１の文字列を変換して第１の画像を生成し、第２の化学構造を表す第２の文字列を変換して第２の画像を生成し、
前記第２の生成手段は、前記第１の画像と前記第２の画像とを合成して前記改変画像を生成する、請求項１１に記載のシステム。

【請求項13】

特性が改変された化学構造を推定するシステムであって、
化学構造を変換して画像を生成する第１の生成手段と、
前記生成された画像を改変して改変画像を生成する第２の生成手段と、
前記改変画像に対応する複数組の文字列を導出する導出手段と、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成する第３の生成手段と、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する化学構造の特性を予測する予測手段と、
前記予測された特性に基づいて、特性が改変された化学構造を特定する特定手段と
を備えるシステム。

【請求項14】

前記特性は、前記化学構造に関連する活性である、請求項１３に記載のシステム。

【請求項15】

前記活性は、前記化学構造に相当する化合物が有する生物または化学的な活性である、請求項１４に記載のシステム。

【請求項16】

前記活性は、酵素阻害活性である、請求項１５に記載のシステム。

【請求項17】

特性が改変された対象の構造を推定するシステムであって、
前記対象の構造と一意に関連付けられた画像を生成する第１の生成手段と、
前記生成された画像を改変して改変画像を生成する第２の生成手段と、
前記改変画像に対応する複数組の文字列を導出する導出手段と、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成する生成手段と、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する特性を予測する予測手段と、
前記予測された特性に基づいて、特性が改変された前記対象の構造を特定する特定手段と
を備えるシステム。

【請求項18】

画像を受信することと、
前記画像に対応する文字列を導出することと、
前記導出された文字列を出力することと
を含む方法。

【請求項19】

プログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
画像を受信することと、
前記画像に対応する文字列を導出することと、
前記導出された文字列を出力することと
を含む処理を前記プロセッサ部に行わせる、プログラム。

【請求項20】

化学構造推定方法であって、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する文字列を導出することと、
前記導出された文字列に対応する化学構造を出力することと
を含む方法。

【請求項21】

化学構造推定プログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する文字列を導出することと、
前記導出された文字列に対応する化学構造を出力することと
を含む処理を前記プロセッサ部に行わせる、プログラム。

【請求項22】

特性が改変された化学構造を推定する方法であって、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する化学構造の特性を予測することと、
前記予測された特性に基づいて、特性が改変された化学構造を特定することと
を含む方法。

【請求項23】

特性が改変された化学構造を推定するプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する化学構造の特性を予測することと、
前記予測された特性に基づいて、特性が改変された化学構造を特定することと
を含む処理を前記プロセッサ部に行わせる、プログラム。

【請求項24】

特性が改変された対象の構造を推定する方法であって、
前記対象の構造と一意に関連付けられた画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する特性を予測することと、
前記予測された特性に基づいて、特性が改変された前記対象の構造を特定することと
を含む方法。

【請求項25】

特性が改変された対象の構造を推定するプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
前記対象の構造と一意に関連付けられた画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する特性を予測することと、
前記予測された特性に基づいて、特性が改変された前記対象の構造を特定することと
を含む処理を前記プロセッサ部に行わせる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像を文字列に変換するシステム、方法、およびプログラムならびにそれらの応用に関し、より具体的には、化学構造を表す画像を、当該化学構造を表す文字列に変換するシステム、方法、およびプログラムならびにそれらの応用に関する。さらに、特性が改変された化学構造を推定するシステム、方法、およびプログラムならびにそれらの応用にも関する。

【背景技術】

【0002】

化学構造を一意の画像に変換して取り扱う技術が開発されている（非特許文献１）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】ＡｔｓｕｓｈｉＹｏｓｈｉｍｏｒｉ， “ＰｒｅｄｉｃｔｉｏｎｏｆＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｉｅｓＵｓｉｎｇＭｏｌｅｃｕｌａｒＴｏｐｏｇｒａｐｈｉｃＭａｐ”，Ｍｏｌｅｃｕｌｅｓ２０２１，２６，４４７５

【発明の概要】

【課題を解決するための手段】

【0004】

本発明の発明者は、化学構造を一意の画像に変換して取り扱う技術が不可逆の変換であったことに鑑み、画像を一意に化学構造に逆変換するための新規の手法を開発した。この手法では、画像を文字列に変換する。

【0005】

本発明は、例えば、以下の項目を提供する。
（項目１）
画像を受信する受信手段と、
前記画像に対応する文字列を導出する導出手段と、
前記導出された文字列を出力する出力手段と
を備えるシステム。
（項目２）
前記導出手段は、学習用画像と、前記学習用画像に対応する文字列の一部の文字とを入力すると、前記文字の次の文字を出力するように学習した学習済モデルを用いて、前記画像に対応する文字列を導出する、上記項目に記載のシステム。
（項目３）
前記学習済モデルは、
前記次の文字の候補である複数の候補文字のそれぞれについて、前記次の文字となる確率を出力することと、
前記確率に基づいて、前記次の文字を出力することと
を行うように構成されている、上記項目のいずれか一項に記載のシステム。
（項目４）
前記確率に基づいて、前記次の文字を出力することは、
前記複数の候補文字のうちの前記確率が最も高い１つの候補文字を選択することと、
前記選択された候補文字を前記次の文字として出力することと
を含む、上記項目のいずれか一項に記載のシステム。
（項目５）
前記確率に基づいて、前記次の文字を出力することは、
前記複数の候補文字のそれぞれの前記確率の分布に従って、前記複数の候補文字のうちの１つの候補文字を選択することと、
前記選択された候補文字を前記次の文字として出力することと
を含む、上記項目のいずれか一項に記載のシステム。
（項目６）
前記確率の分布に重みをつけることをさらに含む、上記項目のいずれか一項に記載のシステム。
（項目７）
前記画像は、化学構造を表す画像である、上記項目のいずれか一項に記載のシステム。
（項目８）
前記文字列は、化学構造を表す文字列である、上記項目のいずれか一項に記載のシステム。
（項目９）
前記出力手段は、前記導出された文字列を構造式に変換して出力する、上記項目のいずれか一項に記載のシステム。
（項目１０）
文字列を変換して画像を生成する生成手段と、
学習用化学構造を表す文字列を変換した画像と、前記学習用化学構造の特性との関係を学習した第２の学習済モデルを用いて、化学構造の特性を予測する予測手段と
をさらに備え、
前記生成手段は、前記出力された文字列を変換して画像を生成し、
前記予測手段は、前記生成された画像に基づいて、前記画像に対応する化学構造の特性を予測する、上記項目のいずれか一項に記載のシステム。
（項目１１）
化学構造推定システムであって、
化学構造を変換して画像を生成する第１の生成手段と、
前記生成された画像を改変して改変画像を生成する第２の生成手段と、
前記改変画像に対応する文字列を導出する導出手段と、
前記導出された文字列に対応する化学構造を出力する出力手段と
を備える化学構造推定システム。
（項目１２）
前記第１の生成手段は、第１の化学構造を表す第１の文字列を変換して第１の画像を生成し、第２の化学構造を表す第２の文字列を変換して第２の画像を生成し、
前記第２の生成手段は、前記第１の画像と前記第２の画像とを合成して前記改変画像を生成する、上記項目のいずれか一項に記載のシステム。
（項目１３）
特性が改変された化学構造を推定するシステムであって、
化学構造を変換して画像を生成する第１の生成手段と、
前記生成された画像を改変して改変画像を生成する第２の生成手段と、
前記改変画像に対応する複数組の文字列を導出する導出手段と、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成する第３の生成手段と、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する化学構造の特性を予測する予測手段と、
前記予測された特性に基づいて、特性が改変された化学構造を特定する特定手段と
を備えるシステム。
（項目１４）
前記特性は、前記化学構造に関連する活性である、上記項目のいずれか一項に記載のシステム。
（項目１５）
前記活性は、前記化学構造に相当する化合物が有する生物または化学的な活性である、上記項目のいずれか一項に記載のシステム。
（項目１６）
前記活性は、酵素阻害活性である、上記項目のいずれか一項に記載のシステム。
（項目１７）
特性が改変された対象の構造を推定するシステムであって、
前記対象の構造と一意に関連付けられた画像を生成する第１の生成手段と、
前記生成された画像を改変して改変画像を生成する第２の生成手段と、
前記改変画像に対応する複数組の文字列を導出する導出手段と、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成する生成手段と、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する特性を予測する予測手段と、
前記予測された特性に基づいて、特性が改変された前記対象の構造を特定する特定手段と
を備えるシステム。
（項目１８）
画像を受信することと、
前記画像に対応する文字列を導出することと、
前記導出された文字列を出力することと
を含む方法。
（項目１８Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目１８に記載の方法。
（項目１９）
プログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
画像を受信することと、
前記画像に対応する文字列を導出することと、
前記導出された文字列を出力することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
（項目１９Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目１９に記載のプログラム。
（項目１９Ｂ）
項目１９または１９Ａに記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
（項目２０）
化学構造推定方法であって、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する文字列を導出することと、
前記導出された文字列に対応する化学構造を出力することと
を含む方法。
（項目１８Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目２０に記載の方法。
（項目２１）
化学構造推定プログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する文字列を導出することと、
前記導出された文字列に対応する化学構造を出力することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
（項目２１Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目２１に記載のプログラム。
（項目２１Ｂ）
項目２１または２１Ａに記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
（項目２２）
特性が改変された化学構造を推定する方法であって、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する化学構造の特性を予測することと、
前記予測された特性に基づいて、特性が改変された化学構造を特定することと
を含む方法。
（項目２２Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目２２に記載の方法。
（項目２３）
特性が改変された化学構造を推定するプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
化学構造を変換して画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する化学構造の特性を予測することと、
前記予測された特性に基づいて、特性が改変された化学構造を特定することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
（項目２３Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目２３に記載のプログラム。
（項目２３Ｂ）
項目２３または２３Ａに記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。
（項目２４）
特性が改変された対象の構造を推定する方法であって、
前記対象の構造と一意に関連付けられた画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する特性を予測することと、
前記予測された特性に基づいて、特性が改変された前記対象の構造を特定することと
を含む方法。
（項目２４Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目２４に記載の方法。
（項目２５）
特性が改変された対象の構造を推定するプログラムであって、前記プログラムは、プロセッサ部を備えるコンピュータにおいて実行され、前記プログラムは、
前記対象の構造と一意に関連付けられた画像を生成することと、
前記生成された画像を改変して改変画像を生成することと、
前記改変画像に対応する複数組の文字列を導出することと、
前記導出された複数組の文字列のそれぞれを変換して複数の画像を生成することと、
前記複数の画像の各画像に基づいて、それぞれの画像に対応する特性を予測することと、
前記予測された特性に基づいて、特性が改変された前記対象の構造を特定することと
を含む処理を前記プロセッサ部に行わせる、プログラム。
（項目２５Ａ）
上記項目のうちの１つまたは複数に記載の特徴を含む、項目２５に記載のプログラム。
（項目２５Ｂ）
項目２５または２５Ａに記載のプログラムを記憶するコンピュータ読み取り可能な記憶媒体。

【発明の効果】

【0006】

本発明によれば、画像を文字列に変換するシステム等を提供することができる。これにより、例えば、画像を、文字列で表される化学構造に変換することができる。また、このシステムを利用して、化学構造（例えば、新規な化学構造、改変された特性を有する化学構造）を推定することができる。

【図面の簡単な説明】

【0007】

【図1A】化学構造推定システム１０００により化学構造を推定するフローの一例を示す図

【図1B】化学構造推定システム１０００により化学構造を推定する別のフローの一例を示す図

【図1C】画像－文字列変換システム１００（ＭＴＭインバータ）が、ＭＴＭを化学構造に逆変換する概念を示す図

【図1D】画像－文字列変換システム１００が、画像を対応する文字列に変換する概念を示す図

【図1E】画像－文字列変換システム１００が、化合物の物性値を示す画像を対応する文字列に変換する概念を示す図

【図2】画像－文字列変換システム１００の構成の一例を示す図

【図3】画像－文字列変換システム１００の具体的な構成の一例を示す図

【図4A】プロセッサ部１２０の構成の一例を示す図

【図4B】プロセッサ部１２０の代替実施形態であるプロセッサ部１２０Ａの構成の一例を示す図

【図4C】プロセッサ部１２０の代替実施形態であるプロセッサ部１２０Ｂの構成の一例を示す図

【図4D】プロセッサ部１２０の代替実施形態であるプロセッサ部１２０Ｃの構成の一例を示す図

【図5A】学習済モデルの構造の一例を示す図

【図5B】学習済モデルの構造の一例を示す図

【図6】画像－文字列変換システム１００における処理の一例（処理６００）を示すフローチャート

【図7】化学構造推定システム１０００における処理の一例（７００）を示すフローチャート

【図8】化学構造推定システム１０００における処理の一例（８００）を示すフローチャート

【図9】実施例におけるトレーニングデータ、およびテストデータにおける類似度の分布を示す図

【図10】実施例における最も予測値の良い化合物の例を示す図

【図11A】実施例において分類された４つのタイプを示す図

【図11B】実施例において分類された４つのタイプを示す図

【発明を実施するための形態】

【0008】

以下、本開示を説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞（例えば、英語の場合は「ａ」、「ａｎ」、「ｔｈｅ」など）は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用されるすべての専門用語および科学技術用語は、本発明の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書（定義を含めて）が優先する。

【0009】

（定義）
本明細書において「文字列」とは、対象の構造を表すことができる文字列である。対象が、物質である場合、対象の構造は、化学構造となる。化学構造を表すことができる文字列は、例えば、ＳＭＩＬＥＳ記法による文字列であり得る。

【0010】

本明細書において「画像に対応する文字列」とは、対象となる画像と何らかの関係性を有する文字列をいう。関係性は、何らかの数学的なものであってもよく、その他化学に関連するものなど任意のものであってもよい。この文字列は、画像と一対一対応の関係があるものであってもよく、画像と一対一対応の関係を有する文字列と類似する関係を有する文字列群のうちの１つであってもよい。この文字列は、例えば、確率分布によって導き出される文字列であってもよい。

【0011】

本明細書において「化学構造」とは、物質（例えば、化合物）の組成原子を結合の状態を含めて示した構造をいう。「化学構造」は種々の態様で表現され得る。例えば、化学構造は、化学式、より特定すると、構造式によって表現されることができる。例えば、化学構造は、文字列によって表現されることができる。化学構造を文字列で表現することは、例えば、ＳＭＩＬＥＳ記法として知られている。例えば、化学構造は、画像によって表現されることができる。化学構造を画像によって表現することは、本発明者が考案したＭｏｌｅｃｕｌａｒＴｏｐｏｇｒａｐｈｉｃＭａｐ（ＭＴＭ）に化学構造を変換することによってなされ得る（例えば、ＡｔｓｕｓｈｉＹｏｓｈｉｍｏｒｉ， “ＰｒｅｄｉｃｔｉｏｎｏｆＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｉｅｓＵｓｉｎｇＭｏｌｅｃｕｌａｒＴｏｐｏｇｒａｐｈｉｃＭａｐ”，Ｍｏｌｅｃｕｌｅｓ２０２１，２６，４４７５）。

【0012】

本明細書において「化学構造の特性」とは、その化学構造を有する物質が有する特性であり、任意の特性を含む。特性は、例えば、化学的特性、物理的特性、機械的特性を含む。

【0013】

本明細書において「構造式」とは、分子内の原子相互の結合状態を図式的に表記した式のことをいう。

【0014】

本明細書において画像の「改変」とは、画像が２次元の場合には、画像の少なくとも１つのピクセルのピクセル値を変化させることをいい、画像が３次元の場合には、画像の少なくとも１つのボクセルのボクセル値を変化させることをいう。ピクセル値またはボクセル値は、例えば、所与の値の加算、減算、乗算、除算によって変化させられる。所与の値は、別の画像の対応するピクセルのピクセル値または対応するボクセルのボクセル値であり得る。別の画像のピクセル値またはボクセル値で画像を改変することを、画像と別の画像との合成という。

【0015】

本明細書において「活性」とは、化学構造に関連する活性であり、好ましくは、化学構造に対応する化合物が有する生物的な活性または化学的な活性である。活性は、例えば、ｐＫｉ値＞６、もしくはｐＩＣ５０値＞６、好ましくはｐＫｉ値＞８、もしくはｐＩＣ５０値＞８で表され得る。

【0016】

本明細書において、「約」とは、後に続く数値の±１０％を意味する。

【0017】

（好ましい実施形態）
以下に本開示の好ましい実施形態を説明する。以下に提供される実施形態は、本開示のよりよい理解のために提供されるものであり、本開示の範囲は以下の記載に限定されるべきでないことが理解される。従って、当業者は、本明細書中の記載を参酌して、本開示の範囲内で適宜改変を行うことができることは明らかである。また、以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。

【0018】

以下、図面を参照しながら、本開示の好ましい実施の形態を説明する。

【0019】

１．化学構造推定システム
本開示の発明者は、化学構造を推定するための新たなシステムを開発した。この化学構造推定システムでは、新規の化学構造を探索することができる。例えば、化学構造推定システムに、１つの既知の化合物の化学構造を入力すると、その化合物に類似し得る新規の化合物の化学構造が出力される。例えば、化学構造推定システムに、複数の既知の化合物を入力すると、それらの複数の化合物の平均となり得る新規の化合物が出力され得る。

【0020】

図１Ａは、化学構造推定システム１０００により化学構造を推定するフローの一例を示す。本例では、２つの化合物の化学構造から、それらの２つの化合物の平均となる化合物を推定することを例に説明する。

【0021】

ステップＳ１では、２つの化合物（第１の化合物Ｃ１、第２の化合物Ｃ２）の化学構造が化学構造推定システム１０００に入力される。２つの化合物（Ｃ１、Ｃ２）の化学構造は、例えば、構造式で入力される。

【0022】

２つの化合物（Ｃ１、Ｃ２）の化学構造が化学構造推定システム１０００に入力されると、化学構造推定システム１０００は、それぞれの化合物の化学構造を表す画像（例えば、ＭＴＭ）を生成する。第１の化合物Ｃ１の化学構造画像Ｉ１が生成され、第２の化合物Ｃ２の化学構造から画像Ｉ２が生成される。

【0023】

ＭＴＭは、例えば、２８×２８ピクセルのヒートマップであり得る。ヒートマップは、各ピクセルに対応する値を色または濃淡で表す図であり、カラーマップであってもよいし、グレースケースマップであってもよいし、別の様式で表されるマップであってもよい。例えば、後述する図１ＣのＭＴＭに示されるように、色または濃淡が、所定のパラメータの値と関連付けられ得る。各化合物の化学構造から、一意のＭＴＭが生成される。すなわち、第１の化合物Ｃ１の化学構造とＭＴＭＩ１とは一対一に対応し、第２の化合物Ｃ２の化学構造とＭＴＭＩ２とは一対一に対応することになる。

【0024】

化学構造推定システム１０００では、化学構造を画像（例えば、ＭＴＭ）として扱うことで、構造式上では困難であった化学構造に対する演算（例えば、加算、減算）が可能になっている。

【0025】

ステップＳ２では、第１の化合物Ｃ１の化学構造から生成された画像Ｉ１と、第２の化合物Ｃ２の化学構造から生成された画像Ｉ２とが合成される。ここでは、第１の化合物Ｃ１の化学構造から生成された画像Ｉ１と、第２の化合物Ｃ２の化学構造から生成された画像Ｉ２との平均をとるように合成される。例えば、合成された画像Ｉ３では、各ピクセルのピクセル値が２つの画像Ｉ１、Ｉ２の対応するピクセルのピクセル値の平均となり得る。なお、平均は、加重平均であってもよい。このとき、加重は任意の値に設定され得る。

【0026】

合成された画像Ｉ３は、第１の化合物Ｃ１の化学構造のものでも第２の化学構造Ｃ２の化学構造のものでもない、新規の化合物の化学構造の画像となっている。この新規の化合物の化学構造の画像Ｉ３は、このままでは、どのような化学構造のものであるか理解できない。従って、化学構造推定システム１０００は、この新規の化合物の化学構造の画像Ｉ３を、その化合物の化学構造を表す文字列に変換する。

【0027】

ステップＳ３では、画像Ｉ３が、化合物を表す文字列に変換される。化合物を表す文字列は、例えば、ＳＭＩＬＥＳ記法に従って表現される文字列であり得る。これにより、画像Ｉ３が表す化学構造がどのようなものであるかを理解することができるようになる。例えば、ＳＭＩＬＥＳ記法に従って表現された文字列を構造式で表すと、新規の化合物Ｃ３として表現されることになる。

【0028】

出力された新規の化合物Ｃ３は、第１の化合物Ｃ１と第２の化合物Ｃ２との平均の化合物であり得、第１の化合物Ｃ１の特性と第２の化合物Ｃ２の特性との間の特性、あるいは、第１の化合物Ｃ１の特性および第２の化合物Ｃ２の特性よりも向上した特性を有することが予期される。

【0029】

このようにして、化学構造推定システム１０００は、第１の化合物Ｃ１および第２の化合物Ｃ２に類似する特性または第１の化合物Ｃ１および第２の化合物Ｃ２よりも優れた特性を有する新規の化合物を推定することができる。このように推定された新規の化合物に対しては、創薬における様々な応用展開が期待され得る。

【0030】

なお、上述した例では、２つの化合物の化学構造を化学構造推定システム１０００に入力することを説明したが、例えば、３つ以上の化合物の化学構造を化学構造推定システム１０００に入力するようにしてもよいし、１つの化合物の化学構造を化学構造推定システム１０００に入力するようにしてもよい。３つ以上の化合物の化学構造化学構造推定システム１０００に入力する場合、化学構造推定システム１０００は、例えば、３つ以上の化合物の化学構造のそれぞれから生成された画像を平均し、３つ以上の化合物の平均となる化合物の化学構造を推定することになる。１つの化合物の化学構造を化学構造推定システム１０００に入力する場合、化学構造推定システム１０００は、例えば、１つの化合物の化学構造から生成された画像を改変し、１つの化合物に類似する化学構造を推定することになる。

【0031】

上述した例では、化学構造推定システム１０００が、画像Ｉ３を一意に文字列に変換することを説明した。この場合、画像Ｉ３を一意に変換した文字列を再び画像に変換すると、画像Ｉ３と再変換された画像とが類似するものの一致しない場合がある。この場合、化学構造推定システム１０００は、画像Ｉ３から複数の文字列候補に変換することで、画像Ｉ３に一致するまたは画像Ｉ３により類似する画像に変換され得る文字列（ひいては、化学構造）を導出することもできる。

【0032】

図１Ｂは、化学構造推定システム１０００により化学構造を推定する別のフローの一例を示す。本例でも、２つの化合物の化学構造から、それらの２つの化合物の平均となる化合物を推定することを例に説明する。

【0033】

ステップＳ１１では、２つの化合物（第１の化合物Ｃ１１、第２の化合物Ｃ１２）の化学構造が化学構造推定システム１０００に入力される。２つの化合物（Ｃ１１、Ｃ１２）の化学構造は、例えば、構造式で入力される。

【0034】

２つの化合物（Ｃ１１、Ｃ１２）の化学構造が化学構造推定システム１０００に入力されると、化学構造推定システム１０００は、それぞれの化合物の化学構造を表す画像（例えば、ＭＴＭ）を生成する。第１の化合物Ｃ１１の化学構造から画像Ｉ１１が生成され、第２の化合物Ｃ１２の化学構造から画像Ｉ２が生成される。

【0035】

ステップＳ１２では、第１の化合物Ｃ１１の化学構造から生成された画像Ｉ１１と、第２の化合物Ｃ１２の化学構造から生成された画像Ｉ１２とが合成される。ここでは、図１Ａの例と同様に、第１の化合物Ｃ１１の化学構造から生成された画像Ｉ１１と、第２の化合物Ｃ１２の化学構造から生成された画像Ｉ１２との平均をとるように合成される。

【0036】

合成された画像Ｉ１３は、第１の化合物Ｃ１１の化学構造のものでも第２の化学構造Ｃ１２の化学構造のものでもない、新規の化合物の化学構造の画像となっている。

【0037】

ステップＳ１３では、画像Ｉ１３が、化合物を表す文字列に変換される。このとき、化学構造推定システム１０００では、画像Ｉ１３が、複数の文字列候補に変換される。複数の文字列候補のそれぞれは、第１の候補化合物Ｃ１３’、第２の候補化合物Ｃ１３’’、第３の候補化合物Ｃ１３’’’・・・に対応し得る。

【0038】

化学構造推定システム１０００では、複数の文字列候補（ひいては複数の候補化合物）のうち、どの文字列候補が表す化学構造が、画像Ｉ１３が表す化学構造として適切かを判定する。例えば、各文字列候補を画像に変換し、変換された各画像と画像Ｉ１３との類似度を算出することで、最も類似度が高い画像に変換された文字列候補を特定することができる。

【0039】

ステップＳ１４では、複数の文字列候補（ひいては複数の候補化合物）のうち、画像Ｉ１３が表す化学構造として適切であると特定された文字列が出力される。本例では、第３の候補化合物Ｃ１３’’’に対応する文字列が出力される。

【0040】

出力された新規の化合物Ｃ１３’’’は、第１の化合物Ｃ１１と第２の化合物Ｃ１２との平均の化合物であり得、第１の化合物Ｃ１１の特性と第２の化合物Ｃ１２の特性との間の特性、あるいは、第１の化合物Ｃ１１の特性および第２の化合物Ｃ１２の特性よりも向上した特性を有することが予期される。

【0041】

化学構造推定システム１０００は、例えば、画像から化学構造の特性を予測する予測モデルと併用されることにより、特性が改変された（好ましくは、向上した）化学構造を推定することができる。予測モデルは、既知の化学構造から変換された画像（例えば、ＭＴＭ）とその化学構造の既知の特性との関係を学習するように訓練されたモデルである。この予測モデルに、未知の化学構造から変換された画像を入力すると、この予測モデルは、その化学構造の特性を予測することができる。

【0042】

例えば、ステップＳ１３で画像Ｉ１３から変換された複数の文字列候補のそれぞれから変換された画像を予測モデルに入力することができる。これにより、複数の文字列候補に対応する化学構造のそれぞれの特性が予測されることになる。化学構造推定システム１０００は、それぞれの特性を比較することで、最も向上した特性を有する化学構造に対応する文字列を出力することができる。このようにして出力された文字列は、特性が改変された（好ましくは、向上した）化学構造を表すことになる。

【0043】

例えば、第１の化合物Ｃ１１および第２の化合物Ｃ１２として生物活性（例えば、酵素阻害活性）が強い化合物を選択すると、化学構造推定システム１０００により、生物活性が向上した化学構造を推定することができる。

【0044】

上述した化学構造推定システム１０００は、画像－文字列変換システム１００を備えている。画像－文字列変換システム１００は、入力された画像を、当該画像を表す文字列に変換することができ、具体的には、化学構造を表す画像（例えば、ＭＴＭ）が画像－文字列変換システム１００に入力されると、画像に対応する文字列（例えば、画像によって表される化学構造のＳＭＩＬＥＳ）が出力されることができる。画像－文字列変換システム１００は、上述したステップＳ３およびステップＳ１３を行うことができる。

【0045】

このように、画像－文字列変換システム１００は、化合構造から変換されたＭＴＭを、化合構造を表す文字列に逆変換することから、ＭＴＭインバータとも呼ばれ得る。

【0046】

図１Ｃは、画像－文字列変換システム１００（ＭＴＭインバータ）が、ＭＴＭを化学構造に逆変換する概念を示す。

【0047】

ＭＴＭインバータ１００には、ＭＴＭが入力され得る。ＭＴＭインバータは、ＭＴＭと、ＭＴＭが表す化学構造を表す文字列（ＳＭＩＬＥＳ）との間の関係を学習するように訓練されたモデルを用いて、ＭＴＭをＳＭＩＬＥＳに変換する。

【0048】

例えば、図１Ｃに示されるＭＴＭをＭＴＭインバータに入力すると、「Ｃｃ１ｎｎｃ２ｎ１－ｃ１ｓｃ（Ｃ＃ＣＣ３ＣＣＯＣＣ３）ｃ（Ｃｃ３ｃｃｃｃｃ３）ｃ１ＣＯＣ２」というＳＭＩＬＥＳが出力される。このＳＭＩＬＥＳは、３－ｂｅｎｚｙｌ－９－ｍｅｔｈｙｌ－２－（（ｔｅｔｒａｈｙｄｒｏ－２Ｈ－ｐｙｒａｎ－４－ｙｌ）ｅｔｈｙｎｙｌ）－４Ｈ，６Ｈ－ｔｈｉｅｎｏ［２，３－ｅ］［１，２，４］ｔｒｉａｚｏｌｏ［３，４－ｃ］［１，４］ｏｘａｚｅｐｉｎｅという化合物を表す。

【0049】

上述した例では、化学構造を表す画像を画像－文字列変換システム１００（ＭＴＭインバータ１００）に入力すると、画像に対応する、化学構造を表す文字列が出力されることを説明したが、本発明はこれに限定されない。画像－文字列変換システム１００は、画像と文字列とが対応付けられる限り、任意の画像に適用されることができる。

【0050】

図１Ｄは、画像－文字列変換システム１００が、画像を対応する文字列に変換する概念を示す。

【0051】

画像－文字列変換システム１００には、画像が入力される。画像は、上述したように化学構造を表す画像であってもよいし、遺伝子配列を表す画像であってもよいし、化合物の物性値を示す画像であってもよい。画像－文字列変換システム１００は、画像と、画像に対応する文字列との関係を学習するように訓練されているモデルを用いて、画像を対応する文字列に変換する。

【0052】

例えば、画像－文字列変換システム１００に、遺伝子配列を表す画像が入力されると、その画像が表す遺伝子配列に対応する文字列が出力され得る。例えば、図１Ｅに示されるように、画像－文字列変換システム１００に、化合物の物性値を示す画像を表す画像が入力されると、その画像が表す化合物の化学構造を表す文字列が出力され得る。化合物の物性値を示す画像は、複数のマスを有する画像であって、各マスがその化合物の物性値を表す画像である。化合物の物性値を示す画像は、例えば、３×３マスのヒートマップであり得る。例えば、図１Ｅに示されるように、各マスは、分子量、溶解度、ｈＥＲＧ阻害活性、膜透過性、ＢＢＢ透過性、ＣＹＰ１Ａ２阻害活性、ＣＹＰ２Ｃ１９阻害活性、ＣＹＰ２Ｃ９阻害活性、ＣＹＰ２Ｄ６阻害活性のそれぞれを、色または濃淡で表すことができる。

【0053】

上述した画像－文字列変換システム１００は、例えば、後述する構成を備え得る。

【0054】

２．画像－文字列変換システム１００の構成

【0055】

図２は、画像－文字列変換システム１００の構成の一例を示す。

【0056】

システム１００は、データベース部２００に接続されている。また、システム１００は、少なくとも１つの端末装置３００にネットワーク４００を介して接続されている。

【0057】

なお、図２では、３つの端末装置３００が示されているが、端末装置３００の数はこれに限定されない。任意の数の端末装置３００が、ネットワーク４００を介してシステム１００に接続され得る。

【0058】

ネットワーク４００は、任意の種類のネットワークであり得る。ネットワーク４００は、例えば、インターネットであってもよいし、ＬＡＮであってもよい。ネットワーク４００は、有線ネットワークであってもよいし、無線ネットワークであってもよい。

【0059】

システム１００の一例は、例えば、化学構造推定サービスを提供するプロバイダＰに設置されているコンピュータ（例えば、サーバ装置）であってもよいし、化学構造推定のためのＷＥＢアプリケーションを提供するプロバイダＰに設置されているコンピュータ（例えば、サーバ装置）であってもよいが、これに限定されない。システム１００は、例えば、ユーザ（例えば、製薬会社）に設置されているコンピュータ（例えば、端末装置）であってもよく、ユーザのコンピュータに化学構造推定のためのアプリケーションがインストールされることになる。このとき、システム１００は、ネットワーク４００に接続されなくてもよい。端末装置は、スマートフォン、タブレット、パーソナルコンピュータ、スマートグラス、スマートウォッチ等の任意のタイプの端末装置であり得る。

【0060】

データベース部２００には、画像－文字列変換システム１００によって出力された文字列または文字列から変換された画像が格納されることができる。あるいは、データベース部２００には、化学構造推定システム１０００によって出力された化学構造を表す文字列または画像が格納されることができる。あるいは、データベース部２００には、学習済モデルを構築するための学習用データまたは構築された学習済モデルが格納されることができる。

【0061】

図３は、画像－文字列変換システム１００の具体的な構成の一例を示す。

【0062】

システム１００は、インターフェース部１１０と、プロセッサ部１２０と、メモリ１３０部とを備える。

【0063】

インターフェース部１１０は、システム１００の外部と情報のやり取りを行う。システム１００のプロセッサ部１２０は、インターフェース部１１０を介して、システム１００の外部から情報を受信することが可能であり、システム１００の外部に情報を送信することが可能である。インターフェース部１１０は、任意の形式で情報のやり取りを行うことができる。

【0064】

インターフェース部１１０は、例えば、システム１００に情報を入力することを可能にする入力部を備える。入力部が、どのような態様でシステム１００に情報を入力することを可能にするかは問わない。例えば、入力部がタッチパネルである場合には、ユーザがタッチパネルにタッチすることによって情報を入力するようにしてもよい。あるいは、入力部がマウスである場合には、ユーザがマウスを操作することによって情報を入力するようにしてもよい。あるいは、入力部がキーボードである場合には、ユーザがキーボードのキーを押下することによって情報を入力するようにしてもよい。あるいは、入力部がマイクである場合には、ユーザがマイクに音声を入力することによって情報を入力するようにしてもよい。あるいは、入力部がデータ読み取り装置である場合には、システム１００に接続された記憶媒体から情報を読み取ることによって情報を入力するようにしてもよい。あるいは、入力部が受信器である場合、受信器がネットワークを介してシステム１００の外部から情報を受信することにより入力してもよい。この場合、ネットワークの種類は問わない。例えば、受信器は、インターネットを介して情報を受信してもよいし、ＬＡＮを介して情報を受信してもよい。

【0065】

インターフェース部１１０は、例えば、システム１００から情報を出力することを可能にする出力部を備える。出力部が、どのような態様でシステム１００から情報を出力することを可能にするかは問わない。例えば、出力部が表示画面である場合、表示画面に情報を出力するようにしてもよい。あるいは、出力部がデータ書き込み装置である場合、システム１００に接続された記憶媒体に情報を書き込むことによって情報を出力するようにしてもよい。あるいは、出力部が印刷装置である場合、紙等の媒体に印刷することによって情報を出力するようにしてもよい。あるいは、出力部が送信器である場合、送信器がネットワークを介してシステム１００の外部に情報を送信することにより出力してもよい。この場合、ネットワークの種類は問わない。例えば、送信器は、インターネットを介して情報を送信してもよいし、ＬＡＮを介して情報を送信してもよい。

【0066】

システム１００は、例えば、インターフェース部１１０を介して、データベース部２００に情報を送信し、かつ／または、データベース部２００から情報を受信することができる。システム１００は、例えば、インターフェース部１１０を介して、端末装置３００に情報を送信し、かつ／または、端末装置３００から情報を受信することができる。

【0067】

システム１００は、例えば、インターフェース部１１０を介して、化学構造を表す画像を受信することができる。

【0068】

システム１００は、例えば、インターフェース部１１０を介して、化合物を表す文字列を出力することができる。システム１００は、例えば、インターフェース部１１０を介して、化合物を表す文字列から変換された構造式を出力することができる。

【0069】

プロセッサ部１２０は、システム１００の処理を実行し、かつ、システム１００全体の動作を制御する。プロセッサ部１２０は、メモリ部１３０に格納されているプログラムを読み出し、そのプログラムを実行する。これにより、システム１００を所望のステップを実行するシステムとして機能させることが可能である。プロセッサ部１２０は、単一のプロセッサによって実装されてもよいし、複数のプロセッサによって実装されてもよい。

【0070】

メモリ部１３０は、システム１００の処理を実行するために必要とされるプログラムやそのプログラムの実行に必要とされるデータ等を格納する。メモリ部１３０は、画像を文字列に変換するための処理をプロセッサ部１２０に行わせるためのプログラム（例えば、後述する図６に示される処理を実現するプログラム）、化学構造を推定するための処理をプロセッサ部１２０Ｂに行わせるためのプログラム（例えば、後述する図７に示される処理を実現するプログラム）、および／または、特性が改変された化学構造を推定するための処理をプロセッサ部１２０Ｃに行わせるためのプログラム（例えば、後述する図８に示される処理を実現するプログラム）を格納してもよい。ここで、プログラムをどのようにしてメモリ部１３０に格納するかは問わない。例えば、プログラムは、メモリ部１３０にプリインストールされていてもよい。あるいは、プログラムは、コンピュータ読み取り可能な記憶媒体に格納されており、コンピュータ読み取り可能な記憶媒体を読み取ることにより、メモリ部１３０にインストールされるようにしてもよい。あるいは、プログラムは、ネットワークを経由してダウンロードされることによってメモリ部１３０にインストールされるようにしてもよい。この場合、ネットワークの種類は問わない。メモリ部１３０は、任意の記憶手段によって実装され得る。

【0071】

データベース部２００には、例えば、画像－文字列変換システム１００によって出力された文字列または文字列から変換された画像が格納されることができる。あるいは、データベース部２００には、化学構造推定システム１０００によって出力された化学構造を表す文字列または画像が格納されることができる。あるいは、データベース部２００には、学習済モデルを構築するための学習用データまたは構築された学習済モデルが格納されることができる。

【0072】

図３に示される例では、データベース部２００は、システム１００の外部に設けられているが、本発明はこれに限定されない。データベース部２００をシステム１００の内部に設けることも可能である。このとき、データベース部２００は、メモリ部１３０を実装する記憶手段と同一の記憶手段によって実装されてもよいし、メモリ部１３０を実装する記憶手段とは別の記憶手段によって実装されてもよい。いずれにせよ、データベース部２００は、システム１００のための格納部として構成される。データベース部２００の構成は、特定のハードウェア構成に限定されない。例えば、データベース部２００は、単一のハードウェア部品で構成されてもよいし、複数のハードウェア部品で構成されてもよい。例えば、データベース部２００は、システム１００の外付けハードディスク装置として構成されてもよいし、ネットワークを介して接続されるクラウド上のストレージとして構成されてもよい。

【0073】

図４Ａは、プロセッサ部１２０の構成の一例を示す。

【0074】

プロセッサ部１２０は、受信手段１２１と、導出手段１２２と、出力手段１２３とを備える。

【0075】

受信手段１２１は、画像を受信するように構成されている。

【0076】

画像は、文字列と対応付けられる任意の画像であり得、好ましくは化学構造を表す画像である。受信された画像は、導出手段１２２に渡される。

【0077】

導出手段１２２は、画像に対応する文字列を導出するように構成されている。

【0078】

導出手段１２２は、例えば、学習済モデルを用いて、画像に対応する文字列を導出することができる。学習済モデルは、学習用画像と、学習用画像に対応する文字列の一部の文字とを入力すると、入力された文字の次の文字を出力するように学習したモデルである。

【0079】

図５Ａは、学習済モデルの構造の一例を示す。本例では、ディープニューラルネットワーク（ＤＮＮ）が用いられている。ＤＮＮは任意の数の層を有することができる。

【0080】

例えば、第１の入力層に画像を入力し、第２の入力層に文字列の一部の文字を入力すると、出力層５０３から、当該文字列における次の文字が出力されることになる。このＤＮＮは、例えば、以下の手法により構築されることができる。以下では、化学構造を表す画像（ＭＴＭ）および対応する文字列（ＳＭＩＬＥＳ）例に説明する。

【0081】

まず、複数の既知の化合物の化学構造を画像に変換し、それぞれの化合物のそれぞれの文字列（ＳＭＩＬＥＳ）も導出し、画像と文字列と対にして記憶する。文字列は、意味を成す単語に分割して記憶されることができる。単語は、例えば、ＳＭＩＬＥＳの意味構成単位であるトークンであり得る。

【0082】

例えば、ＳＭＩＬＥＳ：
Ｃｎ１ｃｃ（－ｃ２ｃｃｃｃｃ２ＣＮ２ＣＣＯＣＣ２）ｃ２ｃｃ［ｎＨ］ｃ２ｃ１＝Ｏ
は、トークンにより、
ｓｔａｒｔＣｎ１ｃｃ（－ｃ２ｃｃｃｃｃ２ＣＮ２ＣＣＯＣＣ２）ｃ２ｃｃ［ｎＨ］ｃ２ｃ１＝Ｏｅｎｄ
と表されることができる。トークンによって表されたＳＭＩＬＥＳの始まりはｓｔａｒｔトークンであり、終わりはｅｎｄトークンであり、各トークンはスペースで区切られている。

【0083】

ＳＭＩＬＥＳには、ｓｔａｒｔ、ｅｎｄ、ｎｏｎｅトークンを含め、全部で３２種類のトークンが存在する。ここで、各トークンには、トークン－数値変換表から０～３１までのうち１つの番号が割り振られる。ｎｏｎｅトークンは、何もないことを示すトークンであり、数値としては、０が割り振られている。トークンによって表されたＳＭＩＬＥＳは、トークン－数値変換表を用いて数値化されることができる。トークン－数値変換表は、トレーニングデータに含まれるＳＭＩＬＥＳにより構築されるため、トレーニングデータが変わればトークン―数値変換表も変わり得る。学習のために適切なトークン－数値変換表が利用され得る。

【0084】

一例において、トークン－数値変換表は、以下のように表され得る。“ ”内がトークンを表しており、各トークンが０～３１の数値に対応している。なお、トークン－数値変換表は、学習に用いられるＳＭＩＬＥＳの数および種類に応じて変動し得る、
｛“ｎｏｎｅ”：０，“ｓｔａｒｔ”：１，“Ｃ”：２，“Ｓ”：３，“（”：４，“＝”：５，“Ｏ”：６，“）”：７，“ｃ”：８，“１”：９，“ｎ”：１０，“２”：１１，“Ｆ”：１２，“－”：１３，“３”：１４，“［ｎＨ］”：１５，“ｅｎｄ”：１６，“Ｎ”：１７，“［Ｃ＠＠Ｈ］”：１８，“４”：１９，“Ｌ”：２０，“［Ｎ＋］”：２１，“［Ｏ－］”：２２，“ｓ”：２３，“ｏ”：２４，“［Ｃ＠Ｈ］”：２５，“５”：２６，“＃”：２７，“Ｒ”：２８，“６”：２９，“／”：３０，“［ＳＨ］”：３１｝

【0085】

このトークン－数値変換表を用いると、トークンによって表されたＳＭＩＬＥＳ：
ｓｔａｒｔＣｎ１ｃｃ（－ｃ２ｃｃｃｃｃ２ＣＮ２ＣＣＯＣＣ２）ｃ２ｃｃ［ｎＨ］ｃ２ｃ１＝Ｏｅｎｄ
は、
数値化されたＳＭＩＬＥＳ：
［１，２，１０，９，８，８，４，１３，８，１１，８，８，８，８，８，１１，２，１７，１１，２，２，６，２，２，１１，７，８，１１，８，８，１５，８，１１，８，９，５，６，１６］
として表される。

【0086】

学習用データとして、１つの数値化されたＳＭＩＬＥＳから、その長さに応じた複数の学習用の数値されたＳＭＩＬＥＳを作成する。

【0087】

学習用データは、入力ベクトルと出力ベクトルとの対である。入力ベクトルと出力ベクトルとの対は、例えば、ＳＭＩＬＥＳの第１文字目を表すベクトルとＳＭＩＬＥＳの第２文字目を表すベクトルとの対、ＳＭＩＬＥＳの第２文字目までを表すベクトルとＳＭＩＬＥＳの第３文字目を表すベクトルとの対、ＳＭＩＬＥＳの第３文字目までを表すベクトルとＳＭＩＬＥＳの第４文字目を表すベクトルとの対、・・・であり得る。

【0088】

例えば、上記の数値化されたＳＭＩＬＥＳでは、
第１の学習用データは、
入力ベクトル：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
出力ベクトル（答え）：
[0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
となり得る。ここでは、トークン化されたＳＭＩＬＥＳの最大長を８０としており、入力ベクトルが８０次元のベクトルとなっている。何もない要素は０（ｎｏｎｅトークンを示す）で埋められている。入力ベクトルの末尾に、第１文字目の文字（ここでは、１（“ｓｔａｒｔ”トークン）が挿入されている。

【0089】

また、トークンの種類が３２種類であるため、出力ベクトルは、３２次元のベクトルとなっている。ここでは、第２文字目の文字が２（“Ｃ”トークン）であるため、出力ベクトルの第２成分に１が設定されている。

【0090】

この入力ベクトルおよび出力ベクトルの対により、入力が「ｓｔａｒｔ」、その出力（答え）が「Ｃ」であることが学習される。

【0091】

第２の学習用データは、
入力ベクトル：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2]
出力ベクトル（答え）：
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
となり得る。入力ベクトルの末尾には、第２文字目の文字が挿入されており、ここでは、２（“Ｃ”トークン）が挿入されている。数値はベクトルの後ろから前にシフトする。また、第３文字目の文字が１０（“ｎ”トークン）であるため、出力ベクトルの第１０成分に１が設定されている。

【0092】

この入力ベクトルおよび出力ベクトルの対により、入力が「ｓｔａｒｔ，Ｃ」、その出力（答え）が「ｎ」であることが学習される。

【0093】

以上のことから、入力は”ｓｔａｒｔＣ”、その出力（答え）は”ｎ”となる。

【0094】

第３の学習用データは、
入力ベクトル：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2 10]
出力ベクトル（答え）：
[0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
となり得る。入力ベクトルの末尾には、第３文字目の文字が挿入されており、ここでは、１０（“ｎ”トークン）が挿入されている。数値はベクトルの後ろから前にシフトする。また、第４文字目の文字が９（“１”トークン）であるため、出力ベクトルの第９成分に１が設定されている。

【0095】

この入力ベクトルおよび出力ベクトルの対により、入力が「ｓｔａｒｔ，Ｃ，ｎ」、その出力(答え)が「１」であることが学習される。

【0096】

この手順を繰り返すことにより、“ｅｎｄ”トークンが出力ベクトルに設定されるまで、学習用データを作成する。例えば、数値化されたＳＭＩＬＥＳの長さが３８の場合、３７個の学習用データが生成される。本例では、１つのＭＴＭに対して３７個の学習用データが生成されたことになる。学習用データと、ＭＴＭとを用いて学習処理が行われる。ＭＴＭは、例えば、２８×２８ピクセルの画像であり、２８×２８の２階のテンソル（２次元行列）として表現される。各成分は、正規化されたピクセル値であってもよいし、実数値であってもよい。

【0097】

作成された学習用データと対応するＭＴＭとを用いて、図５Ａに示されるＤＮＮの学習処理を行うことによって学習済モデルが構築される。学習の際のハイパーパラメータは、任意のものに設定され得る。

【0098】

導出手段１２２は、例えば、上記のように構築された学習済モデルを用いて、以下のように、ＭＴＭに対応するＳＭＩＬＥＳを導出することができる。

【0099】

はじめに、ＭＴＭと、「Ｓｔａｒｔ」トークンを表す入力ベクトルとが、学習済モデルに入力される。ＭＴＭは、２次元行列から７８４の要素からなるベクトルに変換されたのち、学習済モデルの第１の入力層５０１に入力される。「Ｓｔａｒｔ」トークンを表す入力ベクトルは、学習済モデルの第２の入力層５０２に入力される。「Ｓｔａｒｔ」トークンを表す入力ベクトルは、「Ｓｔａｒｔ」トークンに対応する数値が末尾に挿入されたベクトルであり得る。
入力ベクトル：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]

【0100】

学習済モデルの出力層５０３からは、「Ｓｔａｒｔ」トークンの次にくるトークンが予測され出力される。学習済モデルの出力層５０３の出力は、３２次ベクトルであり、各成分は、対応するトークンが次にくる確率を示している。

【0101】

例えば、出力ベクトルが、
［ 7.69443306e-14 3.60606239e-13 9.99999762e-01 4.12664393e-16
9.96908610e-13 2.51735466e-10 9.08047681e-08 1.14084934e-07
6.60184440e-09 3.07496715e-12 2.06361572e-09 3.41530715e-15
1.59075051e-16 1.24587674e-10 1.68514540e-12 4.61158471e-08
1.24160726e-09 2.73644041e-12 7.36772874e-20 1.35796608e-15
2.88039873e-17 1.01721806e-13 1.73131027e-13 6.01821607e-17
1.28117691e-16 6.16416265e-22 1.21871484e-20 1.19068711e-21
1.47954461e-16 3.89847341e-28 4.67776026e-23 5.85218293e-23］
であった場合、一例において、第０の成分～第３１の成分の３２個の成分のうち、第２の成分が9.99999762e-01と最も大きな値（確率）であるため、第２の成分に対応するトークンが選択されることができる（最も確率が大きい値を選択する手法を、Ａｒｇｍａｘ法と呼ぶ）。トークン－数値変換表から第２の成分は、“Ｃ”トークンに対応しているため、入力された“ｓｔａｒｔ”トークンの次のトークンは、“Ｃ”トークンであることが予想される。

【0102】

別の例では、Ａｒｇｍａｘ法とは異なる選択法としてＴｅｍｐｅｒａｔｕｒｅｓａｍｐｌｉｎｇ（Ｔ－ｓａｍｐｌｉｎｇ）法を用いることができる。Ｔ－ｓａｍｐｌｉｎｇ法は、例えば、ｉＳｃｉｅｎｃｅ２５，１０４６６１，２０２２ＤＯＩ（https://doi.org/10.1016/j.isci.2022.104661）に記載されている。Ｔ－ｓａｍｐｌｉｎｇ法は、温度が高いほど低エネルギー状態に遭遇しやすいという統計熱力学に着想を得た手法である。Ａｒｇｍａｘ法では、最も大きい値（確率）をもつトークンのみが選択されるが、Ｔ－ｓａｍｐｌｉｎｇ法は、温度Ｔに基づいてトークンを選択する手法であって、最も大きい値（確率）をもつトークンではないトークンも選択可能とする手法である。

【0103】

Ｔ－ｓａｍｐｌｉｎｇ法によるトークン選択法は次の通りである。

【0104】

はじめに、出力ベクトルＸが式（１）を使ってｐに変換される。

【数1】

ここで、ｚ_ｉはｌｎ（ｘ_ｉ）であり、添え字ｉは、ベクトルのｉ番目の成分を指す。またＴは温度であり、任意の値に設定可能である。Ｔが大きいほど、各成分の確率の差が小さくなり、より均等な確率でトークンが選択されることになる。

【0105】

次に、p_iに基づく多項分布によるランダムサンプリングを行うことで、成分を選択する。このランダムサンプリングによりＡｒｇｍａｘ法とは異なる成分を選択できる可能性をもつことができる。Ｔ－ｓａｍｐｌｉｎｇ法の利用により、多様な文字列の生成が可能となる。

【0106】

選択されたトークンは、入力ベクトル末尾に挿入される。例えば、Ａｒｇｍａｘ法により第２の成分に対応するトークン（“Ｃ”トークン）が選択された場合、入力ベクトルの末尾に挿入され、数値はベクトルの後ろから前にシフトする。
入力ベクトル：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2]

【0107】

この入力ベクトルとＭＴＭが学習済モデルに入力され、出力される確率に基づいて、トークンが選択される。これを繰り返し、次の条件のいずれかを満たす場合に処理を終了することができる。
１．“ｅｎｄ”トークンが選択される。
２．入力ベクトルの０（ｎｏｎｅトークン）がなくなる。

【0108】

このようにして得られたベクトルは、トークン－数値変換表を用いてＳＭＩＬＥＳに変換される。このとき、ｎｏｎｅトークン、ｓｔａｒｔトークン、ｅｎｄトークンは除去される。

【0109】

例えば、
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2 8 9 15 8 4 13 8 11 8 8 8 8 8 11 6 8 11 8 8 8 8 8 11 7 8 8 9 2 4 17 7 5 6 16]
が得られたとき、ＳＭＩＬＥＳに変換すると、
Ｃｃ１［ｎＨ］ｃ（－ｃ２ｃｃｃｃｃ２Ｏｃ２ｃｃｃｃｃ２）ｃｃ１Ｃ（Ｎ）＝Ｏ
となる。これは、２－ｍｅｔｈｙｌ－５－（２－ｐｈｅｎｏｘｙｐｈｅｎｙｌ）－１Ｈ－ｐｙｒｒｏｌｅ－３－ｃａｒｂｏｘａｍｉｄｅの化合物を表している。

【0110】

このようにして、ＭＴＭから文字列を導出することができる。Ｔ－ｓａｍｐｌｉｎｇ法が用いられる場合には、複数の文字列候補が導出されることになる。

【0111】

出力手段１２３は、導出された文字列を出力するように構成されている。

【0112】

出力手段１２３は、例えば、導出された文字列を、ユーザにとって容易に理解にできる情報に変換して出力することができる。例えば、導出された文字列が化学構造を表す場合、出力手段１２３は、導出された文字列を構造式に変換して出力することができる。

【0113】

出力された文字列または文字列から変換された情報は、例えば、インターフェース部１１０を介してユーザに提示されることができる。

【0114】

出力された文字列は任意の用途に利用されることができる。一例において、出力された文字列は、対応する化学構造の特性を予測するために利用されることができる。

【0115】

図４Ｂは、プロセッサ部１２０の代替実施形態であるプロセッサ部１２０Ａの構成の一例を示す。プロセッサ部１２０Ａは、化学構造の特性を予測するための構成を有している。

【0116】

プロセッサ部１２０Ａは、受信手段１２１と、導出手段１２２と、出力手段１２３と、生成手段１２４と、予測手段１２５とを備えている。受信手段１２１、導出手段１２２、および出力手段１２３は、プロセッサ部１２０について上述したものと同一の構成を有し、ここでは説明を省略する。

【0117】

出力手段１２３は、導出された文字列を生成手段１２４に渡す。

【0118】

生成手段１２４は、文字列を変換して画像を生成するように構成されている。

【0119】

文字列を変換して画像を生成することは、文字列に対応する化学構造を画像（ＭＴＭ）に変換することを含む。これは、例えば、ＡｔｓｕｓｈｉＹｏｓｈｉｍｏｒｉ， “ＰｒｅｄｉｃｔｉｏｎｏｆＭｏｌｅｃｕｌａｒＰｒｏｐｅｒｔｉｅｓＵｓｉｎｇＭｏｌｅｃｕｌａｒＴｏｐｏｇｒａｐｈｉｃＭａｐ”，Ｍｏｌｅｃｕｌｅｓ２０２１，２６，４４７５に説明されるＭＴＭコンバータを用いて実現されることができる。

【0120】

予測手段１２５は、画像に基づいて、対象の特性を予測するように構成されている。特に、予測手段１２５は、化学構造を表す画像に基づいて、化学構造の特性を予測することができる。

【0121】

予測手段１２５は、例えば、学習用化学構造を表す文字列を変換した画像と、学習用化学構造の特性との関係を学習した第２の学習済モデルを用いて、化学構造の特性を予測することができる。第２の学習済モデルは、学習用化学構造を表す文字列を変換した画像を入力すると、学習用化学構造の特性を出力するように学習している。

【0122】

図５Ｂは、学習済モデルの構造の一例を示す。本例では、ディープニューラルネットワーク（ＤＮＮ）が用いられている。ＤＮＮは任意の数の層を有することができる。

【0123】

例えば、入力層に画像を入力すると、出力層から、画像に対応する化学構造の特性が出力されることになる。このＤＮＮは、例えば、複数の学習用化学構造のそれぞれについて、１つの学習用化学構造から生成された画像を入力用教師データとし、その学習用化学構造の特性を出力用教師データとして学習することによって構築されることができる。学習用化学構造から生成された画像は、例えば、２８×２８の２次元行列として入力用教師データに利用される。

【0124】

予測手段１２５によって予測された特性は、システム１００の外部に出力されることができる。予測された特性は、例えば、データベース部２００に格納されてもよいし、端末装置３００に送信されてユーザに提示されてもよい。

【0125】

このように、プロセッサ部１２０Ａによれば、受信された画像から導出された文字列を、画像に再変換して、対象（例えば、化学構造）の特性を予測することができる。これは、例えば、導出手段１２２から複数の文字列候補が導出される場合に、１つの文字列（または対応する化学構造）を特定する際に役立つ。具体的には、導出手段１２２から複数の文字列候補が導出されたとき、それぞれの文字列候補を画像に変換して特性を予測することで、最も良いまたは所望の特性を有する化学構造（または対応する文字列）を選択することが可能になる。

【0126】

図４Ｃは、プロセッサ部１２０の代替実施形態であるプロセッサ部１２０Ｂの構成の一例を示す。プロセッサ部１２０Ｂは、化学構造を推定するための構成を有している。従って、プロセッサ部１２０Ｂは、化学構造推定システム１０００のプロセッサ部ともなり得る。

【0127】

プロセッサ部１２０Ｂは、第１の生成手段１２６と、第２の生成手段１２７と、導出手段１２２と、出力手段１２３とを備える。図４Ｃにおいて、図４Ａを参照して上述した構成を同様の構成には同一の参照番号を付し、ここでは、詳細な説明を省略する。

【0128】

第１の生成手段１２６は、化学構造を変換して画像を生成するように構成されている。第１の生成手段１２６は、図４Ｂを参照して上述した生成手段１２４と同様の構成を有する。すなわち、第１の生成手段１２６は、ＭＴＭコンバータを用いて実現されることができる。

【0129】

生成された画像は、第２の生成手段１２７に渡される。

【0130】

第２の生成手段１２７は、生成された画像を改変して改変画像を生成するように構成されている。

【0131】

第２の生成手段１２７は、画像に対して任意の改変を行うことができる。第２の生成手段１２７は、例えば、画像内の任意のピクセルの実数値またはピクセル値に所定の値を加算、減算、乗算、除算することができる。

【0132】

あるいは、第１の生成手段１２６が複数の化学構造を変換して複数の画像を生成した場合、第２の生成手段１２６は、複数の画像を組み合わせることによって改変を行うことができる。複数の画像の組み合わせは、例えば、複数の画像の平均をとることであり得る。これにより、生成される画像（すなわち、改変画像）の各ピクセル値は、複数の画像のそれぞれの対応するピクセル値の平均または加重平均となり得る。あるいは、改変画像の各ピクセル値は、複数の画像のそれぞれの対応するピクセルの実数値の平均または加重平均となり得る。

【0133】

導出手段１２２は、改変画像に対応する文字列を導出するように構成されている。導出された文字列は、出力手段１２３に渡される。

【0134】

出力手段１２３は、導出された文字列に対応する化学構造を出力するように構成されている。

【0135】

プロセッサ部１２０Ｂは、入力された化学構造から変換される画像を改変して文字列を出力するため、入力された化学構造とは異なる化学構造の文字列を出力することができる。例えば、２つの化学構造を入力すると、２つの化学構造の平均となり得る化学構造の文字列が出力されることになる。例えば、１つの化学構造を入力すると、改変された化学構造の文字列が出力されることになる。これにより、プロセッサ部１２０Ｂは、新規な化学構造を推定することができる。

【0136】

図４Ｄは、プロセッサ部１２０の代替実施形態であるプロセッサ部１２０Ｃの構成の一例を示す。プロセッサ部１２０Ｃは、特性が改変された（好ましくは、向上した）化学構造を推定するための構成を有している。従って、プロセッサ部１２０Ｃは、化学構造推定システム１０００のプロセッサ部ともなり得る。

【0137】

プロセッサ部１２０Ｃは、第１の生成手段１２６と、第２の生成手段１２７と、導出手段１２２と、第３の生成手段１２８と、予測手段１２５と、特定手段１２９とを備える。図４Ｄにおいて、図４Ａを参照して上述した構成を同様の構成には同一の参照番号を付し、ここでは、詳細な説明を省略する。

【0138】

第１の生成手段１２６は、化学構造を変換して画像を生成するように構成されている。

【0139】

第２の生成手段１２７は、生成された画像を改変して改変画像を生成するように構成されている。

【0140】

導出手段１２２は、改変画像に対応する複数組の文字列を導出するように構成されている。導出手段１２２は、Ｔ－ｓａｍｐｌｉｎｇ法を用いて、複数組の文字列を導出することができる。複数組の文字列はそれぞれ、改変画像に対応し得るが、その対応の程度が異なっている。導出された複数組の文字列は、第３の生成手段１２８に渡される。

【0141】

第３の生成手段１２８は、複数組の文字列のそれぞれを変換して複数の画像を生成するように構成されている。第３の生成手段１２８は、図４Ｂを参照して上述した生成手段１２４と同様の構成を有する。第３の生成手段１２８は、複数組の文字列のそれぞれに対して処理を行うことにより、それぞれの画像を生成する。例えば、第３の生成手段１２８により、第１の文字列から第１の画像が生成され、第２の文字列から第２の画像が生成され、第３の文字列から第３の画像が生成され、・・・第ｎの文字列から第ｎの画像が生成される。上述したとおり、複数組の文字列はそれぞれ、改変画像に対応し得るが、その対応の程度が異なるため、生成された画像は、改変画像に一致しないことがあるが、生成された画像は、改変画像に類似する画像であり得る。

【0142】

予測手段１２５は、生成された複数の画像のそれぞれに基づいて、それぞれの画像に対応する化学構造の特性を予測するように構成されている。予測手段１２５は、複数の画像のそれぞれに対して処理を行うことにより、それぞれの特性を予測することができる。例えば、予測手段１２５により、第１の画像から対応する第１の化学構造の特性が予測され、第２の画像から対応する第２の化学構造の特性が予測され、第３の画像から対応する第３の化学構造の特性が予測され、・・・第ｎの画像から対応する第ｎの化学構造の特性が予測される。

【0143】

特定手段１２９は、予測された特性に基づいて、特性が改変された化学構造を特定するように構成されている。特定手段１２９は、複数の画像のそれぞれに対応する化学構造の特性を比較し、所定の基準を満たす化学構造を特定することができる。所定の基準は、例えば、最も高いまたは最も低い特性値を有する化学構造、入力された化学構造よりも高いまたは低い特性値を有する化学構造等であり得る。

【0144】

プロセッサ部１２０Ｃは、入力された化学構造を改変して得られる化学構造のうち、改変された特性を有する化学構造を特定することができる。例えば、２つの化学構造を入力すると、２つの化学構造の平均となり得る化学構造のうち、改変された特性を有する化学構造を特定することができる。例えば、１つの化学構造を入力すると、改変された化学構造のうち、改変された特性を有する化学構造を特定することができる。これにより、プロセッサ部１２０Ｂは、新規な化学構造であって、特性が改変された化学構造を推定することができる。

【0145】

なお、上述した例では、化学構造を対象としたが、対象は化学構造に限定されない。対象は、構造を有し、構造が画像と一意に関連付けられるものであれば、任意の対象であり得る。

【0146】

なお、上述したシステム１００の各構成要素は、単一のハードウェア部品で構成されていてもよいし、複数のハードウェア部品で構成されていてもよい。複数のハードウェア部品で構成される場合は、各ハードウェア部品が接続される態様は問わない。各ハードウェア部品は、無線で接続されてもよいし、有線で接続されてもよい。本発明のシステム１００は、特定のハードウェア構成には限定されない。プロセッサ部１２０をデジタル回路ではなくアナログ回路によって構成することも本発明の範囲内である。本発明のシステム１００の構成は、その機能を実現できる限りにおいて上述したものに限定されない。

【0147】

３．画像－文字列変換システム１００における処理
図６は、画像－文字列変換システム１００における処理の一例（処理６００）を示す。処理６００は、画像を文字列に変換するための処理である。処理６００は、例えば、プロセッサ部１２０において実行されることができる。以下では、プロセッサ部１２０が処理６００を実行することを説明するが、プロセッサ部１２０Ａも同様に処理６００を実行することができる。

【0148】

ステップＳ６０１では、プロセッサ部１２０の受信手段１２１が、画像を受信する。画像は、文字列と対応付けられる任意の画像であり得る。好ましくは、画像は、化学構造を表す画像（例えば、ＭＴＭ）である。受信された画像は、導出手段１２２に渡される。

【0149】

ステップＳ６０２では、プロセッサ部１２０の導出手段１２２が、画像に対応する文字列を導出する。

【0150】

導出手段１２２は、例えば、学習済モデルを用いて、画像に対応する文字列を導出することができる。ここで、学習済モデルは、学習用画像と、学習用画像に対応する文字列の一部の文字とを入力すると、その文字の次の文字を出力するように学習している。これにより、学習済モデルに、画像と、その画像に対応する文字列の一部の文字とを入力する、その文字列におけるその文字の次の文字が出力される。

【0151】

例えば、学習済モデルに、ステップＳ６０１で受信された画像と、その画像に対応する文字列における第１の文字（例えば、ＳＭＩＬＥＳにおけるＳｔａｒｔトークンに対応する文字）とを入力すると、学習済モデルから、当該文字列における第２の文字が出力される。例えば、学習済モデルに、ステップＳ６０１で受信された画像と、その画像に対応する文字列における第１の文字と、先に出力された第２の文字とを入力すると、学習済モデルから、当該文字列における第３の文字が出力される。これを繰り返すことにより、当該文字列の全ての文字列が出力されることになる。

【0152】

学習済モデルが文字列における次の文字を出力するとき、学習済モデルは、例えば、次の文字の候補である複数の候補文字のそれぞれについて、次の文字となる確率を出力し、その確率に基づいて、次の文字を出力することができる。一実施形態において、複数の候補文字のうち、確率が最も高い１つの候補文字を選択し、選択された候補文字を次の文字として出力することができる。これは、上述したＡｒｇｍａｘ法に対応している。別の実施形態において、複数の候補文字のそれぞれの確率の分布に従って、複数の候補文字のうちの１つの候補文字を選択し、選択された候補文字を次の文字として出力することができる。これは、上述したＴ－ｓａｍｐｌｉｎｇ法に対応している。確率の分布には、重みをつけることができ、これにより、所望の結果が得られるように調節することが可能である。重みは、上述したＴ－ｓａｍｐｌｉｎｇ法におけるＴの値に対応している。Ｔが大きいほど、各候補文字の確率の差が小さくなり、より均等な確率で候補文字が選択されることになる。

【0153】

確率の分布に従って、複数の候補文字のうちの１つの候補文字を選択することによって文字列における文字を出力することを繰り返すことによって導出される文字列は、同じ画像に対して処理６００を複数回行う場合、必ずしも同じになるとは限らない。確率の分布に従って、導出される文字列にばらつきが生じるからである。これは、１つの画像から、その画像に対応し得る複数の文字列候補を導出することを可能にする。

【0154】

例えば、上述したＳＭＩＬＥＳを例にすると、学習済モデルは、次の文字の候補である複数の候補文字（ＳＭＩＬＥＳのトークンに対応する３２個の候補文字）のそれぞれについて、次の文字となる確率を出力する。導出手段１２２は、学習済モデルからの出力のうち、最も高い確率の候補文字（ＳＭＩＬＥＳのトークンに対応する１つの候補文字）を選択するようにしてもよいし、確率の分布に従って１つの候補文字（ＳＭＩＬＥＳのトークンに対応する１つの候補文字）を選択するようにしてもよい。

【0155】

ステップＳ６０３では、プロセッサ部１２０の出力手段１２３が、ステップＳ６０２で導出された文字列を出力する。出力手段１２３は、例えば、導出された文字列を、ユーザにとって容易に理解にできる情報に変換して出力することができる。例えば、導出された文字列が化学構造を表す場合、出力手段１２３は、導出された文字列を構造式に変換して出力することができる。

【0156】

出力された文字列は任意の用途に利用されることができる。一例において、出力された文字列は、対象の特性を予測するために利用されることができる。

【0157】

例えば、ステップＳ６０３の後、プロセッサ部１２０Ａの生成手段１２４が、出力された文字列を変換して画像を生成することと、プロセッサ部１２０Ａの予測手段１２５が、生成された画像に基づいて、画像が表す対象の特性を予測することとを行うことができる。

【0158】

予測手段１２５は、学習用画像と、学習用画像が表す対象の特性との関係を学習した第２の学習済モデルを用いて、特性を予測することができる。第２の学習済モデルは、画像を入力すると、その画像が表す対象の特性を出力することができる。

【0159】

一例において、出力された化学構造を表す文字列は、ＭＴＭに変換され、変換されたＭＴＭは、第２の学習済モデルに入力され、これにより、当該化学構造の特性を予測することができる。

【0160】

図７は、化学構造推定システム１０００における処理の一例（７００）を示す。処理７００は、化学構造を推定するための処理である。処理７００は、例えば、プロセッサ部１２０Ｂにおいて実行されることができる。

【0161】

ステップＳ７０１において、プロセッサ部１２０Ｂの第１の生成手段１２６が、化学構造を変換して画像を生成する。第１の生成手段１２６は、例えば、ＭＴＭコンバータを用いて、化学構造を変換して画像（ＭＴＭ）を生成することができる。

【0162】

ステップＳ７０１では、第１の生成手段１２６は、複数の化学構造のそれぞれを変換して複数の画像を生成することができる。例えば、第１の生成手段１２６は、第１の化学構造を表す第１の文字列を変換して第１の画像を生成し、第２の化学構造を表す第２の文字列を変換して第２の画像を生成することができる。

【0163】

ステップＳ７０２において、プロセッサ部１２０Ｂの第２の生成手段１２７が、ステップＳ７０１で生成された画像を改変して改変画像を生成する。

【0164】

第２の生成手段１２７は、化学構造を変換して生成された画像に対して任意の改変を行うことができる。第２の生成手段１２７は、例えば、画像内の任意のピクセルの実数値またはピクセル値に所定の値を加算、減算、乗算、除算することができる。

【0165】

複数の化学構造を変換して複数の画像が生成されている場合には、第２の生成手段１２７は、複数の画像を組み合わせることで改変画像を生成することができる。複数の画像の組み合わせは、例えば、複数の画像の平均をとることであり得る。これにより、生成される画像（すなわち、改変画像）の各ピクセル値は、複数の画像のそれぞれの対応するピクセル値の平均または加重平均となり得る。あるいは、改変画像の各ピクセル値は、複数の画像のそれぞれの対応するピクセルの実数値の平均または加重平均となり得る。

【0166】

ステップＳ７０３において、プロセッサ部１２０Ｂの導出手段１２２が、改変画像に対応する文字列を導出する。導出手段１２２は、ステップＳ６０２と同様にして、文字列を導出することができる。

【0167】

例えば、学習済モデルに、ステップＳ７０２で生成された改変画像と、その改変画像に対応する文字列における第１の文字（例えば、ＳＭＩＬＥＳにおけるＳｔａｒｔトークンに対応する文字）とを入力すると、学習済モデルから、当該文字列における第２の文字が出力される。例えば、学習済モデルに、ステップＳ７０２で生成された改変画像と、その改変画像に対応する文字列における第１の文字と、先に出力された第２の文字とを入力すると、学習済モデルから、当該文字列における第３の文字が出力される。これを繰り返すことにより、当該文字列の全ての文字列が出力されることになる。

【0168】

導出手段１２２は、確率の分布を利用して、複数の文字列候補を導出するようにしてもよい。

【0169】

ステップＳ７０４において、プロセッサ部１２０Ｂの出力手段１２３が、導出された文字列に対応する化学構造を出力する。出力手段１２３は、例えば、化学構造を構造式で出力することができる。

【0170】

このようにして、入力された化学構造から新規な化学構造を推定することができる。複数の化学構造が入力された場合には、複数の化学構造の平均となり得る化学構造を推定することができる。これは、創薬の分野において、新規の薬剤を創出することにつながり得る。

【0171】

図８は、化学構造推定システム１０００における処理の一例（８００）を示す。処理８００は、特性が改変された化学構造を推定するための処理である。処理８００は、例えば、プロセッサ部１２０Ｃにおいて実行されることができる。

【0172】

ステップＳ８０１において、プロセッサ部１２０Ｃの第１の生成手段１２６が、化学構造を変換して画像を生成する。第１の生成手段１２６は、例えば、ＭＴＭコンバータを用いて、化学構造を変換して画像（ＭＴＭ）を生成することができる。

【0173】

ステップＳ８０１では、第１の生成手段１２６は、複数の化学構造のそれぞれを変換して複数の画像を生成することができる。例えば、第１の生成手段１２６は、第１の化学構造を表す第１の文字列を変換して第１の画像を生成し、第２の化学構造を表す第２の文字列を変換して第２の画像を生成することができる。

【0174】

ステップＳ８０２において、プロセッサ部１２０Ｃの第２の生成手段１２７が、ステップＳ８０２で生成された画像を改変して改変画像を生成する。

【0175】

【0176】

【0177】

ステップＳ８０３において、プロセッサ部１２０Ｃの導出手段１２２が、ステップＳ８０２で生成された改変画像に対応する複数組の文字列を導出する。導出手段１２２は、ステップＳ６０２と同様にして、学習済モデルを用いて文字列を導出することができる。

【0178】

例えば、学習済モデルに、ステップＳ８０２で生成された改変画像と、その改変画像に対応する文字列における第１の文字（例えば、ＳＭＩＬＥＳにおけるＳｔａｒｔトークンに対応する文字）とを入力すると、学習済モデルから、当該文字列における第２の文字が出力される。例えば、学習済モデルに、ステップＳ７０２で生成された改変画像と、その改変画像に対応する文字列における第１の文字と、先に出力された第２の文字とを入力すると、学習済モデルから、当該文字列における第３の文字が出力される。これを繰り返すことにより、当該文字列の全ての文字列が出力されることになる。

【0179】

導出手段１２２は、改変画像に対応する文字列を導出する処理を繰り返すことにより、複数組の文字列を導出する。このとき、Ｔ－ｓａｍｐｌｉｎｇ法を用いて文字列を導出するようにすることで、複数回の繰り返し処理で導出される複数組の文字列にばらつきが生じる。

【0180】

ステップＳ８０４において、プロセッサ部１２０Ｃの第３の生成手段１２８が、ステップＳ８０３で導出された複数組の文字列のそれぞれを変換して複数の画像を生成する。第３の生成手段１２８は、例えば、ＭＴＭコンバータを用いて、化学構造を変換して画像（ＭＴＭ）を生成することができる。第３の生成手段１２８は、複数組の文字列のそれぞれに対して処理を行うことにより、それぞれの画像を生成する。例えば、第３の生成手段１２８により、第１の文字列から第１の画像が生成され、第２の文字列から第２の画像が生成され、第３の文字列から第３の画像が生成され、・・・第ｎの文字列から第ｎの画像が生成される。

【0181】

ステップＳ８０５において、プロセッサ部１２０Ｃの予測手段１２５が、ステップＳ８０４で生成された複数の画像の各画像に基づいて、それぞれの特性を予測する。予測手段１２５は、学習用画像と、学習用画像が表す対象の特性との関係を学習した第２の学習済モデルを用いて、特性を予測することができる。第２の学習済モデルは、画像を入力すると、その画像が表す対象の特性を出力することができる。予測手段１２５は、複数の画像のそれぞれに対して処理を行うことにより、それぞれの特性を予測することができる。例えば、予測手段１２５により、第１の画像から対応する第１の化学構造の特性が予測され、第２の画像から対応する第２の化学構造の特性が予測され、第３の画像から対応する第３の化学構造の特性が予測され、・・・第ｎの画像から対応する第ｎの化学構造の特性が予測される。

【0182】

ステップＳ８０６において、プロセッサ部１２０Ｃの特定手段１２９が、ステップＳ８０５で予測された特性に基づいて、特性が改変された化学構造を特定する。特定手段１２９は、複数の特性を比較し、所定の基準を満たす特性を有する化学構造を特定することができる。所定の基準は、例えば、最も高いまたは最も低い特性値を有する化学構造、入力された化学構造よりも高いまたは低い特性値を有する化学構造等であり得る。

【0183】

このようにして、入力された化学構造から特性が改変された（例えば、向上した）化学構造を推定することができる。複数の化学構造が入力された場合には、複数の化学構造に共通する特性が改変された化学構造を推定することができる。これは、創薬の分野において、新規かつ有効な薬剤を創出することにつながり得る。

【0184】

【0185】

図６～図８を参照して上述した例では、特定の順序で処理が行われることを説明したが、各処理の順序は説明されたものに限定されず、論理的に可能な任意の順序で行われ得る。

【0186】

図６～図８を参照して上述した例では、図６～図８に示される各ステップの処理は、プロセッサ部１２０、プロセッサ部１２０Ａ、プロセッサ部１２０Ｂ、またはプロセッサ部１２０Ｃとメモリ部１３０に記憶されたプログラムとによって実現することが説明されたが、本発明はこれに限定されない。図６～図８に示される各ステップの処理のうちの少なくとも１つは、制御回路などのハードウェア構成によって実現されてもよい。

【0187】

本発明は、上述した実施形態に限定されるものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。例えば、一実施形態について記載された特徴は、別の実施形態にも適用可能であることが当然に理解される。

【実施例0188】

（ＭＴＭインバータの構築）
Ｂｒｏｍｏｄｏｍａｉｎ－ｃｏｎｔａｉｎｉｎｇｐｒｏｔｅｉｎ４（ＢＲＤ４）阻害剤について、ＭＴＭインバータを構築した。構築するためのデータセットとして、ＢＲＤ４阻害剤の化学構造とそのＫｉ値をＣｈＥＭＢＬ（https://www.ebi.ac.uk/chembl/）より取得した。重複した化学構造は、そのＫｉ値の平均を代表値とし、１つの化学構造を残すことで重複の除去をした。結果として、８３９個の化学構造とそのＫｉ値を得た。ここでは、これら８３９個のデータをＢＲＤ４データセットと呼ぶことにする。

【0189】

ＢＲＤ４データセットは、以下に示すように、各行に１つの化学構造に関する情報が記載されており、具体的にはＳＭＩＬＥＳ化合物ＩＤ／ｐＫｉ値が掲載されている。ｐＫｉ値は、ｐＫｉ＝－ｌｏｇ（Ｋｉ）により得られる値であり、値が大きい程、阻害活性が強いことを示す。
例：BRD4データセット：
Cc1[nH]c(-c2cc(N)ccc2Oc2ccccc2)cc1C(N)=O CHEMBL4088536/6.38
COc1cc2c(cc1-c1c(C)noc1C)[nH]c1ncnc(Cl)c12 CHEMBL4209208/6.365
Cc1cc(C)c(S(=O)(=O)O)cc1/N=N/c1cc(C)c(O)c(C)c1 CHEMBL3087050/5.255

【0190】

ＢＲＤ４データセットを８対２の割合で、トレーニングデータ（６７１個）とテストデータ（１６８個）に分割した。

【0191】

トレーニングデータ（６７１個）に含まれる化学構造を用いて、本開示のＭＴＭインバータを構築した。

【0192】

（ＭＴＭインバータの精度評価）
トレーニングデータ（６７１個）およびテストデータ（１６８個）を使って、ＭＴＭインバータの変換精度について評価を行った。

【0193】

変換精度の評価は以下の２つの変換手法と２つの評価指標により実施した。
変換手法：Ａｒｇｍａｘ法、Ｔ－Ｓａｍｐｌｉｎｇ法
評価指標：再構築（Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ）、ＳＭＩＬＥＳの有効性（Ｖａｌｉｄｉｔｙ）、類似度（Ｓｉｍｉｌａｒｉｔｙ）

【0194】

再構築（Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ）とは、ＭＴＭから逆変換された化学構造が元の化学構造に一致するか否かを示す指標である。化学構造はＳＭＩＬＥＳで表現されている。ＳＭＩＬＥＳの一致は、ＳＭＩＬＥＳをＲＤＫｉｔ（https://www.rdkit.org/）によりＣａｎｏｎｉｃａｌＳＭＩＬＥＳに変換し、文字列一致により判定を行った。ＣａｎｏｎｉｃａｌＳＭＩＬＥＳとは、１つの化学構造が１つのＳＭＩＬＥＳに変換されるように規範化されたＳＭＩＬＥＳを指す。

【0195】

ＳＭＩＬＥＳの有効性（Ｖａｌｉｄｉｔｙ）とは、ＭＴＭから逆変換されたＳＭＩＬＥＳが、ＳＭＩＬＥＳの文法として正しいか否か示す指標である。ＳＭＩＬＥＳの文法が正しいか否かは、ＲＤＫｉｔのＣｈｅｍ．ＭｏｌＦｒｏｍＳｍｉｌｅｓ関数（https://www.rdkit.org/）を使って判定を行った。

【0196】

類似度（Ｓｉｍｉｌａｒｉｔｙ）とは、ＭＴＭから逆変換された化学構造と元の化学構造との類似度を示す指標である。ＭＴＭから逆変換された化学構造のＭＴＭは、ＭＴＭコンバータで変換する。化学構造間の類似度は、ＭＴＭ間の類似度と定義し、谷本係数（実数版）（Int J Data Sci Anal 4, 153-172 (2017). https://doi.org/10.1007/s41060-017-0064-z）を用いて算出する。

【0197】

Ａｒｇｍａｘ法およびＴ－Ｓａｍｐｌｉｎｇ法のそれぞれについての評価結果を表１に示す。

【表1】

【0198】

トレーニングデータにおけるＡｒｇｍａｘ法を用いたＲｅｃｏｎｓｔｒｕｃｔｉｏｎは、７８．２％であり、Ｔ－ｓａｍｐｌｉｎｇ法を用いたＲｅｃｏｎｓｔｒｕｃｔｉｏｎは、９７．８％であった。Ｔ－ｓａｍｐｌｉｎｇ法により、再構築の精度が大幅に向上している。Ｖａｌｉｄｉｔｙは、Ａｒｇｍａｘ法では９６．３％、Ｔ－ｓａｍｐｌｉｎｇ法では、１００％であった。平均のＳｉｍｉｌａｒｉｔｙは、Ａｒｇｍａｘ法では、０．９９０、Ｔ－ｓａｍｐｌｉｎｇ法では、０．９９８であった。

【0199】

次に、テストデータにおけるＡｒｇｍａｘ法を用いたＲｅｃｏｎｓｔｒｕｃｔｉｏｎは、１０．１％であり、Ｔ－ｓａｍｐｌｉｎｇ法を用いたＲｅｃｏｎｓｔｒｕｃｔｉｏｎは、３０．４％であった。テストデータにおいても、Ｔ－ｓａｍｐｌｉｎｇ法により、再構築の精度が大幅に向上している。Ｖａｌｉｄｉｔｙは、Ａｒｇｍａｘ法では８４．５％、Ｔ－ｓａｍｐｌｉｎｇ法では、９９．４％であった。ＡｖｅｒａｇｅｄＳｉｍｉｌａｒｉｔｙは、Ａｒｇｍａｘ法では、０．９０６、Ｔ－ｓａｍｐｌｉｎｇ法では、０．９５６であった。Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎは、３０．４％であるが、平均のＳｉｍｉｌａｒｉｔｙをみて分かるように、元の化学構造と非常に類似した化学構造を生成していることが分かる。

【0200】

Ｔ－ｓａｍｐｌｉｎｇ法において必要なパラメータは温度（Ｔｅｍｐｅｒａｔｕｒｅ）とサンプリング回数の２つである。設定した値を表２に示す。

【表2】

【0201】

ここでは、各Ｔ－ｓａｍｐｌｉｎｇにおいて、１００回のサンプリングを行っている。その結果、平均のｖａｌｉｄｉｔｙはトレーニングセットで８５．４％、テストセットで７０．４％であった。また、平均のユニーク性は、トレーニングセットで６．５％、テストセットで９．９％であった。ユニーク性とは、重複のない化学構造のことを示す。１００回のサンプリングで重複のない１０個の化学構造が生成された場合は、ユニーク性は、１０．０％となる。

【0202】

トレーニングデータ、およびテストデータにおける類似度の分布を図９に示す。Ｔ－ｓａｍｐｌｉｎｇ法により、元の化学構造と類似した化学構造を大幅に増加させていることが分かる。以上の結果から、ＭＴＭインバータによる逆変換は、Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎでは３０．４％、平均のＳｉｍｉｌａｒｉｔｙでは、０．９５６の精度で実施できることを確認した。

【0203】

（ＭＴＭインバータによる新規ＢＲＤ４阻害剤の推定）
既知のＢＲＤ４阻害剤から、生物活性が向上したＢＲＤ４阻害剤をＭＴＭインバータを利用して推定した。このフローは、図１Ｂに示されるフローに対応している。

【0204】

トレーニングデータから、活性の強い（ｐＫｉ値＞８．０）ＢＲＤ４阻害剤を１０００組、ランダムに選択した。ここで選ばれた化合物をベース化合物と呼び、そのペアをベース化合物ペアと呼ぶ。

【0205】

ベース化合物ペアは、ペース化合物Ａ（Ｃ１１）とベース化合物Ｂ（Ｃ２２）から構成される。

【0206】

混合ＭＴＭ（Ｉ１３）は、ベース化合物ＡのＭＴＭ（Ｉ１１）とベース化合物ＢのＭＴＭ（Ｉ１２）を用いて、以下の式から算出される。

【数2】

０＜λ＜１であり、典型的には、λ＝０．５である。λ＝０．５は、混合ＭＴＭ（Ｉ１３）がベース化合物ＡのＭＴＭ（Ｉ１１）とベース化合物ＢのＭＴＭ（Ｉ１２）との丁度平均であることを意味する。

【0207】

ＭＴＭインバータを用いてＭＴＭ（Ｉ１３）からＴ－ｓａｍｐｌｉｎｇ法を用いて化学構造（ＳＭＩＬＥＳ）に逆変換する。ここで、Ｔ－ｓａｍｐｌｉｎｇ法における温度（Ｔｅｍｐｅｒａｔｕｒｅ）は１．５、サンプリング回数は１００とした。Ｔ－ｓａｍｐｌｉｎｇ法を用いた逆変換により、複数組のＳＭＩＬＥＳが得られた。得られたＳＭＩＬＥＳは、ＭＴＭコンバータを用いてＭＴＭに変換された。ＭＴＭ（Ｉ１３）と最も類似したＭＴＭの元となる化学構造（ＳＭＩＬＥＳ）が、ＭＴＭ（Ｉ１３）を逆変換して得られた化学構造として提示された。

【0208】

ＢＲＤ４に対する活性予測を行うために、ＢＲＤ４活性予測モデルを用いた。ＢＲＤ４活性予測モデルは上述した第２の学習済モデルに対応している。ＭＴＭ（Ｉ１３）を入力とし、ＢＲＤ４活性予測モデルを用いて、ＢＲＤ４に対する活性を予測した。また、ＭＴＭインバータを用いて得られたＳＭＩＬＥＳからＭＴＭコンバータを用いて変換されたＭＴＭを入力とし、ＢＲＤ４活性予測モデルを用いて、ＢＲＤ４に対する活性を予測した。

【0209】

ＢＲＤ４活性予測モデルはＭＴＭコンバータを構築するときのトレーニングデータと同じものを利用した。

【0210】

ＤＮＮにおけるパラメータは、ハイパーパラメータ自動最適化フレームワークoptuna（https://github.com/optuna/optuna）を用いて、以下の４つのハイパーパラメータの最適化を実施した。
・conv2d_1のConv2Dレイヤーの引数filters
・conv2d_2のConv2Dレイヤーの引数filters
・dense_1のDenseレイヤーの引数units
・dropout_1のDropoutレイヤーの引数rate

【0211】

最終的にDNNのハイパーパラメータは以下となった。
・conv2d_1のConv2Dレイヤーの引数filtersは48、activationは”relu”
・conv2d_2のConv2Dレイヤーの引数filtersは96、activationは”relu”
・dense_1のDenseレイヤーの引数unitsは、512、activationは”relu”
・dropout_1のDropoutレイヤーの引数rateは0.2
・dense_2のDenseレイヤーの引数activationは”liner”
・DNNにおける損失関数は、” mean_squared_error”
・損失関数の最適化アルゴリズムは、”adam”
・epoch数は100
・batchサイズは16

【0212】

ＢＲＤ４活性予測モデルの評価を以下の３つの評価指標により実施した。
・平均二乗誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）
・平均絶対誤差（ＭＡＥ：ＭｅａｎＡｂｓｏｌｕｔｅＥｒｒｏｒ）
・決定係数（Ｒ２）：

【0213】

結果を、表３に示す。

【表3】

【0214】

テストデータにおいてＭＳＥ＝０．２７７、ＭＡＥ＝０．３８９、Ｒ２＝０．７５５と良好な予測精度であることを確認した。

【0215】

１０００組のベース化合物から生成された１０００個の化学構造に対して、構築されたＭＴＭインバータおよびＢＲＤ４活性予測モデルを用いて、３つの条件を全て満たす化合物を選別した。
条件１：ＭＴＭ（Ｉ１３）の予測値（ｐＫｉ）がベース化合物ＡおよびＢのどちらの実測値（ｐＫｉ）よりも大きい。
条件２：ＭＴＭインバータにより変換されたＳＭＩＬＥＳから得られたＭＴＭの予測値（ｐＫｉ）がベース化合物ＡおよびＢのどちらの実測値（ｐＫｉ）よりも大きい。
条件３：ＭＴＭインバータにより変換されたＳＭＩＬＥＳの化学構造が、ＢＲＤ４データセットに含まれていないこと。

【0216】

その結果、２５個の化学構造がＢＲＤ４阻害剤として選別された。最も予測値の良い化合物を図１０に示す。

【0217】

選抜された２５個の化合物は、次の４つのタイプに分類できた（図１１Ａおよび図１１Ｂ）。

【0218】

ここでは、ベース化合物Ａを化合物Ａ、ベース化合物Ｂを化合物Ｂ、そしてＭＴＭインバータにより変換されたＳＭＩＬＥＳが示す化合物を化合物Ｃと呼ぶ。
ＴｙｐｅＡ：
化合物Ｃは、次の条件を全て満たす。
・化合物Ｃは化合物ＡとＭＭＰである。
・化合物Ｃは化合物ＢとＭＭＰである。
ただし、化合物Ａと化合物ＢはＭＭＰではない。
ＴｙｐｅＢ：
化合物Ｃは、次の条件を全て満たす。
・化合物Ｃは化合物ＡとＭＭＰである。
・化合物Ｃは化合物ＢとＭＭＰである。
ただし、化合物Ａと化合物ＢはＭＭＰである。
ＴｙｐｅＣ：
化合物Ｃは、次の条件のどちらか１つを満たす。
・化合物Ｃは、化合物ＡとＭＭＰである。
・化合物Ｃは、化合物ＢとＭＭＰである。
ＴｙｐｅＤ：
化合物Ｃは、次の条件を全て満たす。
・化合物Ｃは化合物ＡとＭＭＰでない。
・化合物Ｃは化合物ＢとＭＭＰでない。

【0219】

ここで、ＭＭＰ（Matched Molecular Pair）は、大部分において共通の構造を持ち、一か所のみ部分構造が異なる分子のペアのことである。

【0220】

創薬の分野においては、リード化合物のＭＭＰとなる化合物を中心に、合成展開を行い、医薬品に適した化合物へと最適化を行われている。本開示のＭＴＭインバータおよびＢＲＤ４活性予測モデルを用いて推定された新規な化合物の中には、ベース化合物Ａおよび／またはベース化合物Ｂに対してＭＭＰの関係をもった化合物が複数含まれていた。従って、本開示の手法は、創薬の分野においても利用価値があることが示唆されている。

【0221】

（新規かつ活性のあるＢＲＤ４阻害剤の生成）
１０００組の中から以下の条件を全て満たす化合物をＢＲＤ４阻害剤として選別した。

【0222】

条件：逆変換された化学構造が、テストデータに含まれていること。

【0223】

ＭＴＭインバータはトレーニングデータの化学構造をもとに学習されているため、テストデータの化学構造は一切含まれていない。１０００組のベース化合物のＭＴＭ（Ｉ１３）から逆変換された化学構造がテストデータに含まれていれば、新規かつ活性のあるＢＲＤ４阻害剤を生成できたことを示す。

【0224】

結果は以下の通りであった。
新規の化学構造：４８５（ＢＲＤデータセットに含まれていない化学構造）
既存の化学構造：５１５（ＢＲＤデータセットに含まれている化学構造）
トレーニングデータ内：４８５
バリデーションデータ内：１０
テストデータ内：２０
合計１０００

【0225】

生成された１０００化合物の内、２０化合物がテストデータ内に含まれていた。ただし、重複した化学構造が含まれているため、それを除去したところ、８化合物であった。結果として、実際にＢＲＤ４に対して活性のある化合物を８化合物、生成できたことになる。

【産業上の利用可能性】

【0226】