(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】情報処理装置、プログラム及び情報処理方法
(51)【国際特許分類】
G09C 1/00 20060101AFI20241001BHJP
G16C 20/70 20190101ALI20241001BHJP
【FI】
G09C1/00 660D
G16C20/70
(21)【出願番号】P 2022522566
(86)(22)【出願日】2021-04-12
(86)【国際出願番号】 JP2021015183
(87)【国際公開番号】W WO2021229973
(87)【国際公開日】2021-11-18
【審査請求日】2023-12-22
(31)【優先権主張番号】P 2020084839
(32)【優先日】2020-05-14
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001254
【氏名又は名称】弁理士法人光陽国際特許事務所
(72)【発明者】
【氏名】加川 哲哉
【審査官】行田 悦資
(56)【参考文献】
【文献】国際公開第2019/004437(WO,A1)
【文献】国際公開第2013/038698(WO,A1)
【文献】特開2018-054765(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G09C 1/00
G16C 20/70
(57)【特許請求の範囲】
【請求項1】
第1の外部装置に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供部と、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得する第1のデータ取得部と、
前記機能予測対象の暗号化構造データに対応する化合物の機能を所定の予測モデルに基づいて予測する予測部と、
を備え、
前記予測モデルは、化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、前記化合物の機能に係る機能データとの相関関係を表す、情報処理装置。
【請求項2】
化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化部と、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記予測モデルとしての学習モデルを生成する学習モデル生成部と、
を備える、請求項1に記載の情報処理装置。
【請求項3】
前記第1のデータ取得部は、前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該学習対象の暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得し、
前記学習モデル生成部は、前記第1のデータ取得部が取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する、請求項2に記載の情報処理装置。
【請求項4】
化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化部と、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記暗号化構造データと前記機能データとの相関関係を表す学習モデルを生成する学習モデル生成部と、
第1の外部装置に対して、前記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供部と、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得する第1のデータ取得部と、
を備え、
前記学習モデル生成部は、前記第1のデータ取得部が取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する、情報処理装置。
【請求項5】
前記第1のデータ取得部は、前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得し、
当該情報処理装置は、前記第1のデータ取得部が取得した前記機能予測対象の暗号化構造データに対応する化合物の機能を前記学習モデルに基づいて予測する予測部を備える、請求項4に記載の情報処理装置。
【請求項6】
前記構造データを生成する構造データ生成部を備え、
前記暗号化部は、前記構造データ生成部が生成した前記構造データを暗号化して機能予測対象の前記暗号化構造データを生成し、
前記予測部は、前記暗号化部が生成した前記機能予測対象の暗号化構造データに対応する化合物の機能を前記学習モデルに基づいて予測する、請求項2、3、5のいずれか一項に記載の情報処理装置。
【請求項7】
化合物の構造を公開する第2の外部装置から当該化合物の構造に係る構造データを取得する第2のデータ取得部を備え、
前記暗号化部は、前記第2のデータ取得部が取得した前記構造データを暗号化して機能予測対象の前記暗号化構造データを生成し、
前記予測部は、前記暗号化部が生成した前記機能予測対象の暗号化構造データに対応する化合物の機能を前記学習モデルに基づいて予測する、請求項2、3、5のいずれか一項に記載の情報処理装置。
【請求項8】
外部の所定のデータベースから前記構造データ及び前記機能データを取得する第3のデータ取得部を備え、
前記暗号化部は、前記第3のデータ取得部が取得した前記構造データに基づいて前記暗号化構造データを生成し、
前記学習モデル生成部は、当該暗号化構造データ、及び前記第3のデータ取得部が取得した前記機能データを少なくとも用いて前記学習モデルを生成する、請求項2~7のいずれか一項に記載の情報処理装置。
【請求項9】
前記暗号化アルゴリズムは、暗号化前の前記構造データへの逆変換が不可能である、請求項1~8のいずれか一項に記載の情報処理装置。
【請求項10】
情報処理装置に設けられたコンピューターを、
第1の外部装置に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供手段、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得するデータ取得手段、
前記機能予測対象の暗号化構造データに対応する化合物の機能を所定の予測モデルに基づいて予測する予測手段、
として機能させ、
前記予測モデルは、化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、前記化合物の機能に係る機能データとの相関関係を表す、プログラム。
【請求項11】
情報処理装置に設けられたコンピューターを、
化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化手段、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記暗号化構造データと前記機能データとの相関関係を表す学習モデルを生成する学習モデル生成手段、
第1の外部装置に対して、前記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供手段、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得するデータ取得手段、
として機能させ、
前記学習モデル生成手段は、前記データ取得手段が取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する、プログラム。
【請求項12】
情報処理装置が実行する情報処理方法であって、
第1の外部装置に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供ステップと、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得するデータ取得ステップと、
前記機能予測対象の暗号化構造データに対応する化合物の機能を所定の予測モデルに基づいて予測する予測ステップと、
を含み、
前記予測モデルは、化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、前記化合物の機能に係る機能データとの相関関係を表す、情報処理方法。
【請求項13】
情報処理装置が実行する情報処理方法であって、
化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化ステップと、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記暗号化構造データと前記機能データとの相関関係を表す学習モデルを生成する学習モデル生成ステップと、
第1の外部装置に対して、前記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供ステップと、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得するデータ取得ステップと、
を含み、
前記学習モデル生成ステップでは、前記データ取得ステップにおいて取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する、情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
従来、化合物の機能の予測に、演繹的予測モデルや、帰納的アプローチで機械学習により生成された学習モデルといった予測モデルが用いられている。このうち演繹的予測モデルは、化合物についての既知の原理や規則性から化合物の機能を予測する予測モデルである。また、学習モデルは、例えば化合物の構造に係る記述子を説明変数とし、当該化合物が呈する機能を目的変数として帰納的に学習した結果得られる、説明変数と目的変数との相関を表す予測モデルである(例えば、特許文献1)。機械学習を含む情報処理を用いて材料開発を行う方法は、マテリアルインフォマティクス(以下「MI」と記す)と呼ばれている。
【0003】
このような予測モデルを用いて機能を予測する対象の化合物の情報や、学習モデルの生成に用いる化合物の情報は、例えば公開されているデータベースから取得することができる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、公開されているデータベースから必要な情報を取得可能な化合物は限られており、機能予測対象の化合物の候補を増やしたり、学習モデルの生成に用いる化合物を増やして予測精度をさらに向上させたりするためには、非公開のデータベースからも化合物の情報を取得する必要がある。ここで、非公開のデータベースから化合物の構造の情報を取得すると、化合物の構造に係る機密情報の漏洩に繋がる可能性があるという課題がある。
【0006】
この発明の目的は、化合物の構造に係る機密情報の安全性を高めることができる情報処理装置、プログラム及び情報処理方法を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、請求項1に記載の情報処理装置の発明は、
第1の外部装置に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供部と、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得する第1のデータ取得部と、
前記機能予測対象の暗号化構造データに対応する化合物の機能を所定の予測モデルに基づいて予測する予測部と、
を備え、
前記予測モデルは、化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、前記化合物の機能に係る機能データとの相関関係を表す。
【0008】
請求項2に記載の発明は、請求項1に記載の情報処理装置において、
化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化部と、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記予測モデルとしての学習モデルを生成する学習モデル生成部と、
を備える。
【0009】
請求項3に記載の発明は、請求項2に記載の情報処理装置において、
前記第1のデータ取得部は、前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該学習対象の暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得し、
前記学習モデル生成部は、前記第1のデータ取得部が取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する。
【0010】
上記目的を達成するため、請求項4に記載の情報処理装置の発明は、
化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化部と、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記暗号化構造データと前記機能データとの相関関係を表す学習モデルを生成する学習モデル生成部と、
第1の外部装置に対して、前記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供部と、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得する第1のデータ取得部と、
を備え、
前記学習モデル生成部は、前記第1のデータ取得部が取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する。
【0011】
請求項5に記載の発明は、請求項4に記載の情報処理装置において、
前記第1のデータ取得部は、前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得し、
当該情報処理装置は、前記第1のデータ取得部が取得した前記機能予測対象の暗号化構造データに対応する化合物の機能を前記学習モデルに基づいて予測する予測部を備える。
【0012】
請求項6に記載の発明は、請求項2、3、5のいずれか一項に記載の情報処理装置において、
前記構造データを生成する構造データ生成部を備え、
前記暗号化部は、前記構造データ生成部が生成した前記構造データを暗号化して機能予測対象の前記暗号化構造データを生成し、
前記予測部は、前記暗号化部が生成した前記機能予測対象の暗号化構造データに対応する化合物の機能を前記学習モデルに基づいて予測する。
【0013】
請求項7に記載の発明は、請求項2、3、5のいずれか一項に記載の情報処理装置において、
化合物の構造を公開する第2の外部装置から当該化合物の構造に係る構造データを取得する第2のデータ取得部を備え、
前記暗号化部は、前記第2のデータ取得部が取得した前記構造データを暗号化して機能予測対象の前記暗号化構造データを生成し、
前記予測部は、前記暗号化部が生成した前記機能予測対象の暗号化構造データに対応する化合物の機能を前記学習モデルに基づいて予測する。
【0014】
請求項8に記載の発明は、請求項2~7のいずれか一項に記載の情報処理装置において、
外部の所定のデータベースから前記構造データ及び前記機能データを取得する第3のデータ取得部を備え、
前記暗号化部は、前記第3のデータ取得部が取得した前記構造データに基づいて前記暗号化構造データを生成し、
前記学習モデル生成部は、当該暗号化構造データ、及び前記第3のデータ取得部が取得した前記機能データを少なくとも用いて前記学習モデルを生成する。
【0015】
請求項9に記載の発明は、請求項1~8のいずれか一項に記載の情報処理装置において、
前記暗号化アルゴリズムは、暗号化前の前記構造データへの逆変換が不可能である。
【0016】
また、上記目的を達成するため、請求項10に記載のプログラムの発明は、
情報処理装置に設けられたコンピューターを、
第1の外部装置に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供手段、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得するデータ取得手段、
前記機能予測対象の暗号化構造データに対応する化合物の機能を所定の予測モデルに基づいて予測する予測手段、
として機能させ、
前記予測モデルは、化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、前記化合物の機能に係る機能データとの相関関係を表す。
【0017】
また、上記目的を達成するため、請求項11に記載のプログラムの発明は、
情報処理装置に設けられたコンピューターを、
化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化手段、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記暗号化構造データと前記機能データとの相関関係を表す学習モデルを生成する学習モデル生成手段、
第1の外部装置に対して、前記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供手段、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得するデータ取得手段、
として機能させ、
前記学習モデル生成手段は、前記データ取得手段が取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する。
【0018】
また、上記目的を達成するため、請求項12に記載の情報処理方法の発明は、
情報処理装置が実行する情報処理方法であって、
第1の外部装置に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供ステップと、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された機能予測対象の暗号化構造データを取得するデータ取得ステップと、
前記機能予測対象の暗号化構造データに対応する化合物の機能を所定の予測モデルに基づいて予測する予測ステップと、
を含み、
前記予測モデルは、化合物の構造に係る構造データを前記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、前記化合物の機能に係る機能データとの相関関係を表す。
【0019】
また、上記目的を達成するため、請求項13に記載の情報処理方法の発明は、
情報処理装置が実行する情報処理方法であって、
化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化ステップと、
前記暗号化構造データ、及び前記化合物の機能に係る機能データに基づいて、前記暗号化構造データと前記機能データとの相関関係を表す学習モデルを生成する学習モデル生成ステップと、
第1の外部装置に対して、前記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報を提供する情報提供ステップと、
前記第1の外部装置から、前記暗号化アルゴリズムに従って暗号化された学習対象の暗号化構造データ、及び当該暗号化構造データに対応する化合物の機能に係る学習対象の機能データを取得するデータ取得ステップと、
を含み、
前記学習モデル生成ステップでは、前記データ取得ステップにおいて取得した前記学習対象の暗号化構造データ及び前記学習対象の機能データを少なくとも用いて前記学習モデルを生成する。
【発明の効果】
【0020】
本発明に従うと、化合物の構造に係る機密情報の安全性を高めることができるという効果がある。
【図面の簡単な説明】
【0021】
【
図1】化合物情報処理システムの概略構成を示す図である。
【
図2】暗号化分子構造データを生成する暗号化アルゴリズムの例を説明する図である。
【
図3】MIサーバーの主要な機能構成を示すブロック図である。
【
図4】ラベル付き暗号化分子構造データの内容例を示す図である。
【
図5】クライアントサーバーの主要な機能構成を示すブロック図である。
【
図6】化合物の機能予測に係る第1の方法を説明する図である。
【
図7】化合物の機能予測に係る第2の方法を説明する図である。
【
図8】化合物の機能予測に係る第3の方法を説明する図である。
【
図9】化合物の機能予測に係る第4の方法を説明する図である。
【発明を実施するための形態】
【0022】
以下、本発明の情報処理装置、プログラム及び情報処理方法に係る実施の形態を図面に基づいて説明する。
【0023】
図1は、化合物情報処理システム100の概略構成を示す図である。
化合物情報処理システム100は、MIサーバー1(情報処理装置)、公的データベースサーバー2(以下、「公的DBサーバー2」と記す)(所定のデータベース)、試薬データベースサーバー3(以下、「試薬DBサーバー3」と記す)(第2の外部装置)、及びクライアントサーバー4(第1の外部装置)を備える。MIサーバー1、公的DBサーバー2、試薬DBサーバー3及びクライアントサーバー4は、通信ネットワークNを介して相互に通信可能に接続されている。通信ネットワークNは、例えばインターネットであるが、これに限られない。
【0024】
MIサーバー1は、マテリアルインフォマティクス(MI)に係る情報提供サービスの提供者が保有する機器であり、MIに係る各種情報処理を行う。すなわち、MIサーバー1は、化合物に係る情報に基づいて、化合物の機能を予測する学習モデル(「学習済みモデル」とも呼ばれる)を機械学習により生成し、当該学習モデルを用いて、MIによる材料開発に有用な情報を取得又は生成してクライアントサーバー4に送信する。より具体的には、MIサーバー1は、クライアントサーバー4から化合物の機能の目標値を取得し、当該目標値の機能を呈する化合物を探索して、特定された化合物の構造に係る情報をクライアントサーバー4に送信する。
【0025】
詳しくは、MIサーバー1は、化合物の構造に係る暗号化分子構造データ(暗号化構造データ)、及び当該化合物の機能に係る機能データの組み合わせを多数用いて、暗号化分子構造データと機能データとの相関を表す学習モデルを機械学習により帰納的アプローチで生成する。暗号化分子構造データが機械学習の説明変数に相当し、機能データが機械学習の目的変数に相当する。このうち暗号化分子構造データは、化合物の構造に係る分子構造データ(構造データ)を所定の暗号化アルゴリズムに従って暗号化したデータである。学習モデルの生成に用いられる暗号化分子構造データ及び機能データからなるデータセットの数は、例えば数万セット以上とされる。学習モデルによる予測精度を向上させる方法の1つは、このデータセットの数を増大させることである。
以下では、学習モデルの生成に用いられる暗号化分子構造データ及び機能データを、それぞれ「学習対象の暗号化分子構造データ」、及び「学習対象の機能データ」とも記す。MIサーバー1で生成される学習モデルは、化合物の機能予測のための予測モデルの1つである。
【0026】
暗号化分子構造データの元となる分子構造データは、分子の構成、すなわち分子を構成する元素とその結合態様を特定可能なものであれば、特には限られない。
【0027】
分子構造データから暗号化構造データを生成する暗号化アルゴリズムとしては、例えば、化合物の分子構造の特徴を所定の規則で抽出して数値化するものを用いることができる。
【0028】
図2は、暗号化分子構造データを生成する暗号化アルゴリズムの例を説明する図である。
図2の暗号化アルゴリズムでは、図中上方に示した構造式を、その特徴に応じて、図中下方に示す符号に変換している。符号の各桁は、0又は1とされる。
図2の暗号化アルゴリズムによる変換ルールは、例えば以下のものとすることができる。
すなわち、まずMorgan法によって、分子を構成する各原子に番号を付す。
次に、Daylight ruleによって原子情報を付与し、分子に含まれるフラグメント情報を追加する。
次に、重複しているフラグメントを削除する。
最後に、得られたフラグメントをハッシュ関数によって所定の桁に割り当てる。例えば、分子にある特定のフラグメントが含まれる場合には、符号の所定の桁が1とされる。
このような暗号化アルゴリズムで生成された暗号化分子構造データは、分子構造の特徴を表す記述子の一種であるということもできる。すなわち、暗号化分子構造データからは、値が1となっている桁の位置から、分子構造の特徴を多面的に特定することができる。他方で、ハッシュ関数は一方向関数であるため、暗号化分子構造データから分子構造データへの逆変換は不可能となっている。すなわち、本実施形態では、不可逆の暗号化アルゴリズムが用いられている。
【0029】
MIサーバー1で生成される学習モデルの種別は、暗号化分子構造データと機能データとの相関関係を表すものであれば、特には限られない。学習モデルとしては、例えば、線形回帰、主成分分析、決定木、ランダムフォレスト、サポートベクターマシン、又はランダムフォレスト等の各種公知のものを用いることができる。
【0030】
また、MIサーバー1は、機能を予測したい化合物に係る暗号化分子構造データ(以下では「機能予測対象の暗号化分子構造データ」とも記す)に対して、生成された学習モデルを適用することで、当該暗号化分子構造データに対応する化合物の機能を予測する。MIサーバー1は、多数の暗号化分子構造データについての機能予測を行い、クライアントサーバー4から受信した機能の目標値に一致する予測結果が得られた暗号化分子構造データを特定する。そして、MIサーバー1は、特定した暗号化分子構造データに係る情報をクライアントサーバー4に送信する。
【0031】
公的DBサーバー2は、多数の化合物の分子構造に係る分子構造データと、当該化合物が呈する機能に係る機能データとを記憶している。公的DBサーバー2は、他の装置(本実施形態では、MIサーバー1)からの要求に応じてこれらの分子構造データ及び機能データを提供する。公的DBサーバー2からMIサーバー1に提供された分子構造データは、MIサーバー1において暗号化されて暗号化分子構造データに変換される。この暗号化分子構造データは、機能データとともに学習モデルの生成のための機械学習に用いられるほか、機能予測対象の暗号化分子構造データとしても用いられ得る。
【0032】
試薬DBサーバー3は、販売対象とされている多数の化合物の分子構造に係る分子構造データを記憶している。試薬DBサーバー3は、購入可能な試薬(化合物)のカタログを提供するものであるということもできる。試薬DBサーバー3は、他の装置(本実施形態では、MIサーバー1)からの要求に応じて分子構造データを提供する。本実施形態では、試薬DBサーバー3からは化合物の機能に係る機能データは提供されないものとする。試薬DBサーバー3からMIサーバー1に提供された分子構造データは、MIサーバー1において暗号化されて暗号化分子構造データに変換される。この暗号化分子構造データは、機能予測対象の暗号化分子構造データとして用いられる。
【0033】
クライアントサーバー4は、MIサーバー1によるMIに係る情報提供サービスを受けるクライアントが保有する機器である。クライアントサーバー4は、MIサーバー1に対し、クライアントが所望する化合物の機能の目標値を指定するデータ等を送信し、MIサーバー1から、当該機能を呈する化合物の構造に係る情報を受信する。また、クライアントサーバー4は、MIに係る必要な情報提供サービスを受けるために、MIサーバー1に対し、機能予測対象の暗号化分子構造データを送信したり、学習対象の暗号化分子構造データ及び学習対象の機能データを送信したりする。
【0034】
本明細書では、クライアントサーバー4に記憶されている化合物の構造に係る分子構造データは、機密情報であるものとする。本実施形態では、クライアントサーバー4において当該分子構造データを暗号化して得られた暗号化分子構造データをMIサーバー1に送信することで、機密情報である分子構造データをMIサーバー1に開示することなく、必要な情報提供サービスを受けることができるようになっている。このようにクライアントサーバー4内の機密情報を保護するための仕組みについては、後に詳述する。
【0035】
次に、MIサーバー1及びクライアントサーバー4の詳細な構成について説明する。
図3は、MIサーバー1の主要な機能構成を示すブロック図である。
MIサーバー1は、制御部11と、操作部12と、表示部13と、通信部14などを備え、これらの各部はバス15により接続されている。
【0036】
制御部11は、MIサーバー1の動作を統括制御するプロセッサー(コンピューター)である。制御部11は、CPU111(Central Processing Unit)、RAM112(Random Access Memory)及び記憶部113を有する。
【0037】
CPU111は、記憶部113に記憶された各種制御用のプログラム113cや設定データを読み出してRAM112に記憶させ、当該プログラム113cを実行して各種演算処理を行う。
RAM112は、CPU111に作業用のメモリー空間を提供し、一時データを記憶する。RAM112は、不揮発性メモリーを含んでいてもよい。
【0038】
記憶部113には、上記のプログラム113cの他、MIに係る情報処理を行うための各種データが記憶されている。記憶部113としては、例えばHDD(Hard Disk Drive)が用いられ、また、DRAM(Dynamic Random Access Memory)などが併用されてもよい。
記憶部113に記憶されるデータには、一般データ113a、クライアント由来データ113b、暗号化アルゴリズム情報D1、及び学習モデルデータD2などがある。
【0039】
一般データ113aは、化合物の構造及び機能に係るデータのうち、クライアントサーバー4を介さずに取得されたもの、すなわち、公的DBサーバー2や試薬DBサーバー3から取得したデータ、又はMIサーバー1内で生成したデータ等である。
具体的には、一般データ113aは、学習対象の分子構造データA1、その暗号化分子構造データA2、及び機能データA3を含む。また、一般データ113aは、機能予測対象の分子構造データB1及びその暗号化分子構造データB2を含む。これらのうち分子構造データA1及び機能データA3は、公的DBサーバー2から取得される。また、分子構造データB1は、公的DBサーバー2又は試薬DBサーバー3から取得される。また、後述するように、分子構造データB1は、MIサーバー1内で生成される場合もある。
【0040】
クライアント由来データ113bは、化合物の構造及び機能に係るデータのうち、クライアントサーバー4から取得したデータである。クライアント由来データ113bは、機能予測対象のラベル付き暗号化分子構造データC2L、学習対象の暗号化分子構造データC2、及び学習対象の機能データC3を含む。
【0041】
図4は、ラベル付き暗号化分子構造データC2Lの内容例を示す図である。
ラベル付き暗号化分子構造データC2Lは、機能予測対象の複数の暗号化分子構造データの各々に対して、固有のラベル(ここでは自然数)が対応付けられたデータである。
【0042】
図3に示す暗号化アルゴリズム情報D1は、分子構造データから暗号化分子構造データを生成するための暗号化アルゴリズムに係る情報である。暗号化分子構造データを生成するための所定の暗号化プログラムの実行の際に、暗号化アルゴリズム情報D1が参照されることで、特定の暗号化アルゴリズムに従った暗号化を行うことができる。あるいは、暗号化アルゴリズム情報D1は、暗号化プログラムそのものであってもよい。
暗号化アルゴリズム情報D1は、MIサーバー1の制御部11が分子構造データA1、B1を暗号化して分子構造データA1、B2を生成する際に用いられる。また、暗号化アルゴリズム情報D1は、クライアントサーバー4における暗号化処理のためにクライアントサーバー4に送信される。
【0043】
学習モデルデータD2は、学習対象の暗号化分子構造データA2、機能データA3、及び/又は学習対象の暗号化分子構造データC2、及び機能データC3に基づいて機械学習により生成された学習モデルに係るデータである。機能予測対象の暗号化分子構造データに対し、学習モデルデータD2により表される学習モデルを適用することで、当該暗号化分子構造データに対応する化合物の機能を予測することができる。本明細書では、学習モデルデータD2を生成することを「学習モデルを生成する」とも記す。
【0044】
これらの構成を有する制御部11は、CPU111がプログラム113cを実行することで、暗号化部(暗号化手段)、学習モデル生成部(学習モデル生成手段)、情報提供部(情報提供手段)、第1のデータ取得部(第1のデータ取得手段)、第2のデータ取得部(第2のデータ取得手段)、第3のデータ取得部(第3のデータ取得手段)、予測部(予測手段)、及び構造データ生成部(構造データ生成手段)として機能する。
暗号化部は、化合物の構造に係る分子構造データA1、B1を、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して暗号化分子構造データA2、B2を生成する。
学習モデル生成部は、学習対象の暗号化分子構造データA2、機能データA3、及び/又は学習対象の暗号化分子構造データC2、及び機能データC3に基づいて機械学習を行って学習モデルデータD2を生成する。
情報提供部は、クライアントサーバー4に対して、上記暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報D1を提供する(通信部14により送信させる)。
第1のデータ取得部は、クライアントサーバー4から、通信部14を介して、機能予測対象のラベル付き暗号化分子構造データC2L、学習対象の暗号化分子構造データC2、及び学習対象の機能データC3を取得する。
第2のデータ取得部は、試薬DBサーバー3から、通信部14を介して分子構造データB1を取得する。
第3のデータ取得部は、公的DBサーバー2から、通信部14を介して分子構造データA1及び機能データA3を取得する。
予測部は、機能予測対象の暗号化分子構造データA2、B2、及びラベル付き暗号化分子構造データC2Lに対応する化合物の機能を、学習モデルデータD2により表される学習モデルに基づいて予測する。
構造データ生成部は、遺伝的アルゴリズムなどを用いて機械的に分子構造データB1を生成し、記憶部113に記憶させる。
【0045】
操作部12は、キーボード及びマウスといった入力デバイスや、表示部13と一体的に設けられたタッチパネル等により実現される。操作部12は、これらの入力デバイスやタッチパネルからの操作入力を受け付けて、操作入力に応じた操作信号を制御部11に出力する。
【0046】
表示部13は、液晶表示装置や有機EL表示装置などにより実現され、制御部11による制御下で各種情報を表示する。
【0047】
通信部14は、制御部11による制御下で、公的DBサーバー2、試薬DBサーバー3及びクライアントサーバー4との間で通信ネットワークNを介したデータの送受信を行う。
【0048】
図5は、クライアントサーバー4の主要な機能構成を示すブロック図である。
クライアントサーバー4は、制御部41と、操作部42と、表示部43と、通信部
などを備え、これらの各部はバス45により接続されている。
【0049】
制御部41は、クライアントサーバー4の動作を統括制御するプロセッサーである。制御部41は、CPU411、RAM412及び記憶部413を有する。
【0050】
CPU411は、記憶部413に記憶された各種制御用のプログラム413aや設定データを読み出してRAM412に記憶させ、当該プログラム413aを実行して各種演算処理を行う。
RAM412は、CPU411に作業用のメモリー空間を提供し、一時データを記憶する。RAM412は、不揮発性メモリーを含んでいてもよい。
【0051】
記憶部413には、上記のプログラム413aの他、分子構造データC1、ラベル付き暗号化分子構造データC2L、暗号化分子構造データC2、機能データC3及び暗号化アルゴリズム情報D1などが記憶されている。記憶部413としては、例えばHDDが用いられ、また、DRAMなどが併用されてもよい。
【0052】
記憶部413に記憶されている暗号化アルゴリズム情報D1は、MIサーバー1から送信されたものであり、MIサーバー1の記憶部113に記憶されている暗号化アルゴリズム情報D1と同一である。クライアントサーバー4の制御部41は、暗号化アルゴリズム情報D1を用いることで、MIサーバー1と同一の暗号化アルゴリズムに従って分子構造データC1を暗号化し、暗号化分子構造データC2を生成することができる。
【0053】
分子構造データC1は、クライアントが保有する化合物の分子構造に係るデータである。また、分子構造データC1は、クライアントにより機密情報として管理されている。
ラベル付き暗号化分子構造データC2Lは、上述のとおり、複数の暗号化分子構造データに固有のラベルが対応付けられたデータである(
図4参照)。ラベル付き暗号化分子構造データC2Lに含まれる暗号化分子構造データは、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って制御部41が分子構造データC1を暗号化することにより生成されたものである。
暗号化分子構造データC2は、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って制御部41が分子構造データC1を暗号化することにより生成されたデータである。暗号化分子構造データC2は、ラベル付き暗号化分子構造データC2Lに含まれる暗号化分子構造データと同一のものを含んでいてもよいし、互いに異なっていてもよい。
機能データC3は、分子構造データC1(及び暗号化分子構造データC2)に対応する化合物の機能に係るデータである。機能データC3は、機密情報とはされていないものとする。
【0054】
操作部42、表示部43及び通信部44の構成は、MIサーバー1の操作部12、表示部13及び通信部14の構成と同様であるので説明は省略する。
【0055】
次に、化合物情報処理システム100において化合物の機能予測を行う方法について説明する。化合物の機能予測を行う方法には、学習対象及び機能予測対象の暗号化分子構造データとしてそれぞれ何を用いるかに応じて、複数の方法がある。
【0056】
MIサーバー1における学習モデルデータD2の生成には、以下の2つの学習対象の暗号化構造データのうち少なくとも一方が用いられる。
(a1)一般データ113aに含まれる暗号化分子構造データA2。
(a2)クライアント由来データ113bに含まれる暗号化分子構造データC2。
【0057】
また、MIサーバー1において機能予測対象とされる暗号化分子構造データには、以下の3つがある。
(b1)クライアント由来データ113bに含まれるラベル付き暗号化分子構造データC2L。
(b2)一般データ113aに含まれる暗号化分子構造データB2のうち、外部(例えば試薬DBサーバー3)から取得した分子構造データB1を暗号化して得られた暗号化分子構造データB2。
(b3)一般データ113aに含まれる暗号化分子構造データB2のうち、MIサーバー1の内部で生成された分子構造データB1を暗号化して得られた暗号化分子構造データB2。
【0058】
以下では、学習対象の暗号化分子構造データ、及び機能予測対象の暗号化分子構造データの組み合わせが異なる以下の<第1の方法>~<第4の方法>を例に挙げて説明する。第1~第4の方法では、いずれも、クライアントサーバー4から外部に機密情報である分子構造データC1を開示(送信)することなく、MIによる化合物の機能の予測結果をクライアントサーバー4で受信することができる。
<第1の方法>
学習対象の暗号化分子構造データ:(a1)
機能予測対象の暗号化分子構造データ:(b1)
<第2の方法>
学習対象の暗号化分子構造データ:(a1)+(a2)
機能予測対象の暗号化分子構造データ:(b2)
<第3の方法>
学習対象の暗号化分子構造データ:(a1)+(a2)
機能予測対象の暗号化分子構造データ:(b3)
<第4の方法>
学習対象の暗号化分子構造データ:(a1)+(a2)
機能予測対象の暗号化分子構造データ:(b1)
【0059】
<第1の方法>
図6は、化合物の機能予測に係る第1の方法を説明する図である。
図6では、MIサーバー1、公的DBサーバー2及びクライアントサーバー4により実行される各種データ処理の流れ、及び各サーバー間におけるデータの送受信の流れを示している。以下では簡便のため、制御部11(41)が通信部14(44)を制御して通信部14(44)によりデータを送信させる動作を、単に「制御部11(41)がデータを送信する」と記す。
第1の方法では、学習対象の暗号化分子構造データとして、「(a1)一般データ113aに含まれる暗号化分子構造データA2」が用いられ、機能予測対象の暗号化分子構造データとして、「(b1)クライアント由来データ113bに含まれるラベル付き暗号化分子構造データC2L」が用いられる。
【0060】
第1の方法では、まずMIサーバー1の制御部11は、公的DBサーバー2から、学習対象の分子構造データA1及び対応する機能データA3を取得する(ステップS101:第3のデータ取得ステップ)。
【0061】
MIサーバー1の制御部11は、取得した分子構造データA1と、記憶部113に予め記憶されている分子構造データA1とを、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して暗号化分子構造データA2を生成する(ステップS102:暗号化ステップ)。
【0062】
MIサーバー1の制御部11は、生成した暗号化分子構造データA2と、ステップS101で取得した機能データA3及び記憶部113に予め記憶されている機能データA3と、に基づいて、機械学習により学習モデルデータD2を生成する(ステップS103:学習モデル生成ステップ)。既に学習モデルデータD2が記憶部113に記憶されている場合には、制御部11は、学習モデルデータD2を、新たに生成した内容に更新する。
なお、機械学習には、公的DBサーバー2から取得した分子構造データA1の暗号化分子構造データA2、及び記憶部113に予め記憶されていた分子構造データA1の暗号化分子構造データA2のうち一方のみを用いてもよい。
【0063】
一方、MIサーバー1の制御部11は、クライアントサーバー4に対して暗号化アルゴリズム情報D1を送信する(ステップS104:情報提供ステップ)。
【0064】
暗号化アルゴリズム情報D1を受信したクライアントサーバー4の制御部41は、機能予測対象の分子構造データC1を、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化するとともに、ラベルを付与して、機能予測対象のラベル付き暗号化分子構造データC2Lを生成する(ステップS105)。また、制御部41は、MIサーバー1に対してラベル付き暗号化分子構造データC2Lを送信する。これに応じて、MIサーバー1の制御部11は、ラベル付き暗号化分子構造データC2Lを受信する(ステップS106:第1のデータ取得ステップ)。
【0065】
MIサーバー1の制御部11は、取得したラベル付き暗号化分子構造データC2Lに含まれる各暗号化分子構造データに対して、学習モデルデータD2により表される学習モデルを適用することで、各暗号化分子構造データに対応する化合物の機能を予測する(ステップS107:予測ステップ)。
【0066】
制御部11は、機能の予測結果と、クライアントサーバー4から受信した機能の目標値とを比較し、機能の予測結果が目標値と一致した暗号化分子構造データを特定する(ステップS108)。ここで、機能の予測結果が目標値に一致するとは、機能を呈することを表す指標の値が目標値に一致する場合のほか、当該指標が所定範囲内であること、又は当該指標が所定値以上であること、等としてもよい。
【0067】
制御部11は、ステップS108で特定された暗号化分子構造データに対応付けられているラベルを、クライアントサーバー4に送信する(ステップS109)。これに応じて、クライアントサーバー4の制御部41は、ラベル付き暗号化分子構造データC2Lにおいて、受信したラベルに対応する暗号化分子構造データを特定し、当該暗号化分子構造データに対応する化合物を、所望の機能を呈する化合物として特定する。
【0068】
以上のように、本実施形態に係るMIサーバー1は、制御部11を備え、当該制御部11は、上述の第1の方法においては、クライアントサーバー4に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための学習モデルデータD2を提供し(情報提供部)、クライアントサーバー4から、上記暗号化アルゴリズムに従って暗号化された機能予測対象のラベル付き暗号化分子構造データC2Lを取得し(第1のデータ取得部)、機能予測対象のラベル付き暗号化分子構造データC2Lに対応する化合物の機能を予測モデルとしての学習モデルに基づいて予測し(予測部)、予測モデルは、化合物の構造に係る構造データを上記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、上記化合物の機能に係る機能データとの相関関係を表す。
このように、暗号化後のラベル付き暗号化分子構造データC2Lを受信して機能予測を行うことで、クライアントサーバー4から、機密情報である分子構造データC1を受信せずに必要な処理を行うことができる。よって、MIサーバー1の内部には、クライアントの機密情報が記憶されないため、当該機密情報の安全性を高めることができる。
また、暗号化分子構造データと機能データとの相関関係を表す予測モデル(ここでは、学習モデル)を用いているため、機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がない。よって、簡易な処理で化合物の機能予測を行うことができる。
【0069】
また、制御部11は、化合物の構造に係る分子構造データA1を所定の暗号化アルゴリズムに従って暗号化して暗号化分子構造データA2を生成し(暗号化部)、暗号化分子構造データA2、及び化合物の機能に係る機能データA3に基づいて、予測モデルとしての学習モデルを生成する(学習モデル生成部)。これによれば、MIサーバー1において学習モデルを生成することができる。また、暗号化分子構造データを用いて学習モデルを生成しているため、学習モデルを用いた機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がない。よって、簡易な処理で化合物の機能予測を行うことができる。
【0070】
また、制御部11は、公的DBサーバー2から分子構造データA1及び機能データA3を取得し(第3のデータ取得部)、取得した分子構造データA1に基づいて暗号化分子構造データA2を生成し(暗号化部)、当該暗号化分子構造データA2、及び公的DBサーバー2から取得した機能データA3を少なくとも用いて学習モデルデータD2を生成する(学習モデル生成部)。これにより、公的DBサーバー2が開示している多数の化合物の情報を用いて学習モデルを生成することができる。よって、学習モデルによる化合物の機能の予測精度を高めることができる。
【0071】
また、暗号化アルゴリズムは、暗号化前の構造データへの逆変換が不可能である。これによれば、MIサーバー1において、クライアントサーバー4から受信したラベル付き暗号化分子構造データC2Lを復号して分子構造データC1を特定することができない。よって、クライアントは、MIサーバー1の管理者を含む任意の部外者に対して機密情報である分子構造データC1を開示することなく、MIによる情報提供サービスを受けることができる。
【0072】
また、第1の方法では、プログラム113cは、MIサーバー1に設けられたコンピューターとしての制御部11を、クライアントサーバー4に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報D1を提供する情報提供手段、クライアントサーバー4から、上記暗号化アルゴリズムに従って暗号化された機能予測対象のラベル付き暗号化分子構造データC2Lを取得する第1のデータ取得手段(データ取得手段)、機能予測対象のラベル付き暗号化分子構造データC2Lに対応する化合物の機能を予測モデルとしての学習モデルに基づいて予測する予測手段、として機能させ、予測モデルは、化合物の構造に係る構造データを上記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、上記化合物の機能に係る機能データとの相関関係を表す。
このようなプログラムによりMIサーバー1を動作させることで、クライアントサーバー4から、機密情報である分子構造データC1を受信せずに必要な処理を行うことができる。よって、MIサーバー1の内部には、クライアントの機密情報が記憶されないため、当該機密情報の安全性を高めることができる。また、学習モデルを用いた機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がないため、簡易な処理で化合物の機能予測を行うことができる。
【0073】
また、情報処理方法としての第1の方法は、クライアントサーバー4に対して、所定の暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報D1を提供する情報提供ステップと、クライアントサーバー4から、上記暗号化アルゴリズムに従って暗号化された機能予測対象のラベル付き暗号化分子構造データC2Lを取得する第1のデータ取得ステップ(データ取得ステップ)と、機能予測対象のラベル付き暗号化分子構造データC2Lに対応する化合物の機能を予測モデルとしての学習モデルに基づいて予測する予測ステップと、を含み、予測モデルは、化合物の構造に係る構造データを上記暗号化アルゴリズムに従って暗号化して得られた暗号化構造データと、上記化合物の機能に係る機能データとの相関関係を表す。
このような方法によれば、クライアントサーバー4から、機密情報である分子構造データC1を受信せずに必要な処理を行うことができる。よって、MIサーバー1の内部には、クライアントの機密情報が記憶されないため、当該機密情報の安全性を高めることができる。また、学習モデルを用いた機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がないため、簡易な処理で化合物の機能予測を行うことができる。
また、このような方法の一部は人の手により行うこともでき、これによれば、装置を作りこまなくても多様な化合物の機能予測に効率よく対応することができる。
【0074】
<第2の方法>
図7は、化合物の機能予測に係る第2の方法を説明する図である。
図7では、MIサーバー1、公的DBサーバー2、試薬DBサーバー3及びクライアントサーバー4により行われる各種データ処理の流れ、及び各サーバー間におけるデータの送受信の流れを示している。
第2の方法では、学習対象の暗号化分子構造データとして、「(a1)一般データ113aに含まれる暗号化分子構造データA2」及び「(a2)クライアント由来データ113bに含まれる暗号化分子構造データC2」が用いられ、機能予測対象の暗号化分子構造データとして、「(b2)一般データ113aに含まれる暗号化分子構造データB2のうち、外部(例えば試薬DBサーバー3)から取得した分子構造データB1を暗号化して得られた暗号化分子構造データB2」が用いられる。
【0075】
第2の方法では、まずMIサーバー1の制御部11は、公的DBサーバー2から、学習対象の分子構造データA1及び対応する機能データA3を取得する(ステップS201:第3のデータ取得ステップ)。
【0076】
MIサーバー1の制御部11は、取得した分子構造データA1と、記憶部113に予め記憶されている分子構造データA1とを、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して暗号化分子構造データA2を生成する(ステップS202:暗号化ステップ)。
【0077】
MIサーバー1の制御部11は、クライアントサーバー4に対して暗号化アルゴリズム情報D1を送信する(ステップS203:情報提供ステップ)。
【0078】
暗号化アルゴリズム情報D1を受信したクライアントサーバー4の制御部41は、学習対象の分子構造データC1を、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して暗号化分子構造データC2を生成する(ステップS204)。また、制御部41は、MIサーバー1に対して、学習対象の暗号化分子構造データC2及び対応する学習対象の機能データC3を送信する。これに応じて、MIサーバー1の制御部11は、学習対象の暗号化分子構造データC2及び機能データC3を受信する(ステップS205:第1のデータ取得ステップ)。
【0079】
MIサーバー1の制御部11は、ステップS202で生成した暗号化分子構造データA2、ステップS201で公的DBサーバー2から取得した機能データA3、記憶部113に予め記憶されている機能データA3、ステップS205でクライアントサーバー4から取得した暗号化分子構造データC2及び機能データC3に基づいて、機械学習により学習モデルデータD2を生成する(ステップS206:学習モデル生成ステップ)。既に学習モデルデータD2が記憶部113に記憶されている場合には、制御部11は、学習モデルデータD2を、新たに生成した内容に更新する。
なお、機械学習には、公的DBサーバー2から取得した分子構造データA1の暗号化分子構造データA2、記憶部113に予め記憶されていた分子構造データA1の暗号化分子構造データA2、及びクライアントサーバー4から取得した暗号化分子構造データC2のうち一部のみを用いてもよい。
【0080】
一方、MIサーバー1の制御部11は、試薬DBサーバー3から機能予測対象の分子構造データB1を取得し(ステップS207:第2のデータ取得ステップ)、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して暗号化分子構造データB2を生成する(ステップS208)。
【0081】
MIサーバー1の制御部11は、ステップS208で生成した暗号化分子構造データB2に対して、学習モデルデータD2により表される学習モデルを適用することで、各暗号化分子構造データに対応する化合物の機能を予測する(ステップS209:予測ステップ)。
【0082】
制御部11は、機能の予測結果と、クライアントサーバー4から受信した機能の目標値とを比較し、機能の予測結果画像目標値と一致する暗号化分子構造データB2を特定する(ステップS210)。
【0083】
制御部11は、ステップS210で特定された暗号化分子構造データB2に対応する分子構造データB1を、クライアントサーバー4に送信する(ステップS211)。これに応じて、クライアントサーバー4の制御部41は、受信した分子構造データB1に係る化合物を、所望の機能を呈する化合物として特定する。
【0084】
以上のように、第2の方法においては、MIサーバー1の制御部11は、化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成し(暗号化部)、暗号化構造データ、及び化合物の機能に係る機能データに基づいて、暗号化構造データと機能データとの相関関係を表す学習モデルデータD2を生成し(学習モデル生成部)、クライアントサーバー4に対して、暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報D1を提供し(情報提供部)、クライアントサーバー4から、上記暗号化アルゴリズムに従って暗号化された学習対象の暗号化分子構造データC2、及び当該暗号化分子構造データC2に対応する化合物の機能に係る学習対象の機能データC3を取得し(第1のデータ取得部)、取得した学習対象の暗号化分子構造データC2及び学習対象の機能データC3を少なくとも用いて学習モデルデータD2を生成する(学習モデル生成部)。
このように、暗号化後の暗号化分子構造データC2を受信して機能予測を行うことで、クライアントサーバー4から、機密情報である分子構造データC1を受信せずに必要な処理を行うことができる。よって、MIサーバー1の内部には、クライアントの機密情報が記憶されないため、当該機密情報の安全性を高めることができる。
また、このように化合物の構造に係る機密情報の安全性を高められることによって、非公開の化合物の構造に係る情報(学習対象の暗号化分子構造データ及び機能データ)を収集しやすくなるため、より多数の化合物の情報を用いて学習モデルの予測精度を高めることができる。
また、クライアントが所望する機能を呈する化合物は、クライアントが管理、所有している既存の化合物と構造が類似している化合物から特定される場合が多い。よって、第2の方法のように、クライアントサーバー4から受信した暗号化分子構造データC2及び機能データC3を用いて学習モデルを生成することにより、クライアントが所望する機能を呈するか否かをより高精度に予測可能な学習モデルが得られる。
また、暗号化分子構造データを用いて学習モデルを生成しているため、学習モデルを用いた機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がない。よって、簡易な処理で化合物の機能予測を行うことができる。
これにより、
【0085】
また、制御部11は、化合物の構造を公開する試薬DBサーバー3から当該化合物の構造に係る分子構造データB1を取得し(第2のデータ取得部)、取得した分子構造データB1を暗号化して機能予測対象の暗号化分子構造データB2を生成し(暗号化部)、生成した機能予測対象の暗号化分子構造データB2に対応する化合物の機能を学習モデルデータD2に基づいて予測する(予測部)。これにより、試薬DBサーバー3が公開している多数の化合物の中から、クライアントが所望する機能を呈する化合物を特定することができる。
【0086】
また、第2の方法では、プログラム113cは、MIサーバー1に設けられたコンピューターとしての制御部11を、化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化手段、暗号化構造データ、及び化合物の機能に係る機能データに基づいて、暗号化構造データと機能データとの相関関係を表す学習モデルデータD2を生成する学習モデル生成手段、クライアントサーバー4に対して、暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報D1を提供する情報提供手段、クライアントサーバー4から、上記暗号化アルゴリズムに従って暗号化された学習対象の暗号化分子構造データC2、及び当該暗号化分子構造データC2に対応する化合物の機能に係る学習対象の機能データC3を取得する第1のデータ取得手段(データ取得手段)、として機能させ、学習モデル生成手段は、第1のデータ取得手段が取得した学習対象の暗号化分子構造データC2及び学習対象の機能データC3を少なくとも用いて学習モデルデータD2を生成する。
このようなプログラムによりMIサーバー1を動作させることで、クライアントサーバー4から、機密情報である分子構造データC1を受信せずに必要な処理を行うことができる。よって、MIサーバー1の内部には、クライアントの機密情報が記憶されないため、当該機密情報の安全性を高めることができる。また、機密情報の安全性を高められることによって、非公開の化合物の構造に係る情報を収集しやすくなるため、より多数の化合物の情報を用いて学習モデルの予測精度を高めることができる。また、クライアントサーバー4から受信した暗号化分子構造データC2及び機能データC3を用いて学習モデルを生成することにより、クライアントが所望する機能を呈するか否かをより高精度に予測可能な学習モデルが得られる。また、学習モデルを用いた機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がないため、簡易な処理で化合物の機能予測を行うことができる。
【0087】
また、情報処理方法としての第2の方法は、化合物の構造に係る構造データを所定の暗号化アルゴリズムに従って暗号化して暗号化構造データを生成する暗号化ステップと、暗号化構造データ、及び化合物の機能に係る機能データに基づいて、暗号化構造データと機能データとの相関関係を表す学習モデルデータD2を生成する学習モデル生成ステップと、クライアントサーバー4に対して、暗号化アルゴリズムに従った暗号化を実行するための暗号化アルゴリズム情報D1を提供する情報提供ステップと、クライアントサーバー4から、上記暗号化アルゴリズムに従って暗号化された学習対象の暗号化分子構造データC2、及び当該暗号化分子構造データC2に対応する化合物の機能に係る学習対象の機能データC3を取得する第1のデータ取得ステップ(データ取得ステップ)と、を含み、学習モデル生成ステップでは、第1のデータ取得ステップにおいて取得した学習対象の暗号化分子構造データC2及び学習対象の機能データC3を少なくとも用いて学習モデルデータD2を生成する。
このような方法によれば、クライアントサーバー4から、機密情報である分子構造データC1を受信せずに必要な処理を行うことができる。よって、MIサーバー1の内部には、クライアントの機密情報が記憶されないため、当該機密情報の安全性を高めることができる。また、機密情報の安全性を高められることによって、非公開の化合物の構造に係る情報を収集しやすくなるため、より多数の化合物の情報を用いて学習モデルの予測精度を高めることができる。また、クライアントサーバー4から受信した暗号化分子構造データC2及び機能データC3を用いて学習モデルを生成することにより、クライアントが所望する機能を呈するか否かをより高精度に予測可能な学習モデルが得られる。また、学習モデルを用いた機能予測のためには、機能予測対象の暗号化分子構造データがあれば足り、暗号化分子構造データを復号して分子構造データを生成する必要がないため、簡易な処理で化合物の機能予測を行うことができる。
また、このような方法の一部は人の手により行うこともでき、これによれば、装置を作りこまなくても多様な化合物の機能予測に効率よく対応することができる。
【0088】
<第3の方法>
図8は、化合物の機能予測に係る第3の方法を説明する図である。
第3の方法では、学習対象の暗号化分子構造データとして、「(a1)一般データ113aに含まれる暗号化分子構造データA2」及び「(a2)クライアント由来データ113bに含まれる暗号化分子構造データC2」が用いられ、機能予測対象の暗号化分子構造データとして、「(b3)一般データ113aに含まれる暗号化分子構造データB2のうち、MIサーバー1の内部で生成された分子構造データB1を暗号化して得られた暗号化分子構造データB2」が用いられる。
【0089】
第3の方法におけるステップS301~S306は、第2の方法のステップS201~S206と同様であるので説明は省略する。
【0090】
MIサーバー1の制御部11は、遺伝的アルゴリズムなどを用いて機械的かつランダムに複数の分子構造データB1を生成し(ステップS307)、暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して複数の暗号化分子構造データB2を生成する(ステップS308)。ステップS309(予測ステップ)では、ステップS308で生成した暗号化分子構造データB2を機能予測対象の暗号化分子構造データとして用いて、機能予測を行う。
ステップS310、S311は、第2の方法のステップS210、S211と同様であるので説明は省略する。
【0091】
以上のように、第3の方法においては、MIサーバー1の制御部11は、分子構造データB1を生成し(構造データ生成部)、生成した分子構造データB1を暗号化して機能予測対象の暗号化分子構造データB2を生成し(暗号化部)、生成した機能予測対象の暗号化分子構造データB2に対応する化合物の機能を学習モデルデータD2に基づいて予測する(予測部)。これにより、MIサーバー1の外部から十分な機能予測対象の化合物のデータを取得できない場合などにおいても、クライアントが所望する機能を呈する化合物を特定できる可能性を高めることができる。
【0092】
<第4の方法>
図9は、化合物の機能予測に係る第4の方法を説明する図である。
第4の方法では、学習対象の暗号化分子構造データとして、「(a1)一般データ113aに含まれる暗号化分子構造データA2」及び「(a2)クライアント由来データ113bに含まれる暗号化分子構造データC2」が用いられ、機能予測対象の暗号化分子構造データとして、「(b1)クライアント由来データ113bに含まれるラベル付き暗号化分子構造データC2L。」が用いられる。
【0093】
第4の方法のステップS401~S403、S406は、第3の方法のステップS301~S303、S306と同様であるので説明は省略する。
【0094】
ステップS403で暗号化アルゴリズム情報D1を受信したクライアントサーバー4の制御部41は、分子構造データC1を暗号化アルゴリズム情報D1により示される暗号化アルゴリズムに従って暗号化して、学習対象の暗号化分子構造データC2と、機能予測対象のラベル付き暗号化分子構造データC2Lとを生成する(ステップS404)。また、制御部41は、MIサーバー1に対して、学習対象の暗号化分子構造データC2及び対応する学習対象の機能データC3を送信し、MIサーバー1の制御部11は、当該学習対象の暗号化分子構造データC2及び機能データC3を受信する(ステップS405:第1のデータ取得ステップ)。また、制御部41は、MIサーバー1に対して、機能予測対象のラベル付き暗号化分子構造データC2Lを送信し、MIサーバー1の制御部11は、当該ラベル付き暗号化分子構造データC2Lを受信する(ステップS407:第1のデータ取得ステップ)。
【0095】
MIサーバー1の制御部11は、ステップS407で取得したラベル付き暗号化分子構造データC2Lに含まれる各暗号化分子構造データに対して、学習モデルデータD2により表される学習モデルを適用することで、各暗号化分子構造データに対応する化合物の機能を予測する(ステップS408:予測ステップ)。
以降のステップS409、S410は、第1の方法のステップS108、S109と同様であるので説明は省略する。
【0096】
以上のように、第4の方法においては、MIサーバー1の制御部11は、クライアントサーバー4から、暗号化された学習対象の暗号化分子構造データC2、及び機能データC3を取得し(第1のデータ取得部)、取得した暗号化分子構造データC2及び機能データC3を少なくとも用いて学習モデルデータD2を生成し(学習モデル生成部)、クライアントサーバー4から、暗号化アルゴリズムに従って暗号化された機能予測対象のラベル付き暗号化分子構造データC2Lを取得し(第1のデータ取得部)、取得した機能予測対象のラベル付き暗号化分子構造データC2Lに対応する化合物の機能を学習モデルデータD2に基づいて予測する(予測部)。これにより、クライアントが所望する機能を呈するか否かをより高精度に予測可能な学習モデルを生成できるとともに、クライアントから提供された暗号化分子構造データC2の中から、クライアントが所望する機能を呈する化合物を特定することできる。
【0097】
なお、本発明は、上記実施形態及び各変形例に限られるものではなく、様々な変更が可能である。
例えば、上記実施形態では、機能予測対象の暗号化分子構造データとして、クライアントサーバー4から取得した暗号化分子構造データC2(第1の方法)、試薬DBサーバー3から取得した分子構造データB1の暗号化分子構造データB2(第2の方法)、MIサーバー1の内部で生成した分子構造データB1の暗号化分子構造データB2(第3の方法)を例示したが、これに限定する趣旨ではない。機能予測対象の暗号化分子構造データとしては、化合物の分子構造データを暗号化した任意の暗号化分子構造データを用いることができ、その取得経路は本実施形態に例示したものに限られない。
一例を挙げると、第2の方法又は第3の方法において、クライアントサーバー4から機能予測対象の暗号化分子構造データC2を取得してもよい。
【0098】
また、上記実施形態では、不可逆の暗号化アルゴリズムを用いる例を挙げて説明したが、これに限られず、可逆の暗号化アルゴリズムを用いてもよい。この場合においても、例えばMIサーバー1内の暗号化分子構造データC2に外部から不正にアクセスされたとしても、不正にアクセスした第三者は、暗号化アルゴリズムを特定できないため暗号化分子構造データC2を復号して分子構造データC1を得ることはできない。よって、可逆の暗号化アルゴリズムを用いた場合であっても、クライアントの機密情報(分子構造データC1)の安全性を高める効果が得られる。
また、暗号化アルゴリズムは、ハッシュ関数を用いるものに限られない。
【0099】
また、上記実施形態では、MIサーバー1において学習モデルを生成したが、これに限られず、既存の学習モデル(例えば外部装置において生成された学習モデル)をそのまま用いてもよい。この場合には、MIサーバー1は学習モデルの生成機能(学習モデル生成部)を有していなくてもよい。また、この態様において、機能予測対象の暗号化分子構造データをMIサーバー1の外部から取得する場合には、MIサーバー1は、分子構造データを暗号化する機能(暗号化部)を有していなくてもよい。
【0100】
また、上記実施形態では、帰納的アプローチで機械学習により生成された学習モデルを用いる例を挙げて説明したが、化合物の機能予測に用いる予測モデルは、この学習モデルに限られない。予測モデルとしては、例えば、化合物についての既知の原理や規則性から化合物の機能を予測する演繹的予測モデルを用いてもよい。演繹的予測モデルを用いる場合にも、MIサーバー1は、学習モデルの生成機能(学習モデル生成部)を有していなくてもよい。また、機能予測対象の暗号化分子構造データをMIサーバー1の外部から取得する場合には、MIサーバー1は、分子構造データを暗号化する機能(暗号化部)を有していなくてもよい。
【0101】
また、上記実施形態では、MIサーバー1、公的DBサーバー2、試薬DBサーバー3及びクライアントサーバー4の各々が、それぞれ単一のサーバー装置からなる例を用いて説明したが、これに限られず、これらのうち任意のサーバー装置を複数の装置からなるシステムに置き換えてもよい。例えば、MIサーバー1の記憶部113に記憶されているプログラム及びデータの少なくとも一部を、MIサーバー1の外部の記憶装置に記憶させてもよい。
【0102】
本発明のいくつかの実施形態を説明したが、本発明の範囲は、上述の実施の形態に限定されるものではなく、特許請求の範囲に記載された発明の範囲とその均等の範囲を含む。
【産業上の利用可能性】
【0103】
本発明は、情報処理装置、プログラム及び情報処理方法に利用することができる。
【符号の説明】
【0104】
1 MIサーバー(情報処理装置)
11 制御部(暗号化部、学習モデル生成部、情報提供部、第1~第3のデータ取得部、予測部、構造データ生成部)
111 CPU
112 RAM
113 記憶部
113a 一般データ
113b クライアント由来データ
113c プログラム
12 操作部
13 表示部
14 通信部
15 バス
2 公的DBサーバー(データベース)
3 試薬DBサーバー(第2の外部装置)
4 クライアントサーバー(第1の外部装置)
41 制御部
411 CPU
412 RAM
413 記憶部
413a プログラム
42 操作部
43 表示部
44 通信部
45 バス
100 化合物情報処理システム
A1、B1、C1 分子構造データ(構造データ)
A2、B2、C2 暗号化分子構造データ(暗号化構造データ)
C2L ラベル付き暗号化分子構造データ(暗号化構造データ)
C3 機能データ
D1 暗号化アルゴリズム情報
D2 学習モデルデータ
N 通信ネットワーク