IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2024-541461構造データの生成方法、装置、デバイス、およびプログラム
<>
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図1
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図2
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図3
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図4
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図5
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図6
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図7
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図8
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図9
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図10
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図11
  • 特表-構造データの生成方法、装置、デバイス、およびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-08
(54)【発明の名称】構造データの生成方法、装置、デバイス、およびプログラム
(51)【国際特許分類】
   G06N 3/04 20230101AFI20241031BHJP
【FI】
G06N3/04 100
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024530434
(86)(22)【出願日】2022-12-05
(85)【翻訳文提出日】2024-05-22
(86)【国際出願番号】 CN2022136450
(87)【国際公開番号】W WO2023155546
(87)【国際公開日】2023-08-24
(31)【優先権主張番号】202210146218.2
(32)【優先日】2022-02-17
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】李藍青
(72)【発明者】
【氏名】高子▲ち▼
(57)【要約】
本発明は、人工知能分野に関し、構造データの生成方法、装置、デバイス、媒体およびプログラム製品を提供する。当該方法は、サンプル構造データの構造特徴表現およびノード特徴表現を取得するステップ(201)と、構造特徴表現およびノード特徴表現に基づいて隠れ層特徴表現を生成するステップ(202)と、隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって予測構造データを得るステップ(203)と、予測構造データに基づいて訓練待ちデコーダを訓練することによって指定デコーダを得るステップであって、指定デコーダは、入力したサンプリングデータに対して構造の再構築を行うことによって再構築構造データを得るためのものであるステップ(204)とを含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する構造データの生成方法であって、
サンプル構造データの構造特徴表現およびノード特徴表現を取得するステップであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成するノードに対応するノードタイプを指示するためのものであるステップと、
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成するステップであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域で前記サンプル構造データにおけるノード間の結合状況を指示するためのものであるステップと、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るステップと、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、訓練済みデコーダを得るステップであって、前記訓練済みデコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータであるステップと、を含む、
構造データの生成方法。
【請求項2】
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成する前記ステップは、
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得るステップであって、前記中間特徴データは、対応する周波数帯域での前記サンプル構造データのノード間の結合状況を指示するためのものであるステップと、
指定データ分布に基づいて前記少なくとも2つの周波数帯域にそれぞれ対応する前記中間特徴データをクラスタリングすることによって、前記隠れ層特徴表現を得るステップであって、前記候補データは、前記指定データ分布を満足するデータであるステップと、を含む、
請求項1に記載の方法。
【請求項3】
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得る前記ステップは、
前記構造特徴表現および前記ノード特徴表現を訓練待ちエンコーダに入力し、前記訓練待ちエンコーダは、前記構造特徴表現および前記ノード特徴表現を既知の条件とする場合、予測ノードセットにおける第i予測ノードが前記予測ノードセットにおける各予測ノードと接続関係を確立する接続確率を確定するとともに、前記第i予測ノードと前記各予測ノードとの間の前記接続確率に基づいて前記第i予測ノードに対応する接続確率分布を確定し、前記予測ノードセットにおける全ての予測ノードの接続確率分布の融合結果に基づいて前記少なくとも2つの周波数帯域にそれぞれ対応する前記中間特徴データを確定するステップであって、前記予測ノードは、前記予測構造データを構築するためのものであり、iは、正の整数であるステップを含む、
請求項2に記載の方法。
【請求項4】
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得る前記ステップは、
前記構造特徴表現および前記ノード特徴表現に基づいて、前記サンプル構造データのノードの前記少なくとも2つの周波数帯域においてそれぞれ対応する特徴空間でのノード特徴ベクトルを取得するステップと、
前記少なくとも2つの周波数帯域に対応する前記ノード特徴ベクトルの間の平均値データおよび分散データを取得するステップと、
前記平均値データおよび前記分散データを前記中間特徴データとして確定するステップと、を含む、
請求項2に記載の方法。
【請求項5】
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得る前記ステップは、
前記訓練待ちデコーダによって前記隠れ層特徴表現に対して構造の再構築を行うことによって、復号化構造特徴表現および復号化ノード特徴表現を取得するステップと、
前記復号化構造特徴表現および前記復号化ノード特徴表現に基づいて前記予測構造データを生成するステップと、を含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項6】
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得る前記ステップは、
前記サンプル構造データと前記予測構造データとの間の構造差異状況に基づいて、訓練損失値を得るステップと、
前記訓練損失値が指定損失閾値に達したことに応答して、前記訓練待ちデコーダの訓練が完成したと確定して、前記指定デコーダが得られ、または
前記訓練損失値と前記指定損失閾値とのマッチングが失敗したことに応答して、前記訓練待ちデコーダのモデルパラメータを反復訓練するステップと、を含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項7】
前記サンプル構造データと前記予測構造データとの間の構造差異状況に基づいて訓練損失値を得る前記ステップは、
特徴空間での前記サンプル構造データと前記予測構造データの距離メトリックデータを取得するステップと、
前記予測構造データに対応するノード分布と前記指定データ分布との間のダイバージェンスデータを取得するステップであって、前記ノード分布は、前記特徴空間での前記予測構造データのノード特徴ベクトルの分布状況を指示するためのものであり、前記ダイバージェンスデータは、前記ノード分布と前記指定データ分布との間の相違度を指示するためのものであるステップと、
前記距離メトリックデータおよび前記ダイバージェンスデータに基づいて前記訓練損失値を得るステップと、を含む、
請求項6に記載の方法。
【請求項8】
候補構造データの候補構造特徴表現および候補ノード特徴表現を取得するステップと、
前記候補構造特徴表現および前記候補ノード特徴表現に基づいて候補隠れ層特徴表現を生成するステップと、
前記候補隠れ層特徴表現を前記指定デコーダに入力して予測することによって、前記再構築構造データを得るステップであって、前記再構築構造データと前記候補構造データとの間に構造性質類似関係があるステップと、をさらに含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項9】
指定データ分布の候補データを取得するステップと、
前記候補データからサンプリングして予め設定された数のサンプリングデータを得るステップと、
前記予め設定された数のサンプリングデータを前記指定デコーダに入力して、前記予め設定された数の前記再構築構造データを得るステップと、をさらに含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項10】
前記指定デコーダは、少なくとも2つの原子ノードで構成される候補分子構造を生成するために用いられ、
前記予め設定された数のサンプリングデータを前記指定デコーダに入力して、前記予め設定された数の前記再構築構造データを得る前記ステップは、
前記予め設定された数のサンプリングデータを前記指定デコーダに入力し、前記指定デコーダが訓練中に学習された分子構造における原子ノード間の接続関係に基づいて前記予め設定された数の候補分子構造を得るステップを含む、
請求項9項に記載の方法。
【請求項11】
訓練して得た前記指定デコーダが分子構造の生成に用いられる場合、前記サンプル構造データの構造特徴表現およびノード特徴表現を取得する前記ステップの前に、
サンプル化学分子を取得するステップであって、前記サンプル化学分子は、原子結合基準を満足する既知の分子であって、少なくとも2つの原子で構成されるステップと、
前記サンプル化学分子をデータ構造がグラフ構造であるサンプル分子グラフに変換するステップであって、前記サンプル分子グラフのノードは、前記サンプル化学分子における前記少なくとも2つの原子を表すためのものであり、前記サンプル分子グラフにおけるエッジは、前記サンプル化学分子における原子間の化学結合を表すものであるステップと、
前記サンプル分子グラフに対応する隣接行列を前記構造特徴表現として確定するステップと、
前記サンプル分子グラフに対応するノード行列を前記ノード特徴表現として確定するステップと、を含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項12】
サンプル構造データの構造特徴表現およびノード特徴表現を取得するための取得モジュールであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成する前記ノードに対応するノードタイプを指示するためのものである取得モジュールと、
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成するための符号化モジュールであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域での前記サンプル構造データにおけるノード間の結合状況を指示するためのものである符号化モジュールと、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るための復号化モジュールと、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得るための訓練モジュールであって、前記指定デコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータである訓練モジュールと、を含む、
構造データの生成装置。
【請求項13】
プロセッサと、メモリーとを含み、
前記メモリーには、前記プロセッサがロードして実行することによって請求項1乃至11のいずれか1項に記載の構造データの生成方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶されている、
コンピュータデバイス。
【請求項14】
プロセッサがロードして実行することによって請求項1乃至11のいずれか1項に記載の構造データの生成方法を実現する少なくとも1つのプログラムコードが記憶されている、
コンピュータ読取可能な記憶媒体。
【請求項15】
プロセッサによって実行される場合に請求項1乃至11のいずれか1項に記載の構造データの生成方法を実現するコンピュータプログラムまたは命令を含む、
コンピュータプログラム製品。
【発明の詳細な説明】
【関連出願】
【0001】
本願は、2022年02月17日に提出された出願番号が202210146218.2であり、発明名称が「構造データの生成方法、装置、デバイス、媒体およびプログラム製品」である中国特許出願の優先権を要求し、その全ての内容は参照により本願に組み込まれる。
【技術分野】
【0002】
本願は、人工知能分野に関し、特に構造データの生成方法、装置、デバイス、媒体およびプログラム製品に関する。
【背景技術】
【0003】
人工知能(Artificial Intelligence、AI)の発展に伴い、AIがますます多くの分野に応用されており、ここで、知能医療分野において、AIは、薬物の発見を推進し、専門家による新薬の研究開発を支援することができる。
【0004】
関連技術では、化学分子構造をマッピングして対応するグラフ構造の分子グラフを生成し、その後、グラフ畳み込みニューラルネットワーク(Graph Convolutional Network、GCN)によって、メッセージ伝播過程に基づいてこれらの分子グラフを学習し、さらにGCNによって新たな特徴表現を生成し、意思決定過程において、新たな特徴表現に対応する新たな構造を、有機分子化学規則に合致するように従来のグラフに追加することによって、新たな分子に対応する分子グラフを得ることができる。
【0005】
しかしながら、上記の新たな分子の構造生成過程において、GCNの低域通過特性によって分子を表現するグラフデータを平滑化させるため、復号化の時に完全な原始信号を再構築することができず、最終的に生成分子の多様性および有効性が不足し、生成効率が低くなった。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の実施例は、指定構造の生成効率および生成した構造の多様性を向上できる構造データの生成方法、装置、デバイス、媒体およびプログラム製品を提供する。本願は、以下の技術案を講じる。
【課題を解決するための手段】
【0007】
本発明の一方面によれば、
サンプル構造データの構造特徴表現およびノード特徴表現を取得するステップであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成するノードに対応するノードタイプを指示するためのものであるステップと、
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成するステップであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域で前記サンプル構造データにおけるノード間の結合状況を指示するためのものであるステップと、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るステップと、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得るステップであって、前記指定デコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータであるステップと、を含む構造データの生成方法を提供する。
【0008】
本発明の他方面によれば、
サンプル構造データの構造特徴表現およびノード特徴表現を取得するための取得モジュールであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成する前記ノードに対応するノードタイプを指示するためのものである取得モジュールと、
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成するための符号化モジュールであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域での前記サンプル構造データにおけるノード間の結合状況を指示するためのものである符号化モジュールと、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るための復号化モジュールと、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得るための訓練モジュールであって、前記指定デコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータである訓練モジュールと、を含む構造データの生成装置を提供する。
【0009】
本発明の他方面によれば、プロセッサと、メモリーとを含み、前記メモリーには、前記プロセッサがロードして実行することによって本願の実施例のいずれか1つに記載の構造データの生成方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶されているコンピュータデバイスを提供する。
【0010】
本発明の他方面によれば、プロセッサがロードして実行することによって本願の実施例のいずれか1つに記載の構造データの生成方法を実現する少なくとも1つのプログラムコードが記憶されているコンピュータ読取可能な記憶媒体を提供する。
【0011】
本発明の他方面によれば、コンピュータ読取可能な記憶媒体に記憶されるコンピュータ命令を含むコンピュータプログラム製品またはコンピュータプログラムを提供する。コンピュータデバイスのプロセッサがコンピュータ読取可能な記憶媒体から当該コンピュータ命令を読み取って実行することによって、当該コンピュータデバイスに上記の実施例のいずれかに係る構造データの生成方法を実行させる。
【0012】
本願の技術案によれば、少なくとも以下の有益な効果を達成することができる。
【発明の効果】
【0013】
サンプル構造データに対応する構造特徴表現およびノード特徴表現によって隠れ層特徴表現を得た後、当該隠れ層特徴表現によって訓練待ちデコーダに対して反復訓練を行って指定デコーダを得ることにより、当該指定デコーダに入力されたサンプリングデータによって必要な構造データを生成することができ、すなわち、必要に応じて、訓練して得られた指定デコーダによって多様な再構築構造データを迅速に生成することができ、構造データの生成効率および生成多様性を向上させることができる。
【図面の簡単な説明】
【0014】
図1】本願の1つの例示的な実施例に係る実施環境を示す図である。
図2】本願の1つの例示的な実施例に係る構造データの生成方法のフローチャートである。
図3】本願の1つの例示的な実施例に係るモデルの構造を示す図である。
図4】本願の1つの例示的な実施例に係る隠れ層特徴表現の生成方法のフローチャートである。
図5】本願の1つの例示的な実施例に係る隠れ層特徴表現の取得を示す図である。
図6】本願の別の例示的な実施例に係る隠れ層特徴表現の取得を示す図である。
図7】本願の1つの例示的な実施例に係るデコーダの訓練方法のフローチャートである。
図8】本願の別の例示的な実施例に係る構造データの生成方法のフローチャートである。
図9】本願の別の例示的な実施例に係る構造データの生成方法のフローチャートである。
図10】本願の1つの例示的な実施例に係る構造データの生成装置の構造を示すブロック図である。
図11】本願の別の例示的な実施例に係る構造データの生成装置の構造を示すブロック図である。
図12】本願の1つの例示的な実施例に係るサーバの構造を示す図である。
【発明を実施するための形態】
【0015】
まず、本願の実施例に係る用語を簡単に説明する。
【0016】
人工知能:デジタルコンピュータまたはデジタルコンピュータで制御される機器を利用して人の知能に対してシミュレーション、延伸および拡張を行い、環境への感知、知識の取得および知識を用いた最適な結果の取得を行う理論、方法、技術および応用システムである。換言すれば、人工知能は、コンピュータ科学の総合技術であって、知能の実質を理解して、人間の知能と類似する方式で反応可能な新規の知能機械を製造することを意図している。つまり、人工知能は、各種の知能機械の設計原理と実現方法を研究することによって、機器に感知、推論および意思決定の機能を持たせるものである。
【0017】
人工知能技術は、1つの総合的な学科であって、幅広い分野に係っており、ハードウェア的技術もソフトウェア的技術も含まれる。人工知能の基盤技術は、一般的に例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理技術、操作/対話システム、機電一体化などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術および機械学習/深層学習、自動運転、インテリジェント交通などの幾つかの方向を含む。
【0018】
機械学習(Machine Learning、ML)は、複数の分野が交差する学科であって、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの多くの学科に係っており、コンピュータがどのように人間の学習行為をシミュレーションまたは実現するかを専門的に研究することにより、新たな知識やスキルを取得して、既存の知識構造を新たに組織することにより自己の性能を不断に改善させるものである。機械学習は、人工知能の中核であって、コンピュータに知能を持たせるための根本的ルートであり、人工知能の各分野にわたって応用されている。機械学習および深層学習は、通常、人工ニューラルネットワーク、信頼ネットワーク、強化学習、転移学習、帰納学習、教示学習等の技術を含む。
【0019】
グラフ畳み込みネットワーク:畳み込みニューラルネットワークは、局所感知領域、共有重み値および空間領域におけるダウンサンプリングを採用し、変位、拡大縮小および歪みに対して安定的な特性を有し、画像の空間特徴を良好に抽出することができるものである。グラフ構造は、ピクチャーの並進不変性を備えず、従来の畳み込み方式は、グラフ構造に応用することができない。したがって、グラフ畳み込みの重要な難点は、グラフにおける各ノードの近傍ノードの数が一致せず、同じサイズの畳み込みカーネルで特徴の抽出を行うことができないことにある。GCNは、空間領域またはスペクトル領域のメッセージ伝達メカニズムによって近傍情報の統合を完成し、主な特徴の抽出を行うが、最も一般的なGCNは、グラフ信号に対してローパスフィルタリング処理を行う。
【0020】
ウェーブレット変換(Wavelet Transform):空間周波数の局所化分析であり、伸縮並進演算によって信号に対してマルチスケール細分化を徐々に行い、最終的に周波数帯域の細分化に達し、時間周波数信号分析の要求に自動的に適応することができ、これにより、信号の任意の細部にフォーカスすることができ、フーリエ(Fourier)変換の困難な問題を解決した。
【0021】
変分オートエンコーダ(Variational Auto-Encoder、VAE):データの生成に向けた深層学習モデルであり、まず、入力データを圧縮符号化し、かつ隠れ変数を計算して生成し、最終的にデコーダによって原始データを復元し、データ生成時に、隠れ変数から特定の分布でサンプリングするだけで原始データの分布に近いデータを生成することができる。分子の生成にVAEモデルを応用するのは、参照分子と性質が一致する有効分子を生成し、さらに高品質の薬物を発見するためである。
【0022】
本願の実施例では、人工知能技術における機械学習/深層学習を、一定の規則を有するまたは一定の規則を満足する構造データの生成に応用する。
【0023】
次に、本願の実施例に係る構造データの生成方法の応用シーンを例に挙げて説明する。
【0024】
第一、インテリジェント医薬シーンにおける有機化学分子の生成シーンに応用することができる。インテリジェント医薬シーンにおいて、AIによって新薬の発見および研究開発、例えばリード薬物の生成、薬物の最適化などを支援しており、ここで、上記リード薬物は、一定のルートおよび手段によって得られある活性および化学構造を有する化合薬物を指し、さらなる構造の改造と修飾に用いられ、新薬の研究の出発点であり、薬物の最適化は、薬物における化学構造に対して一定の規則に従って構造を最適化することによって、薬物の物理化学的性質を向上させることを指す。
【0025】
関連技術では、化合物の化学分子をグラフ構造の分子グラフにマッピングした後、グラフ畳み込みニューラルネットワークGCNによって特徴抽出を行い、その後、GCNによって構造の復元を行い、すなわち、特徴抽出によって中間特徴Z=GCN(X,A)が得られ、ここで、Xは、分子グラフのノード特徴であり、Aは、分子グラフのエッジ特徴であり、その後
が生成され、、
はAに対して指定の変換を行った後の特徴である。しかしながら、当該方法の実現過程において、新たな分子の生成過程に用いられるデコード方法に対する解釈可能性が悪く、符号化部分と双対するデカップリング原理が存在しないため、グラフ信号に対して2次平滑化を行い、生成された分子グラフの多様性が低く、生成効率も低い。
【0026】
例示的には、本願の実施例に係る構造データの生成方法によって既存の薬物の化学分子構造を学習することにより、指定デコーダを得ることができ、ここで、復号化過程と符号化過程とが双対しているため、新薬の研究開発過程において指定デコーダによって高品質な臨床候補分子を効率的かつ効果的に生成して、新薬の研究開発を支援することができる。または、既知の標的における比較的強い潜在活性を有する類似薬分子のスクリーニング過程に応用され、ここで、類似薬分子は、分子に対応する化合物が既知の薬物と一定の類似性を有し、薬物となる可能性があるものであり、本願の実施例に係る構造データの生成方法によって、薬物となり難い標的に対して、成功率が高い理想的な候補分子を生成する。
【0027】
第二、知識グラフのマイニングおよび構築のシーンに応用することができる。ここで、上記知識グラフは、互いに接続される幾つかのエンティティとそれらの属性とで構成され、応用数学、図形学、情報可視化技術、情報科学などの学科の理論および方法を、計測学の引用分析、共起分析などの方法と組み合わせることにより、可視化されたグラフを利用して学科のコア構造、先端分野および知識アーキテクチャ全体をイメージ的に表示して多学科の融合目的を達成する現代理論である。具体的には、例えば、インテリジェント医療シーンにおける医学知識グラフは、例示的に、既に構築された病状に対応する知識グラフを訓練データとして訓練することによって指定デコーダを得て、指定デコーダによって一定の有効性を有する複数の知識グラフを効率的に生成する。
【0028】
第三、インテリジェント旅行自動計画のシーンに応用することができる。例示的に、本願の実施例に係る構造データの生成方法によれば、訓練のための旅行コース計画グラフによって訓練して指定デコーダが得られ、ユーザは、当該指定デコーダによって多様な旅行計画コースを生成することができ、すなわち、指定条件またはランダム条件でユーザに多様な旅行コース計画を提供することができ、インテリジェント旅行を豊かにすることができ、上記の指定条件は、指定された旅行都市、指定された観光地タイプなどであってもよい。
【0029】
上記の例示的なシーンは、本願の実施例に係る構造データの生成方法の応用シーンの例示に過ぎず、当該方法は、例えばユーザ間のソーシャル関係に基づく推薦システム、テキスト語義分析、道路状況予測などの情報をグラフ構造のデータに処理可能なシーンに応用されてもよく、ここでは具体的な応用シーンを限定しない。
【0030】
本願の実施例の実施環境について、上記の名詞解釈および応用シーンの説明と組み合わせて説明する。図1に示すように、当該実施環境のコンピュータシステムは、端末装置110と、サーバ120と、通信ネットワーク130とを含む。
【0031】
端末装置110は、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、モバイルノートパソコン、スマート家電、車載端末、航空機などの様々な形式の装置を含む。例示的に、ユーザは、端末装置110を介して、訓練待ちデコーダを訓練するようにサーバ120に指示する。
【0032】
サーバ120は、訓練待ちデコーダに対する訓練機能を提供するためのものであり、すなわち、サーバ120は、端末装置110の要求に応じて、対応する演算モジュールを呼び出して指定の訓練待ちデコーダを訓練することができる。好ましくは、訓練待ちデコーダに対応するモデルアーキテクチャは、サーバ120に予め記憶されてもよいし、端末装置110がモデルデータファイルによってアップロードしたものであってもよい。訓練待ちデコーダの訓練に用いられる訓練データセットは、サーバ120に予め記憶されてもよいし、端末装置110が訓練データファイルによってアップロードしたものであってもよい。一例では、ユーザは、端末装置110によってサンプル構造データに対応するデータセットをサーバ120にアップロードするとともに、訓練待ちデコーダのモデル識別子(ID)を含む訓練待ちデコーダに対する訓練要求を送信し、サーバ120は、訓練要求におけるモデルIDに基づいてデータベースから上記モデルIDに対応する訓練待ちデコーダのモデルアーキテクチャを読み取って、受信したデータセットによって訓練待ちデコーダを訓練する。
【0033】
ここで、訓練過程において、サーバ120は、サンプル構造データの構造特徴表現およびノード特徴表現によって隠れ層特徴表現を得て、隠れ層特徴表現に基づいて訓練待ちデコーダを訓練して指定デコーダを得る。サーバ120が訓練を行って指定デコーダを得ると、サーバ120は、当該指定デコーダを端末装置110に送信するか、または、端末装置110がデータ生成要求によって呼び出すように当該指定デコーダをアプリケーションモジュールに設定することができる。
【0034】
幾つかの実施例では、端末装置110の計算能力が上記の訓練待ちデコーダの訓練過程に対して足りると、上記の指定デコーダの訓練過程全体は、端末装置110が独立して実現してもよい。
【0035】
なお、上記サーバ120は、独立した物理サーバであってもよいし、複数の物理サーバからなるサーバクラスタまたは分散システムであってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク(Content Delivery Network、CDN)、およびビッグデータと人工知能プラットフォームなどの基礎クラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0036】
ここで、クラウド技術(Cloud Technology)とは、広域ネットワークまたはローカルエリアネットワーク内でハードウェア、ソフトウェア、ネットワークなどのリソースを統一して、データの計算、記憶、処理および共有を実現する信託技術を意味する。
【0037】
幾つかの実施例では、上記サーバ120は、ブロックチェーンシステムにおけるノードとして実現されてもよい。
【0038】
例示的に、端末装置110とサーバ120との間は、通信ネットワーク130を介して接続され、ここで、上記通信ネットワーク130は、有線ネットワークであってもよく、無線ネットワークであってもよく、ここではこれを限定しない。
【0039】
図2は、本願の1つの実施例に係る構造データの生成方法を示し、本願の実施例では、当該方法は、コンピュータデバイスが実行するものであり、上記コンピュータデバイスは、図1における端末装置またはサーバとして実現されてもよく、一例では、当該方法は、図1に示すサーバに応用され、以下のステップを含む。
【0040】
ステップ201において、サンプル構造データの構造特徴表現およびノード特徴表現を取得する。
【0041】
ここで、上記構造特徴表現は、サンプル構造データを構成するノード間の接続状況を指示するためのものであり、ノード特徴表現は、前記サンプル構造データを構成するノードに対応するノードタイプを指示するためのものである。
【0042】
例示的に、上記サンプル構造データは、訓練待ちデコーダを訓練するための訓練データであり、当該サンプル構造データは、データ構造がグラフ構造であるデータであり、すなわち、サンプル構造データは、少なくとも2つのノードおよび少なくとも1つのエッジからなるデータである。好ましくは、上記グラフ構造は、無向グラフ、有向グラフ、無向完全グラフ、有向完全グラフなどのうちのいずれかのグラフ構造であってもよく、具体的なグラフ構造は、サンプル構造データに対応するデータ情報に基づいて確定することができる。例えば、グラフ構造によって化学分子を表現する必要がある場合、すなわち、当該サンプル構造データが化学分子に対応するものである場合、分子における原子は、グラフにおけるノードとなり、原子間の化学結合は、グラフにおけるエッジとなり、エッジが方向を指示する必要がないため、これと対応して無向グラフをサンプル構造データに対応するデータ構造として使用することができる。
【0043】
ここで、構造特徴表現は、サンプル構造データに対応するグラフにおけるノード間の接続状況を指示するためのものであり、当該接続状況は、サンプル構造データに対応する構造生成タスクに関連する。例えば、構造生成タスクが化学分子の生成である場合、上記ノード間の接続関係は、化学分子における各原子間の化学結合である。構造生成タスクがソーシャルネットワークに基づく推薦システムである場合、ノード間の接続状況は、ソーシャルネットワークにおけるユーザ同士の相互関係(例えば、ストレンジャー関係、フレンド関係、ブラックリスト関係など)である。構造生成タスクが旅行コースの生成である場合、ノード間の接続状況は、観光地間の道程状況である。
【0044】
ノード特徴表現は、サンプル構造データに対応するグラフにおける各ノードのノードタイプを指示するためのものであり、当該ノードタイプは、サンプル構造データに対応する構造生成タスクに関連する。例えば、構造生成タスクが化学分子の生成である場合、上記ノードタイプは、化学分子における原子型である。構造生成タスクがソーシャルネットワークに基づく推薦システムである場合、ノードタイプは、ソーシャルネットワークにおけるユーザアカウントである。構造生成タスクが旅行コースの生成である場合、ノードタイプは、観光地である。
【0045】
例示的に、サンプル構造データの構造特徴表現およびノード特徴表現は、サンプル構造データを予め設定された特徴変換方式に従って変換することにより得られる。好ましくは、上記構造特徴表現は、行列形式の特徴表現であってもよく、ベクトル形式の特徴表現であってもよく、上記ノード特徴表現は、行列形式の特徴表現であってもよく、ベクトル形式の特徴表現であってもよく、ここではこれを限定しない。
【0046】
好ましくは、上記予め設定された変換方式は、ネットワーク変換方式であってもよく、すなわち、上記構造特徴表現およびノード特徴表現は、特徴抽出ネットワークによって特徴抽出を行って得られたものであってもよく、サンプル構造データを予め訓練した特徴抽出ネットワークに入力して、構造特徴表現およびノード特徴表現を出力して得る。上記特徴抽出ネットワークは、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)、視覚幾何学グループネットワーク(Visual Geometry Group Network、VGGNet)、アレックスネットワーク(Alex Network、AlexNet)など、特徴抽出を完成可能なネットワークであってもよく、ここではこれを限定しない。
【0047】
好ましくは、上記の予め設定された変換方式は、行列変換方式であってもよく、すなわち、上記の構造特徴表現およびノード特徴表現は、サンプル構造データに対応するグラフ構造データを行列変換することによって得られたものであってもよい。例示的に、上記グラフ構造のサンプル構造データの論理構造は、少なくとも2つのノードからなるノードセットとノード間のエッジからなるエッジセットとの2つの部分に分けられる。上記構造特徴表現は、エッジセットによって生成され、エッジを格納するための2次元データである隣接行列であり、当該隣接行列は、上記の少なくとも2つのノード間の接続関係を記録するためのものであり、上記ノード特徴表現は、ノードセットによって生成された1次元行列(配列)であり、グラフにおけるノードデータを格納するためのものである。
【0048】
一例では、サンプル構造データが化学分子を指示するためのものである場合を例として、上記隣接行列に記録されたものは、化学分子における原子間の化学結合タイプであり、ノード特徴表現は、化学分子の構成原子に基づいて生成された1次元特徴行列であり、化学分子における原子型を記録するためのものである。例示的に、少なくとも2つの原子からなるサンプル化学分子を取得し、サンプル化学分子は、原子結合の基準を満足する既知の分子である。サンプル化学分子を、データ構造がグラフ構造であるサンプル分子グラフに変換し、サンプル分子グラフのノードは、サンプル化学分子における少なくとも2つの原子、例えば炭素原子、水素原子、酸素原子などを表すためのものであり、サンプル分子グラフにおけるエッジは、サンプル化学分子における原子間の化学結合を示すためのものであり、上記化学結合は、エッジレス、単結合、二重結合、三重結合等のタイプのものを含み、その中で、コンピュータにおいて指定のマッピング関係によって原子型、化学結合型を異なる文字または文字列にマッピングすることができ、例えば、エッジレスを「0」、単結合を「1」、二重結合を「2」、三重結合を「3」にそれぞれ対応させることができ、上記のマッピング関係は、予め設定されたマッピングテーブルに記録されてもよい。サンプル分子グラフに対応する隣接行列を構造特徴表現として確定し、サンプル分子グラフに対応するノード行列をノード特徴表現として確定する。グラフ構造の分子グラフが化学分子における原子同士の接続関係を簡単かつ明瞭に表現できるため、サンプル分子グラフの取得効率を向上させるとともに、特徴抽出の過程において、原子型の特徴および原子間化学結合の特徴を保留することができる。
【0049】
本願の実施例では、上記訓練待ちデコーダは、訓練モデルにおける一部である。例示的に、サンプル構造データに対応する構造特徴表現およびノード特徴表現を訓練モデルに入力することによって予測構造データを出力し、予測構造データとサンプル構造データとの間の偏差によって全体の訓練モデルを訓練し、すなわち、訓練待ちデコーダの訓練は、訓練モデルに対する全体の訓練過程において完了される。
【0050】
ステップ202において、構造特徴表現およびノード特徴表現に基づいて隠れ層特徴表現を生成する。
【0051】
上記隠れ層特徴表現は、少なくとも2つの周波数帯域でのサンプル構造データにおけるノード間の結合状況を指示するためのものである。
【0052】
例示的に、上記訓練モデルは、訓練待ちエンコーダをさらに含み、当該訓練待ちエンコーダは、構造特徴表現およびノード特徴表現に基づいて隠れ層特徴表現を生成するためのものである。好ましくは、上記の訓練待ちエンコーダに対応するエンコーダ構造は、オートエンコーダ(Autoencoder)、変分オートエンコーダ(Variational auto-encoder、VAE)、ローパスフィルタ、バンドパスフィルタなどであってもよく、具体的に使用されるフィルタは、畳み込みニューラルネットワーク、ウェーブレットフィルタ、バターワースフィルタ、ベッセルフィルタなどであってもよく、ここではこれを限定しない。
【0053】
本願の実施例では、サンプル構造データがグラフ構造のデータである場合、上記訓練待ちエンコーダは、GCNであり、すなわち、構造特徴表現およびノード特徴表現をGCNの入力として、上記隠れ層特徴表現を出力して得る。
【0054】
例示的に、上記隠れ層特徴表現は、少なくとも2つの周波数帯域でのサンプル構造データにおけるノード間の結合状況を指示するためのものであるため、本願の実施例におけるGCNは、第1のフィルタリング層および少なくとも2つの第2のフィルタリング層を含む。
【0055】
好ましくは、上記第1のフィルタリング層は、ローパスフィルタリングを完成するためのものであってもよく、ハイパスフィルタリングを完成するためのものであってもよく、バンドパスフィルタリングを完成するためのものであってもよく、具体的には、実際の応用シーンのニーズに応じて確定する必要がある。一例では、化学分子の生成シーンに応用される場合、上記第1のフィルタリング層は、ローパスGCN層である。ここで、上記第1のフィルタリング層は、機能が一致するフィルタリング層を指示するものに過ぎず、第1のフィルタリング層は、単一のフィルタリング層で構成されてもよく、複数のフィルタリング層で構成されてもよく、例えば、第1のフィルタリング層は、2つのローパスGCN層を含み、すなわち、2層のニューロンで構成され、ここではこれを限定しない。
【0056】
上記第2のフィルタリング層は、少なくとも2つの周波数帯域に対応するバンドパスフィルタリング層であり、例示的に、第1のフィルタリング層から出力されたデータは、上記少なくとも2つの第2のフィルタリング層に入力され、各周波数帯域にそれぞれ対応するフィルタリング結果を出力する。例示的に、第2のフィルタリング層の数は、周波数帯域の分割数に対応する。ここで、上記第2のフィルタリング層は、機能が一致するフィルタリング層を指示するものに過ぎず、少なくとも2つの第2のフィルタリング層は、並列に接続される少なくとも2つの第2のフィルタリング層であり、1つの第2のフィルタリング層は、単一のフィルタリング層で構成されてもよく、複数のフィルタリング層で構成されてもよく、ここではこれを限定しない。
【0057】
例示的に、構造特徴表現およびノード特徴表現に基づいて、少なくとも2つの周波数帯域でそれぞれ符号化して中間特徴データが得られ、中間特徴データは、対応する周波数帯域でのサンプル構造データのノード間の結合状況を指示するためのものであり、指定データ分布に基づいて少なくとも2つの周波数帯域にそれぞれ対応する中間特徴データをクラスタリングして、隠れ層特徴表現を得る。すなわち、上記第1のフィルタリング層および第2のフィルタリング層によって少なくとも2つの周波数帯域における中間特徴データが得られ、中間特徴データをクラスタリングすることによって、隠れ層特徴表現が得られる。
【0058】
好ましくは、上記中間特徴データのクラスタリング方式は、少なくとも2つの周波数帯域の間の周波数帯域順序に基づいてスプライシングすることであってもよく、一例では、上記周波数帯域順序は、少なくとも2つの周波数帯域を低周波から高周波まで並べる順序であってもよい。または、上記中間特徴データのクラスタリング方式は、少なくとも2つの周波数帯域にそれぞれ対応する中間特徴データを、指定のデータ分布に基づいてフィッティングし、例えば、正規分布(ガウス分布)に基づいてフィッティングしたり、チェビシェフ多項式によってフィッティングしたり、最小二乗法に基づいてフィッティングしたりするなどであってもよい。幾つかの実施例では、サンプル構造データにおけるノード数が少ないと、すなわち、計算力が構造行列および特徴行列の計算需要を満足できると、多項式のフィッティングに代わって特徴値の分解を使用し、すなわち、ラプラシアン行列に対して特徴分解を行ってもよい。
【0059】
ステップ203において、隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得る。
【0060】
例示的に、隠れ層特徴表現は、デコーダによって構造の再構築を行うことによって予測構造データを得る。幾つかの実施例では、訓練待ちデコーダの出力は、復号化構造特徴表現および復号化ノード特徴表現であり、すなわち、訓練待ちデコーダによって隠れ層特徴表現をサンプリングすることによって、復号化構造特徴表現および復号化ノード特徴表現を取得し、復号化構造特徴表現および復号化ノード特徴表現に基づいて、予測構造データを生成する。ここで、上記復号化構造特徴表現は、予測構造データにおけるノード間の関係を指示するためのものであり、復号化ノード特徴表現は、予測構造データにおけるノードを指示するためのものである。
【0061】
一例では、図3は、本願の1つの例示的な実施例に係るモデル構造を示す図である。図3に示すように、サンプル構造データの構造特徴表現およびノード特徴表現は、第1のフィルタリング層310に入力され、その後、第1のフィルタリング層310の出力結果は、第2のフィルタリング層320に入力され、第2のフィルタリング層320の出力は、クラスタリングされて隠れ層特徴表現が得られ、隠れ層特徴表現は、デコーダ330によって復号化結果が得られ、当該復号化結果は、上記復号化構造特徴表現および復号化ノード特徴表現である。
【0062】
ステップ204において、予測構造データに基づいて訓練待ちデコーダを訓練することによって、指定デコーダを得る。
【0063】
ここで、指定デコーダは、入力されたサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、サンプリングデータは、候補データをサンプリングして得られたデータである。幾つかの実施例では、上記候補データは、指定データ分布を満足するデータである。
【0064】
本願の実施例では、訓練待ちデコーダが収束するまで、訓練待ちデコーダから出力された予測構造データと入力されたサンプル構造データとの間の構造差異状況によって訓練待ちデコーダを訓練する。幾つかの実施例では、訓練待ちデコーダは、訓練モデルにおける一部であるため、その訓練過程が訓練モデルの全体の訓練過程に依存し、すなわち、予測構造データと入力されたサンプル構造データとの間の構造差異状況によって訓練モデルを訓練することによって、収束した予測モデルを得て、予測モデルにおけるデコーダ部分を上記指定デコーダに分解し、再構築構造データの生成に用いる。
【0065】
例示的に、サンプル構造データと予測構造データとの間の構造差異状況に基づいて訓練損失値を得て、訓練損失値が指定損失閾値に達し、すなわち、モデルが収束するまで訓練されたと確定したことに応答して、訓練待ちデコーダの訓練が完了したと確定し、指定デコーダを得る。または、訓練損失値と指定損失閾値とのマッチングが失敗したことに応答して、訓練待ちデコーダのモデルパラメータに対して反復訓練を行い、すなわち、訓練モデルのモデルパラメータを調整することによって反復訓練を行う。ここで、上記指定損失閾値は、システムが予め設定したものであってもよく、ユーザの需要に応じてカスタマイズしたものであってもよく、例えば、需要されるモデル精度要求が高いほど、対応する指定損失閾値が小さくなる。
【0066】
上記訓練損失値は、指定損失関数によって算出され、当該指定損失関数は、回帰、再構築および分類に用いられる損失関数であってもよく、好ましくは、当該指定損失関数は、平均絶対誤差損失関数、負の対数尤度損失関数、指数損失関数、交差エントロピー損失関数およびその変形体などの損失関数であってもよく、ここではこれを限定しない。
【0067】
以上のように、本願の実施例に係る構造データの生成方法は、サンプル構造データに対応する構造特徴表現およびノード特徴表現によって隠れ層特徴表現を得た後、当該隠れ層特徴表現によって訓練待ちデコーダに対して反復訓練を行って指定デコーダを得ることにより、当該指定デコーダに入力されたサンプリングデータによって必要な構造データを生成することができ、すなわち、必要に応じて、訓練して得られた指定デコーダによって多様な再構築構造データを迅速に生成することができ、構造データの生成効率および生成多様性を向上させた。
【0068】
図4は、本願の1つの実施例に係る隠れ層特徴表現の生成方法を示し、本願の実施例では、エンコーダによって隠れ層特徴表現を取得する過程について説明する。当該方法は、以下のステップを含む。
【0069】
ステップ401において、サンプル構造データの構造特徴表現およびノード特徴表現を取得する。
【0070】
本願の実施例では、全体の訓練モデルは、推定に用いられるエンコーダ部分および生成に用いられるデコーダ部分を含み、サンプル構造データの構造特徴表現およびノード特徴表現は、全体の訓練モデルの入力である。
【0071】
ここで、上記構造特徴表現は、サンプル構造データを構成するノード間の接続状況を指示するためのものであり、ノード特徴表現は、前記サンプル構造データを構成するノードに対応するノードタイプを指示するためのものである。上記サンプル構造データは、訓練モデルを訓練するための訓練データであり、当該サンプル構造データは、データ構造がグラフ構造であるデータである。
【0072】
ステップ402において、構造特徴表現およびノード特徴表現に基づいて少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得る。
【0073】
本願の実施例では、訓練モデルにおける訓練待ちエンコーダによって構造特徴表現およびノード特徴表現を符号化することによって、中間特徴データを得る。ここで、当該訓練待ちエンコーダの構造は、第1のフィルタリング層と少なくとも2つの第2のフィルタリング層とを含む。
【0074】
幾つかの実施例では、ウェーブレット変換によって符号化の過程を完了し、すなわち、上記訓練待ちエンコーダの構造は、GCNであり、ここで、第1のフィルタリング層は、ローパスGCN層であり、第2のフィルタリング層は、バンドパスウェーブレット層であり、ここで、少なくとも2つのバンドパスウェーブレット層のうちのそれぞれは、異なるウェーブレット基底関数に対応し、すなわち、ウェーブレット基底関数によって信号をフィルタリングし、すなわち、ウェーブレット変換におけるマルチスケール原理を参照して、異なるウェーブレット基底関数のテイラー展開式に基づいて畳み込みバンドパスフィルタリングの基礎であることを表し、ウェーブレット変換過程は、入力特徴とウェーブレット基底関数との畳み込み過程である。
【0075】
例示的に、訓練モデルが完成すべき構造生成タスクに基づいてスケール基準を取得し、当該スケール基準に基づいて対応する少なくとも2つの基底関数を算出し、当該少なくとも2つの基底関数は、基底関数群を形成し、基底関数群における各基底関数は、1つのバンドパスウェーブレット層に対応し、すなわち、1つの周波数帯域に対応する。
【0076】
ステップ403において、指定データ分布に基づいて少なくとも2つの周波数帯域のそれぞれに対応する中間特徴データをクラスタリングすることによって、隠れ層特徴表現を得る。
【0077】
幾つかの実施例では、少なくとも2つのバンドパスウェーブレット層の出力を直接的にクラスタリングして隠れ層特徴表現を得るようになっており、すなわち、この場合、中間特徴データは、訓練待ちエンコーダが符号化して得た符号化結果であり、例示的に、構造特徴表現およびノード特徴表現を訓練待ちエンコーダに入力し、少なくとも2つの周波数帯域のそれぞれに対応する中間特徴データを出力し、当該中間特徴データは、クラスタリングして隠れ層特徴表現を得るためのものである。すなわち、構造特徴表現およびノード特徴表現に対して隠れ層特徴表現の生成を行う過程において、訓練待ちエンコーダによって中間特徴データを生成し、訓練待ちエンコーダと訓練待ちデコーダを共同で訓練することによって、モデルの訓練過程において訓練結果を逆伝播して、訓練待ちデコーダの訓練を支援する。
【0078】
ここで、上記中間特徴データのクラスタリング方式は、少なくとも2つの周波数帯域の間の周波数帯域順序に基づいてスプライシングするものであり、一例では、上記周波数帯域順序は、少なくとも2つの周波数帯域を低周波数から高周波数まで並べる順序であってもよい。
【0079】
例示的に、図5は、本願の1つの例示的な実施例に係る隠れ層特徴表現の取得を示す図であり、構造特徴表現およびノード特徴表現501をGCN510に入力してローパスフィルタリングデータ502が得られ、ローパスフィルタリングデータ502をGCNwavelet520(GCNwavelet1、GCNwavelet2、…、GCNwaveletnを含む)に入力して、GCNwavelet520のそれぞれから1つの中間特徴データ503を出力し、中間特徴データ503をクラスタリングして隠れ層特徴表現Z504が得られる。
【0080】
他の幾つかの実施例では、訓練して得た指定デコーダによって生成された再構築構造データの多様性を提示するために、当該中間特徴データは、訓練待ちエンコーダが符号化して得た特徴に対して中間計算を行うことによって得られたデータであってもよい。
【0081】
一例では、上記の中間計算によって得られたデータは、平均値および分散である。例示的に、構造特徴表現およびノード特徴表現に基づいて、少なくとも2つの周波数帯域にそれぞれ対応する特徴空間におけるサンプル構造データのノードのノード特徴ベクトルを取得し、少なくとも2つの周波数帯域に対応するノード特徴ベクトルの間の平均値データおよび分散データを取得し、平均値データおよび分散データを中間特徴データとして確定する。すなわち、訓練待ちエンコーダによってフィルタリングした後、各周波数帯域に対応するノード特徴ベクトルに対して平均値および分散の計算を行って平均値データおよび分散データが得られ、上記平均値データおよび分散データは、隠れ層特徴表現を生成するための中間特徴データである。すなわち、異なる周波数帯域に対応するノード特徴ベクトルの間の平均値データおよび分散データに基づいて変分自己符号化の変分推定過程を実現することによって、下流で訓練して得る指定デコーダの解釈可能性を向上させ、構造データの生成空間を拡張させた。
【0082】
具体的には、訓練待ちエンコーダは、式1に示す確率モデルに基づくエンコーダであり、ここで、Zは、ノードの隠れ層特徴表現を表し、Xは、ノード特徴表現に対応する特徴行列を表し、Xの次元は、N*1であり、Nは、サンプル構造データにおけるノードの数量であり、Nは、正の整数であり、Aは、構造特徴表現に対応する、ノード間のエッジを記憶するための隣接行列である。
【0083】
【数1】
【0084】
ここで、上記式1におけるq(z|X,A)は、式2によって確定され、μは、ノードベクトル表現の平均値を表し、σは、ノードベクトル表現の分散を表し、diag()は、対角行列を生成することであり、当該式2は、ノードzに対応する特徴をガウス分布にフィッティングすることを表す。
【0085】
【数2】
【0086】
式1および式2から分かるように、訓練待ちエンコーダは、構造特徴表現およびノード特徴表現を既知の条件とする場合、予測ノードセットにおける第i予測ノードが予測ノードセットにおける各予測ノードと接続関係を確立する接続確率を確定し、かつ第i予測ノードと各予測ノードとの間の接続確率に基づいて第i予測ノードに対応する接続確率分布を確定し、予測ノードセットにおける全ての予測ノードの接続確率分布の融合結果に基づいて少なくとも2つの周波数帯域にそれぞれ対応する中間特徴データ(隠れ層特徴表現に対応する分布)を確定し、ここで、上記予測ノードは、最終的に出力される予測構造データを構築するためのものである。例示的に、予測ノードセットにおける各予測ノードが1つの接続確率分布に対応し、各予測ノードに対応する接続確率分布を連続乗算して得られた分布を、隠れ層特徴表現Zに対応する分布として確定することができ、本願の実施例では、少なくとも2つの周波数帯域にそれぞれ周波数帯域隠れ層特徴表現の分布が対応し、上記異なる周波数帯域の周波数帯域隠れ層特徴表現の分布を融合することによって、隠れ層特徴表現に対応する分布を得ることができる。
【0087】
構造データが化学分子である場合を例として、異なるタイプの化学原子のセットを予測ノードセットとし、当該第iタイプの化学原子は、予測ノードセットにおけるその自身を含む全てのタイプの化学原子と接続関係を確立可能であるか否かについて、1つの接続関係確立の確率値と対応付けられており、当該第iタイプの化学原子とセットにおける全てのタイプの化学原子との接続関係を総合的に観察すると、当該第iタイプの化学原子に対応する上記確率値の分布である上記連結確率分布が形成される。各化学原子は、1つの接続確率分布に対応しており、当該接続確率分布は、訓練待ちエンコーダの訓練過程においてガウス分布にフィッティングされる。各ノードの接続確率分布がガウス分布にフィッティングされた場合、接続確率分布を連続乗算して得られた隠れ層特徴表現Zの分布もガウス分布となる。
【0088】
上記確率モデルでGCNを採用すれば、符号化によって平均値データおよび分散データを取得することができる。単層GCNを例として、単層GCNの計算表現は、式3に示す通りであり、ここで、Aは、GCNに入力される構造特徴表現であり、Xは、GCNに入力されるノード特徴表現であり、Wは、GCNモデルのモデルパラメータであり、ここで、Dは、グラフ構造のサンプル構造データに対応する次数行列である。好ましくは、平均値データおよび分散データは、単層GCNによって得られたものであってもよく、多層GCNによって得られたものであってもよく、ここでこれを限定しない。
【0089】
【数3】
【0090】
平均値データおよび分散データを得た後、上記平均値データおよび分散データを指定データ分布に基づいてフィッティングして、隠れ層特徴表現を得ることができる。一例では、上記指定データ分布は、ガウス分布である。
【0091】
例示的に、図6は、本願の別の例示的な実施例に係る隠れ層特徴表現の取得を示す図である。構造特徴表現およびノード特徴表現601をGCN610に入力してローパスフィルタリングデータ602が得られ、ローパスフィルタリングデータ602をGCNwavelet620(GCNwavelet1、GCNwavelet2、…、GCNwaveletnを含む)に入力し、GCNwavelet620のそれぞれから対応するノード特徴ベクトル603を出力し、中間計算によってノード特徴ベクトル603に対応する平均値データおよび分散データ604が得られ、平均値データおよび分散データ604を中間特徴データとして、中間特徴データに基づいてフィッティングしてガウス分布の隠れ層特徴表現Z605が得られる。
【0092】
本願の実施例では、図6に示すGCNについて、それと対応する計算は、式3に示す通りであり、すなわち、
である。ノード特徴表現Xおよび構造特徴表現AをGCNに入力し、活性化関数によって変換されてXが得られ、GCNwaveletの入力は、上記XとAであり、GCNwaveletがGCNwavelet1、GCNwavelet2を含む場合を例とすると、GCNwavelet1(X,A)=Awavelet1、GCNwavelet2(X,A)=Awavelet2となり、ここで、Wは、GCNwavelet1のモデルパラメータであり、Wは、GCNwavelet2のモデルパラメータであり、Awavelet1は、GCNwavelet1に対応するウェーブレット基底関数でのAのウェーブレット変換結果であり、Awavelet2は、GCNwavelet2に対応するウェーブレット基底関数でのAのウェーブレット変換結果である。ここで、上記活性化関数は、sigmoid活性化関数(S型成長曲線)、tanh非線形関数、ReLU活性化関数またはその変形であってもよく、ここではこれを限定しない。
【0093】
一例では、平均値データおよび分散データを確定した後、リパラメタライゼーショントリックを用いて計算して隠れ層特徴表現が得られ、すなわち、式4に示すように、ここで、μは上記平均値データであり、σは上記分散データであり、εは正規ガウス分布であり、すなわち、p(ε)=N(0,I)である。
【0094】
【数4】
【0095】
以上のように、本願の実施例に係る隠れ層特徴表現の生成方法は、GCNによってサンプル構造データに対応する構造特徴表現およびノード特徴表現に対してフィルタリングを行って、複数の周波数帯域に対応する中間特徴データが得られ、中間特徴データをクラスタリングすることによって隠れ層特徴表現が得られ、すなわち、ウェーブレット変換によってグラフ圧縮符号化の過程を実現し、特徴に対してマルチスケール細分化を行うことによって、特徴に対するマルチ周波数帯域化を達成し、特徴を複数の周波数帯域にそれぞれ対応する特徴細部にフォーカスすることにより、生成される再構築構造データの多様性を保証した。同時に、グラフ構造のデータを用いて符号化予測過程を実現することによって、構造の再構築のためのデータの精度需要を保証した。
【0096】
図7は、本願の1つの実施例に係るデコーダの訓練方法を示し、本願の実施例では、訓練ネットワークにおけるデコーダ部分を説明し、ここで、ステップ701~ステップ703(ステップ7031とステップ7032を含む)は、ステップ403の後に実現され、当該方法は、以下のステップを含む。
【0097】
ステップ701において、訓練待ちデコーダによって隠れ層特徴表現に対して構造の再構築を行って、復号化構造特徴表現および復号化ノード特徴表現を取得する。
【0098】
本願の実施例では、隠れ層特徴表現Zは、訓練待ちデコーダの入力であり、訓練待ちデコーダは、復号化過程においてノード間にエッジが存在する確率に従って復号化構造特徴表現および復号化ノード特徴表現を再構築し、ここで、デコーダに対応する確率モデルは、式5に示す通りであり、ここで、Nは、ノードの数量であり、zおよびzjは、それぞれ隠れ層特徴表現におけるノードである。
【0099】
【数5】
【0100】
ここで、上記式5におけるp(Ai,j|z,zj)は、式6によって得られ、ここで、sigmoid()は、活性化関数(S型成長曲線)を表し、
は、zに対して転置操作を行うことを表す。以上で使用されるsigmoid活性化関数は、例示的なものに過ぎず、実際の応用において、他の活性化関数であってもよく、ここではこれを限定しない。
【0101】
【数6】
【0102】
上記式5および式6から分かるように、得られた
は、式7に示す通りであり、ここで、Zは、隠れ層特徴表現であり、σ()は、上記sigmoid()と同様に活性化関数である。
【0103】
【数7】
【0104】
本願の実施例では、訓練待ちデコーダは、ウェーブレット基底に対する逆変換理論に従って予測構造データを再構築して、復号化構造特徴表現および復号化ノード特徴表現を得る。ここで、上記ウェーブレット逆変換によって構造の再構築を完成する過程は、他の一部の高周波基底関数、例えばハイパスフィルタリング関数、母関数を持たない任意のウェーブレット基底などに普及することもできる。
【0105】
復号化過程において、ウェーブレット変換過程におけるスケールを離散化させる必要があり、一例では、カーネル関数gの逆変換表現をg-1と定義し、a=1での逆関数
、a=2での逆関数
、a=3での逆関数
をそれぞれ対応的に求め、ここで、上記aは、ウェーブレット基底関数におけるスケールである。その後、3つの逆関数に対して3次テイラー展開を行うことによって、逆表現係数を得る。ここで、上記スケールの分割(すなわち、a=1、2、3)は、例示的なものに過ぎず、実際の応用において、異なる方式でスケール分割を行ってもよく、ここではこれを限定しない。上記逆表現係数によって隠れ層特徴表現を畳み込むことによって、復号化構造特徴表現および復号化ノード特徴表現を得る。
【0106】
ステップ702において、復号化構造特徴表現および復号化ノード特徴表現に基づいて、予測構造データを生成する。
【0107】
例示的に、復号化構造特徴表現を得ると、予測構造データにおけるノード間の接続関係を知ることができ、復号化ノード特徴表現を得ると、予測構造データにおけるノードを知ることができ、ノードおよびノード間の接続関係に基づいて対応するグラフ構造の予測構造データを得ることができる。当該予測構造データは、訓練の出力結果として訓練モデルの訓練過程に参与するためのものである。
【0108】
一例では、復号化構造特徴表現は、復号化によって得られる隣接行列として実現され、復号化ノード特徴表現は、復号化によって得られるノード行列として実現され、ここで、上記隣接行列は、ノード間の隣接関係を表すための行列であり、ノード行列は、予測された構造データにおける各ノードに対応するノードタイプを指示するためのものである。隣接行列における第i行第j列の行列要素は、i番目のノードとj番目のノードとの間の接続状況を表し、例えば、上記第i行第j列の行列要素が0である場合、i番目のノードとj番目のノードとの間にエッジが存在しないことを表す。上記隣接行列に基づいて、ノード行列における各ノード間の接続状況を確定し、さらに予測構造データを生成することができる。
【0109】
ステップ7031において、サンプル構造データと予測構造データとの間の訓練損失値と指定損失閾値とのマッチングが失敗したことに応答して、訓練モデルのモデルパラメータを反復訓練する。
【0110】
例示的に、サンプル構造データと予測構造データとの間の構造差異状況に基づいて、訓練損失値を得る。本願の実施例では、訓練過程において、生成された予測構造データと原始入力されたサンプル構造データとの間の距離メトリックおよびノード分布とガウス分布との間のダイバージェンスの双方に基づいて訓練損失値を確定し、すなわち、特徴空間におけるサンプル構造データおよび予測構造データの距離メトリックデータを取得し、予測構造データに対応するノード分布と指定データ分布との間のダイバージェンスデータを取得し、ノード分布は、特徴空間における予測構造データのノード特徴ベクトルの分布状況を指示するためのものであり、ダイバージェンスデータは、ノード分布と前記指定データ分布との間の相違度を指示するためのものであり、距離メトリックデータおよびダイバージェンスデータに基づいて訓練損失値を得る。すなわち、特徴空間におけるサンプル構造データと予測構造データとの距離メトリックデータに基づいて両者の間の特徴類似度を指示し、予測構造データのノード分布と指定データ分布との間のダイバージェンスに基づいてモデル訓練に用いられる訓練損失値を共同で確定することにより、特徴差異とノード分布との2つの角度からモデル訓練を行い、訓練過程においてモデルによる構造データの予測正確度を向上させるとともに、ノード分布をできるだけ指定データ分布にフィッティングさせ、下流で指定データ分布をサンプリングして対応する再構築構造データを生成することにより、生成される構造データの多様性を向上させる。
【0111】
ここで、訓練損失値は、指定損失関数によって算出されたものであり、好ましくは、当該指定損失関数は、平均絶対誤差損失関数、負の対数尤度損失、指数損失、交差エントロピー損失関数およびその変形体などの損失関数であってもよい。
【0112】
好ましくは、上記距離メトリックデータは、特徴空間におけるサンプル構造データおよび予測構造データのユークリッド距離、ハミング距離、コサイン類似度、マンハッタン距離、チェビシェフ距離などであってもよく、ここではこれを限定しない。
【0113】
一例では、訓練損失値を確定するための指定損失関数は、式8に示す通りであり、ここで、
は、構造特徴とノード特徴との間の交差エントロピー損失関数であり、p(Z)は、式9に示す通りであり、KL()は、相対エントロピー(Kullback-Leibler)ダイバージェンス関数である。
【0114】
【数8】
【数9】
【0115】
例示的に、算出された訓練損失値と予め設定された指定損失閾値とのマッチングが失敗した場合、訓練モデルにおけるモデルパラメータを調整して全体のモデルを訓練することにより、訓練待ちデコーダがモデルの収束に伴って収束する。ここで、上記訓練モデルのパラメータは、エンコーダのモデルパラメータおよびデコーダのモデルパラメータを含む。
【0116】
ステップ7032において、サンプル構造データと予測構造データとの間の訓練損失値が指定損失閾値に達したことに応答して、予測モデルを得る。
【0117】
指定損失関数によって得られた訓練損失値が指定損失閾値に達すると、全体の訓練モデルの訓練が完了したと確定し、すなわち、予測モデルが得られ、ここで、当該予測モデルにおけるデコーダ部分は、指定デコーダに対応する。一例では、訓練過程において出力すべき予測構造データが入力されたサンプル構造データにできるだけ近い必要があるため、サンプル構造データと予測構造データとの間の訓練損失値が指定損失閾値より小さいことに応答して、訓練モデルの訓練が完了したと確定し、予測モデルを得る。
【0118】
好ましくは、訓練して得た予測モデルは、サーバに記憶され、端末が生成要求に応じて呼び出すようにしてもよく、すなわち、端末は、生成要求をサーバに送信し、サーバは、予測モデルを呼び出して再構築構造データを生成して、生成した再構築構造データを端末に返信する。あるいは、訓練して得た予測モデルは、サーバが端末に送信し、端末が当該予測モデルを使用して再構築構造データを生成するようにしてもよい。
【0119】
好ましくは、応用過程において、完全な予測モデルによって再構築構造データの生成を行うことができ、例示的に、候補構造データを予測モデルに入力し、予測モデルが符号化することによって隠れ層特徴表現が得られ、さらに復号化により構造の再構築を行うことによって、候補構造データと構造類似関係を有する再構築構造データが得られ、当該方法は、指定構造と強い類似性を有する構造データを生成する必要があるシーンに応用することができる。あるいは、応用過程において、予測モデルにおける指定デコーダのみによって再構築構造データの生成を行ってもよい。すなわち、指定データ分布の候補データをサンプリングすることによってサンプリングデータが得られて、サンプリングデータを指定デコーダの入力とし、指定デコーダがサンプリングデータに基づいて構造の再構築を行うことによって、対応する再構築構造データを得る。当該方法は、性質が未知の再構築構造データを生成する必要がある応用シーンに応用可能であり、生成される構造の合理性を保証しつつ、生成される構造の多様性を向上させることができる。
【0120】
以上のように、本願の実施例に係るデコーダの訓練方法は、デコーダによって取得された隠れ層特徴表現に対して構造の再構築を行って対応する予測構造データが得られ、予測構造データとサンプル構造データとの間の差異によって全体の訓練モデルを訓練することによって、デコーダの訓練過程を実現する。ここで、デコーダは、ウェーブレット変換の逆変換過程に従って隠れ層で圧縮および削減された高周波特性を復元することにより、高周波信号の再構築およびノイズ除去の作用を実現し、GCNを用いてフィルタリングした後にGCNをそのまま用いて再構築を行うことに起因してデータが2次平滑化されると、精度蓄積効果(最終精度がモデル予測精度のN乗に比例する)があり、すなわち、予測精度が符号化過程において低下した後に復号化過程においてさらに低下することにより、生成される構造データの多様性が低くなり、生成率が低いという問題を解決し、応用過程におけるデコーダの再構築結果の精度を向上させた。
【0121】
例示的に、上記デコーダの訓練方法を化学分子の生成シーンに応用し、原子種別の再構築によって新たな化学分子を得る場合、隠れ層で圧縮および削減された高周波特性を復元し、直接的にGCNによって再構築過程を完成する方法に比べて、本願に係る方法に対応する再構築二乗平均平方根誤差(Root Mean Squared Error、RMSE)は約10%低減することができ、原子種別およびグラフ構造の予測の双方によって再構築精度を保証し、すなわち、新たな化学分子を生成する性質の安定性を大幅に向上させることができ、新たな化学分子を生成する有効性を保証することができる。
【0122】
図8は、本願の1つの実施例に係る構造データの生成方法を示し、訓練して得た予測モデルの応用を模式的に説明し、本願の実施例では、訓練して得た予測モデルによって再構築構造データの生成を完了する。当該方法は、以下のステップを含む。
【0123】
ステップ801において、候補構造データの候補構造特徴表現および候補ノード特徴表現を取得する。
【0124】
例示的に、上記候補構造データは、類似構造データの生成を待つデータであり、当該候補構造データは、データ構造がグラフ構造であるデータであり、すなわち、候補構造データは、少なくとも2つのノードおよび少なくとも1つのエッジからなるデータである。好ましくは、上記グラフ構造は、無向グラフ、有向グラフ、無向完全グラフ、有向完全グラフなどのうちのいずれかのグラフ構造であってよく、具体的なグラフ構造は、候補構造データに対応するデータ情報に基づいて確定することができる。
【0125】
一例では、予測モデルが化学分子の生成に用いられることを例として、上記候補構造データは、候補化学分子に対応しており、ここで、分子における原子は、グラフにおけるノードであり、原子間の化学結合は、グラフにおけるエッジである。例示的に、候補化学分子の化学構造に基づいて対応する候補分子グラフを生成し、当該候補分子グラフを候補構造データとして、候補分子グラフに基づいて候補構造特徴表現および候補ノード特徴表現を得ることができ、ここで、候補構造特徴表現は、候補化学分子における原子間の接続状況を記録する隣接行列であり、候補ノード特徴表現は、候補化学分子における各原子を構成する原子型を記録する行列である。
【0126】
ステップ802において、候補構造特徴表現および候補ノード特徴表現に基づいて、候補隠れ層特徴表現を生成する。
【0127】
例示的に、予測モデルにおける指定エンコーダによって候補構造特徴表現および候補ノード特徴表現を符号化して中間符号化データが得られ、中間符号化データによってクラスタリングして候補隠れ層特徴表現を得る。本願の実施例では、当該中間符号化データは、指定エンコーダが符号化して得た特徴によって中間計算を行うことによって得られるデータであり、すなわち、中間計算によって得られるデータは、平均値および分散である。
【0128】
候補構造特徴表現および候補ノード特徴表現に基づいて、少なくとも2つの周波数帯域のそれぞれに対応する特徴空間における候補構造データのノードのノード特徴ベクトルを取得し、少なくとも2つの周波数帯域に対応するノード特徴ベクトルの間の平均値データおよび分散データを取得して、平均値データおよび分散データを中間符号化データとして確定する。平均値データおよび分散データを確定した後、リパラメタライゼーショントリックを用いて計算することによって隠れ層特徴表現が得られ、具体的な確定過程は、ステップ402~403と同様であり、本実施例では応用段階のデータ処理過程であるので、ここではその説明を省略する。
【0129】
ステップ803において、候補隠れ層特徴表現を指定デコーダに入力して予測を行うことによって、再構築構造データを得る。
【0130】
上記再構築構造データと候補構造データとの間には構造性質類似関係が存在する。
【0131】
例示的に、候補隠れ層特徴表現を指定デコーダに入力し、指定デコーダが候補隠れ層特徴表現に基づいて構造の再構築を行うことによって、再構築の構造特徴表現および再構築のノード特徴表現を得ることができ、再構築の構造特徴表現および再構築のノード特徴表現に基づいて再構築構造データが得られる。具体的には、候補構造データが候補化学分子に対応する候補分子グラフであることを例として、予測して得た再構築構造データが候補分子構造であり、当該候補分子構造は、入力された候補化学分子と化学性質が類似しており、インテリジェント医薬シーンに対応的に応用した場合、候補分子構造と入力された候補化学分子との間では、薬性が類似する場合があり、これにより、代用薬の検討や薬物の最適化の研究過程を支援する。
【0132】
以上のように、本願の実施例に係る構造データの生成方法は、訓練して得た完全な予測モデルによって、入力された候補構造データに対して符号化および再構築を行うことによって、構造性質類似関係を有する新たな構造データを生成し、ここで、予測モデルは、ウェーブレット符号化および復号化を採用したモデルであるので、高周波信号の再構築およびノイズ除去の作用を果たし、再構築によって得られた再構築構造データの精度を向上させ、入力と出力の構造データの間の構造性質類似性を保証し、類似構造データの生成に応用することができる。
【0133】
図9は、本願の1つの実施例に係る構造データの生成方法を示すものであり、訓練して得た指定デコーダの応用を模式的に説明する。本願の実施例では、訓練して得た指定デコーダによって再構築構造データの生成を完成し、当該方法は、以下のステップを含む。
【0134】
ステップ901において、指定データ分布の候補データを取得する。
【0135】
本願の実施例では、予測モデルの訓練が完了した後、予測モデルにおける指定デコーダを分離して、再構築構造データを生成するためのモデルとして応用する。上記指定データ分布は、ガウス分布であってもよく、候補データは、端末から入力されたカスタム候補データであってもよく、予測モデルが収束するまで訓練された後、構造生成タスクに対応する構造性質の曲線データであってもよく、上記構造生成タスクは、予測モデルに対応するタスクであり、すなわち、上記曲線データは、訓練セットにおけるサンプル構造データを学習して得られたデータである。幾つかの実施例では、上記候補データは、入力した候補構造データを符号化して平均値データおよび分散データを得た後に生成された候補データであってもよい。
【0136】
ステップ902において、候補データからサンプリングして予め設定された数のサンプリングデータを得る。
【0137】
例示的に、候補データをランダムサンプリングして予め設定された数のサンプリングデータを取得し、ここで、上記予め設定された数は、端末が指示した、指定デコーダによって生成する必要がある再構築構造データの数量である。上記サンプリングして得たサンプリングデータは、生成すべき再構築構造データにおけるノードおよびエッジの間の隠れ層表現を指示するためのものであり、ここで、各サンプリングデータにおける対応するノードの数量は、ランダムに生成されたものであってもよく、指定されたものであってもよく、予め設定された数のサンプリングデータ間のノードの数量は、同じであってもよく、異なってもよい。一例では、式10によってサンプリングして指定デコーダに入力されるサンプリングデータZを取得し、ここで、N(0,I)は、正規分布に従う候補データを表す。
【0138】
【数10】
【0139】
ステップ903において、予め設定された数のサンプリングデータを指定デコーダに入力して、予め設定された数の再構築構造データを得る。
【0140】
サンプリングして得たサンプリングデータZが指定デコーダに入力されると、指定デコーダは、サンプリングデータに基づいてノード予測を行い、かつノード間にエッジが存在する確率に従って再構築構造データに対応する構造特徴表現およびノード特徴表現を再構築し、構造特徴表現およびノード特徴表現によって再構築構造データを得る。
【0141】
一例では、指定デコーダが化学分子の生成に用いられることを例とし、すなわち、指定デコーダによって候補分子構造を生成し、ここで、候補分子構造は、少なくとも2つの原子ノードから構造され、例示的に、予め設定された数のサンプリングデータを指定デコーダに入力し、指定デコーダが訓練中に学習した分子構造における原子ノード間の接続関係に基づいて予め設定された数の候補分子構造を得る。すなわち、当該指定デコーダは、サンプリングデータに基づいて化学規則を満足する候補分子構造を生成することができる。上記生成した予め設定された数の分子構造は、一定の有効性を有し、すなわち、化学規則下でその分子構造が有効であり、さらにリード化合物の生成を支援する。
【0142】
以上のように、本願の実施例に係る構造データの生成方法は、指定データ分布の候補データからサンプリングして一定数のサンプリングデータが得られ、サンプリングデータを指定デコーダに入力して構造の再構築を行うことにより、一定の有効性を有する再構築構造データを得るとともに、生成した再構築構造データの多様性を向上させた。
【0143】
例示的に、本願の実施例に係る構造データの生成方法を公開のデータセットZINCに応用してテストを行い、訓練によって指定デコーダを得て、指定デコーダによって新たな化学分子の生成を行い、ここで、新たな化学分子の生成過程において、正規分布のデータN(0,I)に対して104回のランダムサンプリングを行い、サンプリング結果を訓練して得た指定デコーダに入力して、新たに生成した104個の化学分子が得られ、得られた新たな化学分子を、オープンソースプラットフォームrdkitによって検証した結果、新たな化学分子は、有効性が保証された前提で、高い唯一性(Uniqueness)と新規性(Novelty)も備えており、その中でも、有効性が98.0%となり、唯一性が99.1%となり、新規性が96.5%となり、唯一性および新規性が高ければ高いほど、分子の生成の多様性が高くなり、全体としてみられるように、生成した分子の多様性が向上したため、生成空間を大きくすることができる。
【0144】
注意すべきことは、本願の以上の実施例が具体的な製品または技術に応用される場合、ユーザデータ(例えば、方法が推薦システムに応用される)に係わっている場合、そのデータの取得には、ユーザの許可または同意を得る必要があり、同時に、化合物の研究およびデータの使用と処理に関して、いずれも関係国家および地区の関連法規制および標準を遵守する必要がある。
【0145】
図10は、本願の1つの例示的な実施例に係る構造データの生成装置の構造を示すブロック図である。当該装置は、
サンプル構造データの構造特徴表現およびノード特徴表現を取得するための取得モジュールであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成する前記ノードに対応するノードタイプを指示するためのものである取得モジュール1010と、
前記構造特徴表現および前記ノード特徴表現に基づいて、隠れ層特徴表現を生成するための符号化モジュールであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域での前記サンプル構造データにおけるノード間の結合状況を指示するためのものである符号化モジュール1020と、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るための復号化モジュール1030と、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得るための訓練モジュールであって、前記指定デコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータである訓練モジュール1040と、を含む。
【0146】
幾つかの選択可能な実施例では、図11に示すように、前記符号化モジュール1020は、
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化して中間特徴データを得るためのものであって、前記中間特徴データは、対応する周波数帯域での前記サンプル構造データのノード間の結合状況を指示するためのものである符号化ユニット1021と、
前記指定データ分布に基づいて、前記少なくとも2つの周波数帯域にそれぞれ対応する前記中間特徴データをクラスタリングして前記隠れ層特徴表現を得るためのものであって、前記候補データは、前記指定データ分布を満足するデータであるクラスタリングユニット1022と、をさらに含む。
【0147】
幾つかの選択可能な実施例では、前記符号化ユニット1021は、さらに前記構造特徴表現および前記ノード特徴表現を訓練待ちエンコーダに入力するためにも用いられ、前記訓練待ちエンコーダは、前記構造特徴表現および前記ノード特徴表現を既知の条件とする場合、予測ノードセットにおける第i予測ノードが前記予測ノードセットにおける各予測ノードと接続関係を確立する接続確率を確定するとともに、前記第i予測ノードと前記各予測ノードとの間の前記接続確率に基づいて前記第i予測ノードに対応する接続確率分布を確定し、前記予測ノードセットにおける全ての予測ノードの接続確率分布の融合結果に基づいて前記少なくとも2つの周波数帯域のそれぞれに対応する前記中間特徴データを確定し、前記予測ノードは、前記予測構造データを構築するためのものであり、iは、正の整数である。
【0148】
幾つかの選択可能な実施例では、前記符号化ユニット1021は、さらに前記構造特徴表現および前記ノード特徴表現に基づいて、前記少なくとも2つの周波数帯域にそれぞれ対応する特徴空間における前記サンプル構造データのノードのノード特徴ベクトルを取得し、前記少なくとも2つの周波数帯域に対応する前記ノード特徴ベクトルの間の平均値データおよび分散データを取得し、前記平均値データおよび前記分散データを前記中間特徴データとして確定するためにも用いられる。
【0149】
幾つかの選択可能な実施例では、前記復号化モジュール1030は、
前記訓練待ちデコーダによって前記隠れ層特徴表現に対して構造の再構築を行うことによって、復号化構造特徴表現および復号化ノード特徴表現を取得するための再構築ユニット1031と、
前記復号化構造特徴表現および前記復号化ノード特徴表現に基づいて前記予測構造データを生成するための生成ユニット1032と、をさらに含む。
【0150】
幾つかの選択可能な実施例では、前記装置は、
前記サンプル構造データと前記予測構造データとの構造差異状況に基づいて訓練損失値が得られ、前記訓練損失値が指定損失閾値に達したことに応答して、前記訓練待ちデコーダの訓練が完了したと確定して、前記指定デコーダが得られ、または、前記訓練損失値と前記指定損失閾値とのマッチングが失敗したことに応答して、前記訓練待ちデコーダのモデルパラメータを反復訓練するための訓練モジュール1040をさらに含む。
【0151】
幾つかの選択可能な実施例では、前記訓練モジュール1040は、
特徴空間における前記サンプル構造データおよび前記予測構造データの距離メトリックデータを取得するための取得ユニット1041と、
前記距離メトリックデータおよび前記ダイバージェンスデータに基づいて前記訓練損失値を得るための確定ユニット1042と、をさらに含む。
【0152】
前記取得ユニット1041は、さらに前記予測構造データに対応するノード分布と前記指定データ分布との間のダイバージェンスデータを取得するためにも用いられ、前記ノード分布は、前記特徴空間における前記予測構造データのノード特徴ベクトルの分布状況を指示するためのものである。
【0153】
幾つかの選択可能な実施例では、前記取得モジュール1010は、さらに候補構造データの候補構造特徴表現および候補ノード特徴表現を取得するためにも用いられ、
前記符号化モジュール1020は、さらに前記候補構造特徴表現および前記候補ノード特徴表現に基づいて候補隠れ層特徴表現を生成するためにも用いられ、
前記復号化モジュール1030は、さらに前記候補隠れ層特徴表現を前記指定デコーダに入力して予測することによって前記再構築構造データを得るためにも用いられ、前記再構築構造データと前記候補構造データとの間に構造性質類似関係がある。
【0154】
幾つかの選択可能な実施例では、前記装置は、
前記指定データ分布の候補データを取得し、前記候補データからサンプリングして予め設定された数のサンプリングデータを取得するためのサンプリングモジュール1050をさらに含む。
【0155】
前記復号化モジュール1030は、さらに前記予め設定された数のサンプリングデータを前記指定デコーダに入力して、前記予め設定された数の前記再構築構造データを得るためにも用いられる。
【0156】
幾つかの選択可能な実施例では、前記指定デコーダは、少なくとも2つの原子ノードで構成される候補分子構造を生成するために用いられ、
前記復号化モジュール1030は、さらに前記予め設定された数のサンプリングデータを前記指定デコーダに入力し、前記指定デコーダによって訓練中に学習された分子構造における原子ノード間の接続関係に基づいて前記予め設定された数の候補分子構造を得るためにも用いられる。
【0157】
幾つかの選択可能な実施例では、訓練して得た前記指定デコーダが分子構造の生成に用いられる場合、前記取得モデル1010は、さらに、原子結合基準を満足する既知の分子であって少なくとも2つの原子で構成されるサンプル化学分子を取得し、前記サンプル化学分子をデータ構造がグラフ構造であるサンプル分子グラフに変換し、前記サンプル分子グラフのノードは、前記サンプル化学分子における前記少なくとも2つの原子を表すためのものであり、前記サンプル分子グラフにおけるエッジは、前記サンプル化学分子における原子間の化学結合を表すものであり、前記サンプル分子グラフに対応する隣接行列を前記構造特徴表現として確定し、前記サンプル分子グラフに対応するノード行列を前記ノード特徴表現として確定するためにも用いられる。
【0158】
以上のように、本願の実施例に係る構造データの生成装置は、サンプル構造データに対応する構造特徴表現およびノード特徴表現によって隠れ層特徴表現を得た後、当該隠れ層特徴表現によって訓練待ちデコーダに対して反復訓練を行って指定デコーダを得ることにより、当該指定デコーダは、入力されたサンプリングデータによって構造データを生成することができ、すなわち、必要に応じて、訓練して得た指定デコーダによって多様な構造データを迅速に生成することができ、構造データの生成効率および生成の多様性を向上させることができる。
【0159】
なお、上記の実施例に係る構造データの生成装置は、上記の各機能モジュールの分割を例として説明したが、実際の応用において、必要に応じて、上記機能を異なる機能モジュールに割り当てて完成させることができ、すなわち、機器の内部構造を異なる機能モジュールに分割して、上記の全部または一部の機能を完成させることができる。また、上記の実施例に係る構造データの生成装置は、構造データの生成方法の実施例と同一の構想に属し、その具体的な実現過程は、方法の実施例を参照することができるので、ここでは説明を省略する。
【0160】
図12は、本願の1つの例示的な実施例に係るサーバの構造を示す図である。具体的には、以下のような構造を含む。
【0161】
サーバ1200は、CPU(Central Processing Unit、中央処理ユニット)1201と、RAM(Random Access Memory、ランダムアクセスメモリー)1202およびROM(Read Only Memory、リードオンリーメモリー)1203を含むシステムメモリ1204と、システムメモリ1204とCPU1201とを接続するシステムバス1205とを含む。サーバ1200は、オペレーティングシステム1213、アプリケーションプログラム1214および他のプログラムモジュール1215を記憶するための大容量記憶装置1206をさらに含む。
【0162】
大容量記憶装置1206は、システムバス1205に接続される大容量記憶コントローラ(図示せず)を介してCPU1201に接続されている。大容量記憶装置1206およびそれと関連するコンピュータ読取可能な媒体は、サーバ1200に対して不揮発性記憶を提供する。
【0163】
一般性を失うことなく、コンピュータ読取可能な媒体は、コンピュータ記憶媒体および通信媒体を含み得る。上記のシステムメモリ1204と大容量記憶装置1206とをまとめてメモリと呼ばれてもよい。
【0164】
本願の様々な実施例によれば、サーバ1200は、システムバス1205に接続されるネットワークインタフェースユニット1211によってネットワーク1212に接続されてもよく、または、ネットワークインタフェースユニット1211を使用することによって他のタイプのネットワークまたはリモートコンピュータシステム(図示せず)に接続されてもよい。
【0165】
上記メモリは、1つまたはそれ以上のプログラムをさらに含み、1つまたはそれ以上のプログラムは、メモリに記憶され、CPUによって実行されるように配置される。
【0166】
本願の実施例は、プロセッサとメモリとを含み、当該メモリには、プロセッサがロードして実行することによって上記の各方法実施例に係る構造データの生成方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶されるコンピュータデバイスをさらに提供する。好ましくは、当該コンピュータデバイスは、端末であってもよいし、サーバであってもよい。
【0167】
本願の実施例は、プロセッサがロードして実行することによって上記の各方法実施例に係る構造データの生成方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶されるコンピュータ読取可能な記憶媒体をさらに提供する。
【0168】
本願の実施例は、コンピュータ読取可能な記憶媒体に記憶されるコンピュータ命令を含むコンピュータプログラム製品またはコンピュータプログラムをさらに提供する。コンピュータデバイスのプロセッサがコンピュータ読取可能な記憶媒体から当該コンピュータ命令を読み取って実行することによって、当該コンピュータデバイスに上記の実施例のいずれかに係る構造データの生成方法を実行させる。
【0169】
好ましくは、当該コンピュータ読取可能な記録媒体は、ROM(Read Only Memory、リードオンリーメモリー)、RAM(Random Access Memory、ランダムアクセスメモリー)、SSD(Solid State Drives、ソリッドステートドライブ)または光ディスク等を含んでもよい。ここで、RAMは、ReRAM(Resistance Random Access Memory、抵抗変化型ランダムアクセスメモリー)およびDRAM(Dynamic Random Access Memory、ダイナミックランダムアクセスメモリー)を含むことができる。上記の本願の実施例の順序番号は、説明のためのものに過ぎず、実施例の優劣を表すものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2024-05-28
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する構造データの生成方法であって、
サンプル構造データの構造特徴表現およびノード特徴表現を取得するステップであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成するノードに対応するノードタイプを指示するためのものであるステップと、
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成するステップであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域で前記サンプル構造データにおけるノード間の結合状況を指示するためのものであるステップと、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るステップと、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得るステップであって、前記指定デコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータであるステップと、を含む、
構造データの生成方法。
【請求項2】
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成する前記ステップは、
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得るステップであって、前記中間特徴データは、対応する周波数帯域での前記サンプル構造データのノード間の結合状況を指示するためのものであるステップと、
指定データ分布に基づいて前記少なくとも2つの周波数帯域にそれぞれ対応する前記中間特徴データをクラスタリングすることによって、前記隠れ層特徴表現を得るステップであって、前記候補データは、前記指定データ分布を満足するデータであるステップと、を含む、
請求項1に記載の方法。
【請求項3】
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得る前記ステップは、
前記構造特徴表現および前記ノード特徴表現を訓練待ちエンコーダに入力し、前記訓練待ちエンコーダは、前記構造特徴表現および前記ノード特徴表現を既知の条件とする場合、予測ノードセットにおける第i予測ノードが前記予測ノードセットにおける各予測ノードと接続関係を確立する接続確率を確定するとともに、前記第i予測ノードと前記各予測ノードとの間の前記接続確率に基づいて前記第i予測ノードに対応する接続確率分布を確定し、前記予測ノードセットにおける全ての予測ノードの接続確率分布の融合結果に基づいて前記少なくとも2つの周波数帯域にそれぞれ対応する前記中間特徴データを確定するステップであって、前記予測ノードは、前記予測構造データを構築するためのものであり、iは、正の整数であるステップを含む、
請求項2に記載の方法。
【請求項4】
前記構造特徴表現および前記ノード特徴表現に基づいて前記少なくとも2つの周波数帯域でそれぞれ符号化することによって、中間特徴データを得る前記ステップは、
前記構造特徴表現および前記ノード特徴表現に基づいて、前記サンプル構造データのノードの前記少なくとも2つの周波数帯域においてそれぞれ対応する特徴空間でのノード特徴ベクトルを取得するステップと、
前記少なくとも2つの周波数帯域に対応する前記ノード特徴ベクトルの間の平均値データおよび分散データを取得するステップと、
前記平均値データおよび前記分散データを前記中間特徴データとして確定するステップと、を含む、
請求項2に記載の方法。
【請求項5】
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得る前記ステップは、
前記訓練待ちデコーダによって前記隠れ層特徴表現に対して構造の再構築を行うことによって、復号化構造特徴表現および復号化ノード特徴表現を取得するステップと、
前記復号化構造特徴表現および前記復号化ノード特徴表現に基づいて前記予測構造データを生成するステップと、を含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項6】
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得る前記ステップは、
前記サンプル構造データと前記予測構造データとの間の構造差異状況に基づいて、訓練損失値を得るステップと、
前記訓練損失値が指定損失閾値に達したことに応答して、前記訓練待ちデコーダの訓練が完成したと確定して、前記指定デコーダが得られ、または
前記訓練損失値と前記指定損失閾値とのマッチングが失敗したことに応答して、前記訓練待ちデコーダのモデルパラメータを反復訓練するステップと、を含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項7】
前記サンプル構造データと前記予測構造データとの間の構造差異状況に基づいて訓練損失値を得る前記ステップは、
特徴空間での前記サンプル構造データと前記予測構造データの距離メトリックデータを取得するステップと、
前記予測構造データに対応するノード分布と前記指定データ分布との間のダイバージェンスデータを取得するステップであって、前記ノード分布は、前記特徴空間での前記予測構造データのノード特徴ベクトルの分布状況を指示するためのものであり、前記ダイバージェンスデータは、前記ノード分布と前記指定データ分布との間の相違度を指示するためのものであるステップと、
前記距離メトリックデータおよび前記ダイバージェンスデータに基づいて前記訓練損失値を得るステップと、を含む、
請求項6に記載の方法。
【請求項8】
候補構造データの候補構造特徴表現および候補ノード特徴表現を取得するステップと、
前記候補構造特徴表現および前記候補ノード特徴表現に基づいて候補隠れ層特徴表現を生成するステップと、
前記候補隠れ層特徴表現を前記指定デコーダに入力して予測することによって、前記再構築構造データを得るステップであって、前記再構築構造データと前記候補構造データとの間に構造性質類似関係があるステップと、をさらに含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項9】
指定データ分布の候補データを取得するステップと、
前記候補データからサンプリングして予め設定された数のサンプリングデータを得るステップと、
前記予め設定された数のサンプリングデータを前記指定デコーダに入力して、前記予め設定された数の前記再構築構造データを得るステップと、をさらに含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項10】
前記指定デコーダは、少なくとも2つの原子ノードで構成される候補分子構造を生成するために用いられ、
前記予め設定された数のサンプリングデータを前記指定デコーダに入力して、前記予め設定された数の前記再構築構造データを得る前記ステップは、
前記予め設定された数のサンプリングデータを前記指定デコーダに入力し、前記指定デコーダが訓練中に学習された分子構造における原子ノード間の接続関係に基づいて前記予め設定された数の候補分子構造を得るステップを含む、
請求項9項に記載の方法。
【請求項11】
訓練して得た前記指定デコーダが分子構造の生成に用いられる場合、前記サンプル構造データの構造特徴表現およびノード特徴表現を取得する前記ステップの前に、
サンプル化学分子を取得するステップであって、前記サンプル化学分子は、原子結合基準を満足する既知の分子であって、少なくとも2つの原子で構成されるステップと、
前記サンプル化学分子をデータ構造がグラフ構造であるサンプル分子グラフに変換するステップであって、前記サンプル分子グラフのノードは、前記サンプル化学分子における前記少なくとも2つの原子を表すためのものであり、前記サンプル分子グラフにおけるエッジは、前記サンプル化学分子における原子間の化学結合を表すものであるステップと、
前記サンプル分子グラフに対応する隣接行列を前記構造特徴表現として確定するステップと、
前記サンプル分子グラフに対応するノード行列を前記ノード特徴表現として確定するステップと、を含む、
請求項1乃至4のいずれか1項に記載の方法。
【請求項12】
サンプル構造データの構造特徴表現およびノード特徴表現を取得するための取得モジュールであって、前記構造特徴表現は、前記サンプル構造データを構成するノード間の接続状況を指示するためのものであり、前記ノード特徴表現は、前記サンプル構造データを構成する前記ノードに対応するノードタイプを指示するためのものである取得モジュールと、
前記構造特徴表現および前記ノード特徴表現に基づいて隠れ層特徴表現を生成するための符号化モジュールであって、前記隠れ層特徴表現は、少なくとも2つの周波数帯域での前記サンプル構造データにおけるノード間の結合状況を指示するためのものである符号化モジュールと、
前記隠れ層特徴表現を訓練待ちデコーダに入力して構造の再構築を行うことによって、予測構造データを得るための復号化モジュールと、
前記予測構造データに基づいて前記訓練待ちデコーダを訓練することによって、指定デコーダを得るための訓練モジュールであって、前記指定デコーダは、入力したサンプリングデータに対して構造の再構築を行って再構築構造データを得るためのものであり、前記サンプリングデータは、候補データをサンプリングして得られたデータである訓練モジュールと、を含む、
構造データの生成装置。
【請求項13】
プロセッサと、メモリーとを含み、
前記メモリーには、前記プロセッサがロードして実行することによって請求項1乃至のいずれか1項に記載の構造データの生成方法を実現する少なくとも1つの命令、少なくとも1つのプログラム、コードセットまたは命令セットが記憶されている、
コンピュータデバイス。
【請求項14】
プロセッサによって実行される場合に請求項1乃至のいずれか1項に記載の構造データの生成方法を実現するコンピュータプログラム。
【国際調査報告】