特開2023-90592 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 延世大学校　産学協力団の特許一覧

特開2023-90592ＯＣＴ－ＧＡＮ（ＮｅｕｒａｌＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）装置及びＯＣＴ－ＧＡＮ方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023090592

(43)【公開日】2023-06-29

(54)【発明の名称】ＯＣＴ－ＧＡＮ（ＮｅｕｒａｌＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）装置及びＯＣＴ－ＧＡＮ方法

(51)【国際特許分類】

G06N 3/04 20230101AFI20230622BHJP

G06N 3/08 20230101ALI20230622BHJP

【ＦＩ】

G06N3/04

G06N3/08

【審査請求】有

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2021215113

(22)【出願日】2021-12-28

(31)【優先権主張番号】10-2021-0181679

(32)【優先日】2021-12-17

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】514274672

【氏名又は名称】延世大学校産学協力団

【氏名又は名称原語表記】ＹＯＮＳＥＩＵＮＩＶＥＲＳＩＴＹ，ＵＮＩＶＥＲＳＩＴＹ－ＩＮＤＵＳＴＲＹＦＯＵＮＤＡＴＩＯＮ（ＵＩＦ）

【住所又は居所原語表記】５０，ＹＯＮＳＥＩ－ＲＯ，ＳＥＯＤＡＥＭＵＮ－ＧＵ，ＳＥＯＵＬ０３７２２，ＲＥＰＵＢＬＩＣＯＦＫＯＲＥＡ

(74)【代理人】

【識別番号】110000051

【氏名又は名称】弁理士法人共生国際特許事務所

(72)【発明者】

【氏名】パク，ノソン

(72)【発明者】

【氏名】キム，ザヨン

(72)【発明者】

【氏名】ジョン，ジンソン

(72)【発明者】

【氏名】リ，ジェフン

(72)【発明者】

【氏名】ヒョン，ジヒョン

(57)【要約】

【課題】ニューラルＯＤＥをベースとして敵対的生成ネットワークモデルを用いて、テーブルデータをさらに合成できるＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク装置及び方法を提供する。
【解決手段】本発明によるＯＣＴ－ＧＡＮ装置は、離散カラム及び連続カラムで構成された表データを前処理する表データ前処理部と、前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプルを生成するＮＯＤＥベースの生成部と、前記前処理された表データのリアルサンプル又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するＮＯＤＥベースの判別部と、を備える。
【選択図】図５

【特許請求の範囲】

【請求項1】

離散カラム及び連続カラムで構成された表データ（ｔａｂｕｌａｒｄａｔａ）を前処理する表データ前処理部と、
前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル（ｆａｋｅｓａｍｐｌｅ）を生成するＮＯＤＥ（ＮｅｕｒａｌＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）ベースの生成部と、
前記前処理された表データのリアルサンプル（ｒｅａｌｓａｍｐｌｅ）又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するＮＯＤＥベースの判別部と、を備えることを特徴とするＯＣＴ－ＧＡＮ（ＮｅｕｒａｌＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）装置。

【請求項2】

前記表データ前処理部は、前記離散カラムにある離散値をワンホットベクトルに変換し、前記連続カラムにある連続値を、モード特定正規化を介して前処理することを特徴とする請求項１に記載のＯＣＴ－ＧＡＮ装置。

【請求項3】

前記表データ前処理部は、前記連続値それぞれにガウシアンミクスチャーを適用し、当該標準偏差で正規化して正規化値及びモード値を生成することを特徴とする請求項２に記載のＯＣＴ－ＧＡＮ装置。

【請求項4】

前記表データ前処理部は、前記ワンホットベクトル、前記正規化値、及び前記モード値を併合し、前記表データにあるローデータ（ｒａｗｄａｔａ）をモードベース情報に変換することを特徴とする請求項３に記載のＯＣＴ－ＧＡＮ装置。

【請求項5】

前記ＮＯＤＥベースの生成部は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得して、前記条件ベクトルと前記ノイズベクトルとを併合して前記フェイクサンプルを生成することを特徴とする請求項１に記載のＯＣＴ－ＧＡＮ装置。

【請求項6】

前記ＮＯＤＥベースの生成部は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング（ｈｏｍｅｏｍｏｒｐｈｉｃｍａｐｐｉｎｇ）を実行し、リアルサンプルの分布に一致する範囲内で前記フェイクサンプルを生成することを特徴とする請求項５に記載のＯＣＴ－ＧＡＮ装置。

【請求項7】

前記ＮＯＤＥベースの判別部は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するＯＤＥ（ＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）演算を介して複数の連続軌跡を生成することを特徴とする請求項１に記載のＯＣＴ－ＧＡＮ装置。

【請求項8】

前記ＮＯＤＥベースの判別部は、前記複数の連続軌跡を併合して併合軌跡（ｈｘ）を生成し、前記併合軌跡を介して前記サンプルをリアル又はフェイクに分類することを特徴とする請求項７に記載のＯＣＴ－ＧＡＮ装置。

【請求項9】

離散カラム及び連続カラムで構成された表データ（ｔａｂｕｌａｒｄａｔａ）を前処理する表データ前処理段階と、
前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル（ｆａｋｅｓａｍｐｌｅ）を生成するＮＯＤＥ（ＮｅｕｒａｌＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）ベースの生成段階と、
前記前処理された表データのリアルサンプル（ｒｅａｌｓａｍｐｌｅ）又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するＮＯＤＥベースの識別段階と、を有することを特徴とするＯＣＴ－ＧＡＮ（ＮｅｕｒａｌＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）方法。

【請求項10】

前記表データ前処理段階は、前記離散カラムにある離散値をワンホットベクトルに変換し、前記連続カラムにある連続値をモード特定正規化を介して前処理する段階を含むことを特徴とする請求項９に記載のＯＣＴ－ＧＡＮ方法。

【請求項11】

前記ＮＯＤＥベースの生成段階は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得し、前記条件ベクトルと前記ノイズベクトルとを併合して前記フェイクサンプルを生成する段階を含むことを特徴とする請求項９に記載のＯＣＴ－ＧＡＮ方法。

【請求項12】

前記ＮＯＤＥベースの生成段階は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング（ｈｏｍｅｏｍｏｒｐｈｉｃｍａｐｐｉｎｇ）を実行し、リアルサンプルの分布に一致される範囲内で前記フェイクサンプルを生成する段階を含むことを特徴とする請求項１１に記載のＯＣＴ－ＧＡＮ方法。

【請求項13】

前記ＮＯＤＥベースの判別段階は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するＯＤＥ（ＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）演算を介して複数の連続軌跡を生成する段階を含むことを特徴とする請求項９に記載のＯＣＴ－ＧＡＮ方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ合成技術に関し、特に、ニューラルＯＤＥをベースとして敵対的生成神経モデルを用いてテーブルデータをさらに合成できるＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク装置及び方法に関する。

【背景技術】

【0002】

多くのウェブベースの応用プログラムは、テーブルデータ（ｔａｂｕｌａｒｄａｔａ）を使用しており、多くのエンタプライズシステムは、関係型データベース管理システム（ｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍ）を使用している。
このような理由で、多くのウェブ指向研究は、テーブルデータに対する多様な作業に集中している。
すなわち、このような作業では、現実的な合成テーブルデータを生成することが非常に重要である。
合成データの活用度が合理的に高いとともに、リアルデータと充分に異なる場合、合成データを学習データとして使用できるようにし、多くのアプリケーションに大きな助けになり得る。

【0003】

生成器（Ｇｅｎｅｒａｔｏｒ）と判別器（Ｄｉｓｃｒｉｍｉｎａｔｏｒ）とで構成された敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、ＧＡＮｓ）は、最も成功的な生成モデルの内の一つに該当する。
ＧＡＮは、イメージとテキストから表に至るまで多様な領域に拡張されている。
最近は、テーブルデータを合成するためにＴＧＡＮという「ｔａｂｕｌａｒＧＡＮ」が紹介された。
ＴＧＡＮは、モデル互換性（ｍｏｄｅｌｃｏｍｐａｔｉｂｉｌｉｔｙ）の側面で、テーブルの生成にあたって既存のＧＡＮの内、最先端の性能を提供することができる。
すなわち、合成（生成された）データで学習された機械学習モデルは、知られていない実際のテスト事例について合理的な正確度を提供することができる。

【0004】

一方、テーブルデータは、不規則な分布と多重様式を有する場合が多く、既存の技術が効果的に動作しないことがある。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】韓国特許出願公開第１０－２０２１－００９８３８１号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明は上記従来の敵対的生成ネットワークにおける問題点に鑑みてなされたものであって、本発明の目的は、ニューラルＯＤＥをベースとして敵対的生成ネットワークモデルを用いて、テーブルデータをさらに合成できるＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク装置及び方法を提供することにある。

【課題を解決するための手段】

【0007】

上記目的を達成するためになされた本発明によるＯＣＴ－ＧＡＮ（ＮｅｕｒａｌＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）装置は、離散カラム及び連続カラムで構成された表データ（ｔａｂｕｌａｒｄａｔａ）を前処理する表データ前処理部と、前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル（ｆａｋｅｓａｍｐｌｅ）を生成するＮＯＤＥ（ＮｅｕｒａｌＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）ベースの生成部と、前記前処理された表データのリアルサンプル（ｒｅａｌｓａｍｐｌｅ）又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するＮＯＤＥベースの判別部と、を備えることを特徴とする。

【0008】

前記表データ前処理部は、前記離散カラムにある離散値を、ワンホットベクトルに変換し、前記連続カラムにある連続値を、モード特定正規化を介して前処理することが好ましい。
前記表データ前処理部は、前記連続値それぞれにガウシアンミクスチャーを適用し、当該標準偏差で正規化して正規化値及びモード値を生成することが好ましい。
前記表データ前処理部は、前記ワンホットベクトル、前記正規化値及び前記モード値を併合して前記表データにあるローデータ（ｒａｗｄａｔａ）をモードベース情報に変換することが好ましい。

【0009】

前記ＮＯＤＥベースの生成部は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得して、前記条件ベクトルと前記ノイズベクトルとを併合し、前記フェイクサンプルを生成することが好ましい。
前記ＮＯＤＥベースの生成部は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング（ｈｏｍｅｏｍｏｒｐｈｉｃｍａｐｐｉｎｇ）を実行し、リアルサンプルの分布に一致される範囲内で前記フェイクサンプルを生成することが好ましい。
前記ＮＯＤＥベースの判別部は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するＯＤＥ（ＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）演算を介して複数の連続軌跡を生成することが好ましい。
前記ＮＯＤＥベースの判別部は、前記複数の連続軌跡を併合して併合軌跡（ｈｘ）を生成し、前記併合軌跡を介して前記サンプルをリアル又はフェイクに分類することが好ましい。

【0010】

上記目的を達成するためになされた本発明によるＯＣＴ－ＧＡＮ（ＮｅｕｒａｌＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）方法は、離散カラム及び連続カラムで構成された表データ（ｔａｂｕｌａｒｄａｔａ）を前処理する表データ前処理段階と、前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル（ｆａｋｅｓａｍｐｌｅ）を生成するＮＯＤＥ（ＮｅｕｒａｌＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）ベースの生成段階と、前記前処理された表データのリアルサンプル（ｒｅａｌｓａｍｐｌｅ）又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するＮＯＤＥベースの識別段階と、を有することを特徴とする。

【0011】

前記表データ前処理段階は、前記離散カラムにある離散値をワンホットベクトルに変換し、前記連続カラムにある連続値をモード特定正規化を介して前処理する段階を含むことが好ましい。
前記ＮＯＤＥベースの生成段階は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得し、前記条件ベクトルと前記ノイズベクトルとを併合して前記フェイクサンプルを生成する段階を含むことが好ましい。
前記ＮＯＤＥベースの生成段階は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング（ｈｏｍｅｏｍｏｒｐｈｉｃｍａｐｐｉｎｇ）を実行し、リアルサンプルの分布に一致される範囲内で前記フェイクサンプルを生成する段階を含むことが好ましい。
前記ＮＯＤＥベースの判別段階は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するＯＤＥ（ＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）演算を介して複数の連続軌跡を生成する段階を含むことが好ましい。

【発明の効果】

【0012】

本発明に係るＯＣＴ－ＧＡＮ装置及びＯＣＴ－ＧＡＮ方法によれば、次の効果を有することができる。
但し、特定の実施形態が次の効果を全て含まなければならないか、又は次の効果のみを含まなければならないという意味ではないので、開示された技術の権利範囲は、これによって制限されるものと理解されてはならない。

【0013】

本発明に係るＯＣＴ－ＧＡＮ装置及びＯＣＴ－ＧＡＮ方法は、ニューラルＯＤＥをベースとして敵対的生成ネットワークモデルを用いてテーブルデータをさらに合成できる。

【図面の簡単な説明】

【0014】

【図1】本発明の実施形態に係るＯＣＴ－ＧＡＮシステムを説明するための図である。

【図2】本発明の実施形態に係るＯＣＴ－ＧＡＮ装置の概略的なシステム構成を示すブロック図である。

【図3】本発明の実施形態に係るＯＣＴ－ＧＡＮ装置の機能的構成を説明するための図である。

【図4】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法を説明するためのフローチャートである。

【図5】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法の細部設計事項を説明する図である。

【図6】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法の細部設計事項を説明するための図である。

【図7】ＮＯＤＥと本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法を説明するための図である。

【図8】本発明の実施形態に係る２段階の接近方法を説明するための図である。

【図9】本発明の実施形態に係るＯＣＴ－ＧＡＮの学習アルゴリズムを説明するための図である。

【図10】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。

【図11】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。

【図12】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。

【図13】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。

【図14】本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。

【発明を実施するための形態】

【0015】

この発明は、下記の研究課題をもって支援を受けて出願された。
〔本発明を支援した国家研究開発事業〕
〔課題固有番号〕１７１１１２６０８２
〔課題番号〕２０２０－０－０１３６１－００２
〔省庁名〕科学技術情報通信部
〔課題管理（専門）機関名〕情報通信企画評価院
〔研究事業名〕情報通信放送革新人材養成（Ｒ＆Ｄ）
〔研究課題名〕人工知能大学院支援（延世大学）
〔貢献率〕１／１
〔課題遂行機関名〕延世大学産学協力団
〔研究期間〕２０２１．０１．０１～２０２１．１２．３１

【0016】

次に、本発明に係るＯＣＴ－ＧＡＮ装置及びＯＣＴ－ＧＡＮ方法を実施するための形態の具体例を図面を参照しながら説明する。

【0017】

本発明に関する説明は、構造的乃至機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明された実施形態により制限されるものと解釈されてはならない。
すなわち、実施形態は、多様な変更が可能であり、様々な形態を有し得るので、本発明の権利範囲は、技術的思想を実現できる均等物を含むものと理解されなければならない。
また、本発明で提示された目的又は効果は、特定の実施形態がこれを全て含まなければならないか、又はそのような効果のみを含まなければならないという意味ではないので、本発明の権利範囲は、これによって制限されるものと理解されてはならない。

【0018】

一方、本明細書で述べられる用語の意味は、次のように理解されなければならない。
「第１」、「第２」等の用語は、一つの構成要素を他の構成要素から区別するためのものであって、これらの用語により権利範囲が限定されてはならない。
例えば、第１構成要素は第２構成要素と名付けられてもよく、同様に第２構成要素も第１構成要素と名付けられてもよい。

【0019】

ある構成要素が他の構成要素に「接続されて」いると言及された場合には、その他の構成要素に直接的に接続されていることもあるが、中間に他の構成要素が存在することもあると理解されなければならない。
反面、ある構成要素が他の構成要素に「直接接続されて」いると言及された場合には、中間に他の構成要素が存在しないものと理解されなければならない。
一方、構成要素間の関係を説明する他の表現、すなわち、「～の間に」と「すぐ～の間に」又は「～に隣り合う」と「～に直接隣り合う」等も同様に解釈されなければならない。

【0020】

単数の表現は、文脈上明らかに異なる意味ではない限り、複数の表現を含むものと理解されなければならず、「含む」又は「有する」等の用語は、実施された特徴、数字、段階、動作、構成要素、部分品、又はこれらを組み合わせたものが存在するということを指定しようとするものであり、一つ又はそれ以上の異なる特徴や数字、段階、動作、構成要素、部分品、又はこれらを組み合わせたものの存在又は付加の可能性を予め排除しないものと理解されなければならない。

【0021】

各段階において、判別符号（例えば、ａ、ｂ、ｃ等）は、説明の便宜のために使用されるものであって、判別符号は各段階の順序を説明するものではなく、各段階は、文脈上明らかに特定の順序を記載しない以上、明記された順序と異なって生じ得る。
すなわち、各段階は、明記された順序と同一に生じることもあり、実質的に同時に行われることもあり、反対の順序通り行われることもある。

【0022】

本発明は、コンピュータが読み取ることができる記録媒体にコンピュータが読み取ることができるコードで実現することができ、コンピュータが読み取ることができる記録媒体は、コンピュータシステムにより読み取られるデータが格納される全ての種類の記録装置を含む。
コンピュータが読み取ることができる記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク（登録商標）、光データ格納装置等がある。
また、コンピュータが読み取ることができる記録媒体は、ネットワークで接続されたコンピュータシステムに分散され、分散方式でコンピュータが読み取ることができるコードが格納されて実行することができる。

【0023】

ここで使用する全ての用語は、異なって定義されない限り、本発明が属する分野で通常の知識を有する者により一般的に理解されることと同じ意味を有する。
一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致するものと解釈されなければならず、本明細書で明らかに定義しない限り、理想的であるか、又は過度に形式的な意味を有するものと解釈できない。

【0024】

ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）は、生成器（ｇｅｎｅｒａｔｏｒ）と判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）の二つのニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）で構成される。
生成器と判別器は、２プレイゼロサム（ｔｗｏ－ｐｌａｙｚｅｒｏ－ｓｕｍ）のゲームを行うことができ、それぞれの平衡状態（ｅｑｕｉｌｉｂｒｉｕｍｓｔａｔｅ）は、理論的に定義される。
ここで、生成器は、最適の生成品質を達成することができ、判別器は、リアルサンプルとフェイクサンプルとの間の区別が不可能なことがある。
ＷＧＡＮとその変形は、これまで提案された多くのＧＡＮの中で、広く使用されている。

【0025】

特に、ＷＧＡＮ－ＧＰは、最も成功的なモデルのうちの一つに該当し得、以下に示す数式１のように表現できる。

【数1】

【0026】

ここで、ｐ_ｚは、事前分布（ｐｒｉｏｒｄｉｓｔｒｉｂｕｔｉｏｎ）であり、ｐ_ｘは、データ分布（ｄｉｓｔｒｉｂｕｔｉｏｎｏｆｄａｔａ）であり、Ｇは、生成関数（ｇｅｎｅｒａｔｏｒｆｕｎｃｔｉｏｎ）であり、Ｄは、判別（又はＷａｓｓｅｒｓｔｅｉｎｃｒｉｔｉｃ）関数（ｄｉｓｃｒｉｍｉｎａｔｏｒｆｕｎｃｔｉｏｎ）であり、

は、Ｇ（ｚ）とｘのランダム加重組み合わせ（ｒａｎｄｏｍｌｙｗｅｉｇｈｔｅｄｃｏｍｂｉｎａｔｉｏｎ）である。
判別器は、生成品質に対するフィードバックを提供することができる。

【0027】

また、ｐ_ｇは、ｐ_ｚの関数Ｇ（ｚ）により誘導されたフェイクデータの分布で定義され、

は、ランダム組み合わせの後に生成された分布で定義される。
一般的に、事前分布ｐ_ｚに対してＮ（０，１）が使用できる。
各作業に特化された多くのＧＡＮモデルは、ＷＧＡＮ－ＧＰフレームワークに基づいて設計される。
判別器と生成器をそれぞれ学習するために、ＷＧＡＮ－ＧＰの損失関数（ｌｏｓｓｆｕｎｃｔｉｏｎ）を表示するＬ_Ｄ及びＬ_Ｇが使用できる。

【0028】

また、条件付きＧＡＮ（ＣｏｎｄｉｔｉｏｎａｌＧＡＮ、ＣＧＡＮ）は、ＧＡＮのよくある変形の内の一つであり得る。
条件付きＧＡＮ体系で、生成器Ｇ（ｚ，ｃ）にはノイズベクトル（ｎｏｉｓｙｖｅｃｔｏｒ）ｚと条件ベクトル（ｃｏｎｄｉｔｉｏｎｖｅｃｔｉｏｎ）ｃが提供される。
そのとき、条件ベクトルは、生成するクラスレーベルを示すワンホットベクトルに該当する。

【0029】

テーブルにある列の結合確率分布（ｊｏｉｎｔｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎ）をモデリングして現実的な合成テーブルを生成するテーブルデータ合成（ｔａｂｕｌａｒｄａｔａｓｙｎｔｈｅｓｉｓ）は、データの類型に応じて多様な方法を含むことができる。
例えば、ベイジアンネットワーク（Ｂａｙｅｓｉａｎｎｅｔｗｏｒｋ）と決定ツリー（ｄｅｃｉｓｉｏｎｔｒｅｅ）は、離散型変数を生成するのに使用することができる。
ガウシアンコピュラ（Ｇａｕｓｓｉａｎｃｏｐｕｌａ）を使用したテーブルの再帰モデリングは、連続型変数を生成するのに使用することができる。
分解のための差分個人情報保護アルゴリズム（ｄｉｆｆｅｒｅｎｔｉａｌｌｙｐｒｉｖａｔｅａｌｇｏｒｉｔｈｍ）は、空間データを合成するのに使用することができる。

【0030】

しかし、このようなモデルが有する分布類型（ｔｙｐｅｏｆｄｉｓｔｒｉｂｕｔｉｏｎ）及び計算問題（ｃｏｍｐｕｔａｔｉｏｎａｌｐｒｏｂｌｅｍ）のような一部の制約条件は、充実した（ｈｉｇｈ－ｆｉｄｅｌｉｔｙ）データ合成を阻害し得る。

【0031】

最近数年で、ＧＡＮをベースとした様々なデータ生成方法が主に医療記録を処理するのに使用されるテーブルデータを合成する方法として紹介されている。
ＲＧＡＮは、連続的な時系列の医療記録を生成する反面、ＭｅｄＧＡＮ及びｃｏｒｒＧＡＮは、個別的な記録を生成することができる。
ＥｈｒＧＡＮは、制限された学習データを補強するために、半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を使用して、そのようなレーベルが指定されたレコードを生成することができる。
ＰＡＴＥ－ＧＡＮは、原本データのプライバシーを脅かさないとともに、合成データを生成することができる。
ＴａｂｌｅＧＡＮは、レーベル列に対する予測正確度を最大化するために、畳み込みネットワークを使用してテーブルデータ合成を改善することができる。

【0032】

ｈ（ｔ）は、ネットワークの時間（又は階層）ｔで隠れベクトル（ｈｉｄｄｅｎｖｅｃｔｏｒ）を出力する関数で定義されることができる。ニューラルＯＤＥ（ＮｅｕｒａｌＯＥＤ、ＮＯＤＥ）でパラメータの集合を含むネットワークｆはθ_ｆで表現することができ、

で近似される。
また、ｈ（ｔ_ｍ）は、

で計算される。
このとき、

である。
すなわち、隠れベクトル進化プロセス（ｈｉｄｄｅｎｖｅｃｔｏｒｅｖｏｌｕｔｉｏｎｐｒｏｃｅｓｓ）の内部力学（ｉｎｔｅｒｎａｌｄｙｎａｍｉｃｓ）は、θ_ｆによりパラメータ化されたＯＤＥシステムで説明することができる。
ＮＯＤＥを使用する場合、ｔを連続的なものと解釈できるが、一般的なネットワークの場合には、離散的である。
従って、ＮＯＤＥでより柔軟な構成が可能であり、本発明で判別器にＯＤＥ階層を適用する主要な理由の内の一つであり得る。

【0033】

積分問題

を解決するために、ＮＯＤＥではＯＤＥソルバー（ＯＤＥｓｏｌｖｅｒ）を介して、積分を一連の足し算に変換できる。
「Ｄｏｒｍａｎｄ－Ｐｒｉｎｃｅ」（ＤＯＰＲＩ）方法は、最も強力な積分器（ｉｎｔｅｇｒａｔｏｒ）の内の一つに該当し、ＮＯＤＥで広く使用される。
ＤＯＰＲＩは、積分問題を解決するとともに、段階の大きさ（ｓｔｅｐｓｉｚｅ）を動的に制御することができる。

【0034】

を積分問題を解決した後、ＯＤＥにより生成されたｔ_０からｔ_ｍまでのマッピング（ｍａｐｐｉｎｇ）で定義される。
φ_ｔは、位相同型マッピング（ｈｏｍｅｏｍｏｒｐｈｉｃｍａｐｐｉｎｇ）になる。
φ_ｔは、連続的であり、全単射（ｂｉｊｅｃｔｉｖｅ）であり、

も全てのｔ∈［０，Ｔ］に対して連続的である。
このとき、Ｔは、時間領域（ｔｉｍｅｄｏｍａｉｎ）の最後の時点である。
当該特性から次のような命題が導出できる。
すなわち、φ_ｔの入力空間のトポロジーは出力空間に保存されるので、互いに交差する軌跡（ｔｒａｊｅｃｔｏｒｙ）は、ＮＯＤＥで示すことができない（図７の（ａ）参照）。

【0035】

ＮＯＤＥは、トポロジーを維持しつつ、機械学習作業を実行し、敵対的攻撃に対する表現学習（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）の堅牢性（ｒｏｂｕｓｔｎｅｓｓ）を増加させる。
逆伝播方法（ｂａｃｋｐｒｏｐａｇａｔｉｏｎｍｅｔｈｏｄ）の代わりに隣接敏感度方法（ａｄｊｏｉｎｔｓｅｎｓｉｔｉｖｉｔｙｍｅｔｈｏｄ）がＮＯＤＥの効率性と理論的正確性を訓練するのに使用できる。

【0036】

作業特化された損失（ｔａｓｋ－ｓｐｅｃｉｆｉｃｌｏｓｓ）Ｌに対して

を定義した後、以下に示す数式２のように他の逆モード積分（ｒｅｖｅｒｓｅ－ｍｏｄｅｉｎｔｅｇｒａｌ）を使用し、損失ｗ．ｒ．ｔモデルのパラメータの勾配（ｇｒａｄｉｅｎｔ）が計算できる。

【数2】

も同様の方式で計算されることができ、ＯＤＥよりも先にレイヤに勾配を逆方向に伝播することができる（もしある場合）。
隣接敏感度方法の空間複雑度（ｓｐａｃｅｃｏｍｐｌｅｘｉｔｙ）は、Ｏ（１）である反面、ＮＯＤＥを学習するために逆伝播を使用することは、ＤＯＰＲＩ段階の数に比例する空間複雑度を有する。
時間複雑度（ｔｉｍｅｃｏｍｐｌｅｘｉｔｙ）は互いに類似するか、隣接敏感度方法が逆伝播方法よりももう少し効率的である。
従って、ＮＯＤＥを効果的に学習させることができる。

【0037】

以下、図１乃至９を参照して、本発明の実施形態に係るＯＣＴ－ＧＡＮ装置及び方法についてより詳しく説明する。
図１は、本発明の実施形態に係るＯＣＴ－ＧＡＮシステムを説明するための図である。

【0038】

図１を参照すると、ＯＣＴ－ＧＡＮシステム１００は、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワークの方法を実行するように実現する。
このため、ＯＣＴ－ＧＡＮシステム１００は、ユーザ端末１１０、ＯＣＴ－ＧＡＮ装置１３０及びデータベース１５０を含む。

【0039】

ユーザ端末１１０は、ユーザにより運用される端末装置に該当する。
例えば、ユーザは、ユーザ端末１１０を介してデータの生成及び学習に関する動作を処理する。
本発明の実施形態において、ユーザは、一つ以上のユーザと理解され、複数のユーザは、一つ以上のユーザグループに区分され得る。

【0040】

また、ユーザ端末１１０は、ＯＣＴ－ＧＡＮシステム１００を構成する一つの装置であって、ＯＣＴ－ＧＡＮ装置１３０と連動して動作するコンピューティング装置に該当する。
例えば、ユーザ端末１１０は、ＯＣＴ－ＧＡＮ装置１３０と接続され、動作可能なスマートフォン、ラップトップ又はコンピュータで実現され得るが、必ずしもこれに限定されるのではなく、タブレットＰＣ等を含めて多様なデバイスでも実現することができる。
また、ユーザ端末１１０は、ＯＣＴ－ＧＡＮ装置１３０と連動するための専用プログラム又はアプリケーション（又はアプリ、ａｐｐ）を設置して実行することができる。

【0041】

ＯＣＴ－ＧＡＮ装置１３０は、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワークの方法を実行するコンピュータ又はプログラムに該当するサーバで実現され得る。
また、ＯＣＴ－ＧＡＮ装置１３０は、ユーザ端末１１０と有線ネットワーク又はブルートゥース（登録商標）、ＷｉＦｉ、ＬＴＥ等のような無線ネットワークで接続され得、ネットワークを介してユーザ端末１１０とデータを送・受信する。
さらに、ＯＣＴ－ＧＡＮ装置１３０は、関連動作を実行するために、独立した外部システム（図１に図示していない）と接続されて動作するように実現される。

【0042】

一方、図５は、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法、すなわち、ＯＣＴ－ＧＡＮ（ＮＯＤＥ－ｂａｓｅｄＣｏｎｄｉｔｉｏｎａｌＴａｂｕｌａｒＧＡＮ）に関する細部設計事項を示している。
すなわち、ＮＯＤＥでネットワークｆは、ｄｈ（ｔ）／ｄｔを近似するために常微分方程式（ｏｒｄｉｎａｒｙｄｉｆｆｅｒｅｎｔｉａｌｅｑｕａｔｉｏｎｓ）システムを学習する。
このとき、ｈ（ｔ）は、時間（又は階層）ｔで隠れベクトルである。
従って、サンプルｘ（すなわち、テーブルの行又はレコード）が与えられると、積分問題、すなわち、

であり、θ_ｆはｆに対して学習するパラメータの集合である。
ＮＯＤＥは、積分問題を足し算の様々な段階に変換し、このような段階、すなわち、｛ｈ（ｔ_０），ｈ（ｔ_１），（ｔ_２），．．．，ｈ（ｔ_ｍ）｝で軌跡を抽出する。
学習可能なＯＤＥが装着された本発明の実施形態に係る判別器は、抽出された進化軌跡（ｅｖｏｌｕｔｉｏｎｔｒａｊｅｃｔｏｒｙ）を使用し、リアルサンプルと合成サンプルを区別する（他のネットワークは、最後の隠れベクトルのみ使用する（例えば、前記の場合、ｈ（ｔ_ｍ））。
本発明に係る軌跡ベースの分類は、判別器に重要な自由（ｎｏｎ－ｔｒｉｖｉａｌｆｒｅｅｄｏｍ）を提供し、生成器によりよいフィードバックを提供する。
本発明に係る方法の追加核心部分は、軌跡を抽出するために全てのｉに対して当該時点ｔ_ｉを決定する方法であり得る。
本発明に係る方法の場合、モデルがデータで学習するようにできる。

【0043】

データベース１５０は、ＯＣＴ－ＧＡＮ装置１３０の動作過程で必要な多様な情報を格納する格納装置に該当する。
例えば、データベース１５０は、学習過程に使用される学習データに関する情報を格納することができ、学習のためのモデルや学習アルゴリズムに関する情報を格納することができるが、必ずしもこれに限定されるわけではなく、ＯＣＴ－ＧＡＮ装置１３０が本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法を実行する過程で、多様な形態で収集又は加工された情報を格納することができる。

【0044】

一方、図１において、データベース１５０はＯＣＴ－ＧＡＮ装置１３０と独立的な装置として示しているが、必ずしもこれに限定されるわけではなく、論理的な格納装置としてＯＣＴ－ＧＡＮ装置１３０に含まれて実現できるのは勿論である。

【0045】

図２は、本発明の実施形態に係るＯＣＴ－ＧＡＮ装置のシステム構成を説明する図である。
図２を参照すると、ＯＣＴ－ＧＡＮ装置１３０は、プロセッサ２１０、メモリ２３０、ユーザ入出力部２５０、及びネットワーク入出力部２７０を含む。

【0046】

プロセッサ２１０は、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワークのプロシージャを実行することができ、このような過程で読まれたり、作成されるメモリ２３０を管理し、メモリ２３０にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。
プロセッサ２１０は、ＯＣＴ－ＧＡＮ装置１３０の動作全般を制御し、メモリ２３０、ユーザ入出力部２５０、及びネットワーク入出力部２７０と電気的に接続され、これらの間のデータフローを制御する。
プロセッサ２１０は、ＯＣＴ－ＧＡＮ装置１３０のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で実現される。

【0047】

メモリ２３０は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）又はＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような不揮発性メモリで実現され、ＯＣＴ－ＧＡＮ装置１３０に必要なデータ全般を格納するのに使用される補助記憶装置を含み、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような揮発性メモリで実現された主記憶装置を含む。
また、メモリ２３０は、電気的に接続されたプロセッサ２１０により実行されることによって、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法を実行するコマンドの集合を格納する。

【0048】

ユーザ入出力部２５０は、ユーザ入力を受信するための環境及びユーザに特定情報を出力するための環境を含み、例えば、タッチパッド、タッチスクリーン、画像キーボード又はポインティング装置のようなアダプタを含む入力装置及びモニター又はタッチスクリーンのようなアダプタを含む出力装置を含み得る。
一実施形態において、ユーザ入出力部２５０は、リモートアクセスを介してアクセスされるコンピューティング装置に該当し、そのような場合、ＯＣＴ－ＧＡＮ装置１３０は、独立的なサーバとして実行され得る。

【0049】

ネットワーク入出力部２７０は、ネットワークを介してユーザ端末１１０と接続されるための通信環境を提供し、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）及びＶＡＮ（ＶａｌｕｅＡｄｄｅｄＮｅｔｗｏｒｋ）などの通信のためのアダプタを含み得る。
また、ネットワーク入出力部２７０は、データの無線送信のためにＷｉＦｉ、ブルートゥース（登録商標）などの近距離通信機能や４Ｇ以上の無線通信機能を提供するように実現される。

【0050】

図３は、本発明の実施形態に係るＯＣＴ－ＧＡＮ装置の機能的構成を説明するための図である。
図３を参照すると、ＯＣＴ－ＧＡＮ装置１３０は、表データ前処理部３１０、ＮＯＤＥベースの生成部３３０、ＮＯＤＥベースの判別部３５０、及び制御部３７０を含む。
ＯＣＴ－ＧＡＮ装置１３０は、ＮＯＤＥベースの生成部３３０とＮＯＤＥベースの判別部３５０に対してＯＤＥ階層を適用する。

【0051】

これを介して、ＯＣＴ－ＧＡＮ装置１３０は、判別部３５０を介して時間（又は階層）ｔをＯＤＥ階層で連続的なものと解釈できる。
また、ＯＣＴ－ＧＡＮ装置１３０は、分類性能を向上させる最適の時点を見つけて軌跡ベースの分類（ｔｒａｊｅｃｔｏｒｙ－ｂａｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎ）を実行することもできる。

【0052】

また、ＯＣＴ－ＧＡＮ装置１３０は、生成部３３０を介してＮＯＤＥの位相同型特性（ｈｏｍｅｏｍｏｒｐｈｉｃｃｈａｒａｃｔｅｒｉｓｔｉｃ）を用いて、初期潜在空間（ｉｎｉｔｉａｌｌａｔｅｎｔｓｐａｃｅ）の（意味論的）トポロジーを維持しつつ、

を他の潜在空間に変換できる。
ｉ）テーブルデータ（ｔａｂｕｌａｒｄａｔａ）は、データの分布が不規則的であり、直接キャプチャーし難いことがあり、
ｉｉ）適切な潜在空間を見付けることによって、生成器がよりよいサンプルを生成することができる点で、ＯＣＴ－ＧＡＮ装置１３０は利点を有する。
また、ＯＣＴ－ＧＡＮ装置１３０は、与えられた固定条件（ｆｉｘｅｄｃｏｎｄｉｔｉｏｎ）でノイズベクトルを補間する作業を円滑に行うことができる。

【0053】

従って、ＯＣＴ－ＧＡＮ装置１３０で実行される全体生成プロセスは、図８のように次の２段階に分離される。
１）（潜在的にリアルデータ分布に近いように）入力空間のトポロジーを維持しつつ、初期の入力空間を他の潜在空間に変換する段階、及び
２）残りの生成プロセスは、リアルデータ分布（ｒｅａｌｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎ）と一致するフェイク分布（ｆａｋｅｄｉｓｔｒｉｂｕｔｉｏｎ）を見付ける段階。

【0054】

表データ前処理部３１０は、離散カラム及び連続カラムで構成された表データ（ｔａｂｕｌａｒｄａｔａ）を前処理する。
より具体的には、表データ（又はテーブルデータ）は、２つの類型のカラムを含む。
すなわち、２つの類型のカラムは、離散カラム（ｄｉｓｃｒｅｔｅｃｏｌｕｍｎ）と連続カラム（ｃｏｎｔｉｎｕｏｕｓｃｏｌｕｍｎ）である。
そのとき、離散カラムは

、連続カラムは

で表現される。

【0055】

一実施形態において、表データ前処理部３１０は、離散カラムにある離散値（ｄｉｓｃｒｅｔｅｖａｌｕｅ）をワンホットベクトル（ｏｎｅ－ｈｏｔｖｅｃｔｏｒ）に変換し、連続カラムにある連続値（ｃｏｎｔｉｎｕｏｕｓｖａｌｕｅ）をモード特定正規化（ｍｏｄｅ－ｓｐｅｃｉｆｉｃｎｏｒｍａｌｉｚａｔｉｏｎ）を介して前処理する。
一方、テーブルデータを生成するＧＡＮは、時々モード崩壊（ｍｏｄｅｃｏｌｌａｐｓｅ）と不規則なデータ分布（ｉｒｒｅｇｕｌａｒｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎ）により、希望の結果を導出し難いことがある。
そのとき、学習前にモードを特定することによって、モード特定正規化が当該問題を緩和することができる。
ｉ番目の原本サンプル（ｒａｗｓａｍｐｌｅ）ｒ_ｉ（表データの行又はレコード）は、

のように表現され、ここで、ｄ_ｉ，ｊ（又はｃ_ｉ，ｊ）は、カラムＤ_ｊ（又はカラムＣ_ｊ）の値である。

【0056】

一実施形態において、表データ前処理部３１０は、次の３段階を介して原本サンプル（ｒａｗｓａｍｐｌｅ）ｒ_ｉはｘ_ｉで前処理される。
特に、表データ前処理部３１０は、連続値のそれぞれにガウシアンミクスチャーを適用し、当該標準偏差で正規化して正規化値及びモード値を生成し、ワンホットベクトル、正規化値、及びモード値を併合して、表データにあるローデータ（ｒａｗｄａｔａ）をモードベース情報に変換する。

【0057】

より具体的には、第１段階で、各離散値

は、ワンホットベクトル

に変換される。
また、第２段階で、変分ガウシアンミクスチャー（ＶａｒｉａｔｉｏｎａｌＧａｕｓｓｉａｎｍｉｘｔｕｒｅ：ＶＧＭ）モデルを介して、各連続カラムＣ_ｊは、ガウシアンミクスチャーに適合（ｆｉｔ）する。
この場合、適合されたガウシアンミクスチャーは、

である。
ここで、ｎ_ｊは、Ｃ_ｊカラムにモードの個数（すなわち、ガウシアン分布の個数）であり、ｗ_ｊ，ｋ、μ_ｊ，ｋ及びσ_ｊ，ｋは、ｋ番目のガウシアン分布の適合加重値（ｆｉｔｔｅｄｗｅｉｇｈｔ）、平均（ｍｅａｎ）及び標準偏差（ｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎ）である。

【0058】

また、第３段階で、

の確率でｃ_ｉ，ｊに対する適切なモードｋがサンプリングできる。
その後、ｃ_ｉ，ｊを適合された標準偏差でモードｋで正規化し、正規化された値α_ｉ，ｊとモード情報β_ｉ，ｊが格納できる。
例えば、４個のモードが存在し、３番目のモードであるｋ＝３を選択した場合、α_ｉ，ｊは

であり、β_ｉ，ｊは［０，０，１，０］である。

【0059】

結果として、ｒ_ｉは、以下に示す数式３のように表現されるｘ_ｉに変換される。

【数3】

【0060】

このとき、ｘ_ｉでｒ_ｉのモードベースの細部情報が特定できる。
ＯＣＴ－ＧＡＮ装置１３０の判別部３５０と生成部３３０は、モードに対する明確性（ｃｌａｒｉｆｉｃａｔｉｏｎ）のためにｒ_ｉの代わりにｘ_ｉを使用する。
しかし、ｘ_ｉは、ガウシアンミクスチャーの適合されたパラメータを使用して生成された後、ｒ_ｉに容易に変更される。

【0061】

ＮＯＤＥベースの生成部３３０は、前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル（ｆａｋｅｓａｍｐｌｅ）を生成する。
すなわち、ＯＣＴ－ＧＡＮ装置１３０は、条件付きＧＡＮを実現することができる。
このとき、条件ベクトルは、

のように定義され、ｃ_ｉは零ベクトルであるか、又はｉ番目の離散カラムの任意のワンホットベクトルである。

【0062】

また、ＮＯＤＥベースの生成部３３０は、ランダムにｓ∈｛１，２，．．．，Ｎ_Ｄ｝を決定することができ、ｃ_ｓのみ任意のワンホットベクトルであり、他の全てのｉ≠ｓに対してｃ_ｉは零ベクトルである。
すなわち、ＮＯＤＥベースの生成部３３０は、ｓ番目の離散カラムで離散値を特定することができる。

【0063】

ＮＯＤＥベースの生成部３３０は、初期入力

が与えられると、ＯＤＥ階層に入力して他の潜在ベクトルに変換できる。
このとき、変形されたベクトルはｚ’で表現される。

【0064】

ＮＯＤＥベースの生成部３３０は、当該変換のために、以下に示す数式４のように表現され、判別器のＯＤＥ階層と独立的なＯＤＥ階層を使用することができる。

【数4】

【0065】

このとき、積分時間（ｉｎｔｅｇｒａｌｔｉｍｅ）は、［０，１］に固定されることができる。
すなわち、

で定義することによって、Ｇを含む［０，ｗ］、ｗ＞０での全てのＯＤＥはｇ’を使用する単位時間積分（ｕｎｉｔ－ｔｉｍｅｉｎｔｅｇｒａｌ）で縮小される。

【0066】

一実施形態において、ＮＯＤＥベースの生成部３３０は、条件ベクトルを条件分布から取得し、ノイズベクトルをガウシアン分布から取得し、条件ベクトルとノイズベクトルとを併合してフェイクサンプルを生成する。
一実施形態において、ＮＯＤＥベースの生成部３３０は、条件ベクトルとノイズベクトルとの併合ベクトルに対する位相同型マッピング（ｈｏｍｅｏｍｏｒｐｈｉｃｍａｐｐｉｎｇ）を実行し、リアルサンプルの分布に一致する範囲内でフェイクサンプルを生成する。

【0067】

まず、ＯＤＥは位相同型マッピングに該当する。
また、ＧＡＮは、一般的に準最適（ｓｕｂ－ｏｐｔｉｍａｌ）と知られているガウシアン分布でサンプリングされたノイズベクトルを使用する。
従って、所定の変換が必要なことがある。

【0068】

グロンウォールの不等式（Ｇｒｏｎｗａｌｌ－Ｂｅｌｌｍａｎｉｎｅｑｕａｌｉｔｙ）は、ＯＤＥφ_ｔと２個の初期状態ｐ_１（０）＝ｘ及びｐ２（０）＝ｘ＋δが与えられると、

を満たす定数τが存在する。
すなわち、小さいδを有する２個の類似する入力ベクトルが

の境界内で互いに近くマッピングされる。

【0069】

また、ＮＯＤＥベースの生成部３３０は、中間時点でｚ’を抽出しないことによって、生成器のＯＤＥを介して位相同型マッピングを学習する。
従って、ＮＯＤＥベースの生成部３３０は、初期入力ベクトル空間のトポロジーを維持する。
初期入力ベクトルｐ（０）は、生成する項目（例えば、条件）に対する重要な情報（ｎｏｎ－ｔｒｉｖｉａｌｉｎｆｏｒｍａｔｉｏｎ）を含むことができるので、ＮＯＤＥベースの生成部３３０は、初期入力ベクトル間の関係を維持しつつ、初期入力ベクトルを生成に適した他の潜在ベクトル空間に変換できる。

【0070】

図８は、
ｉ）ＯＤＥ階層が初期入力分布とリアルデータ分布との間の均衡分布を見付け、
ｉｉ）次の手順でリアルのようなフェイクサンプルを生成する２段階の接近方式の一実施形態を示している。
特に、本発明の実施形態に係る変換は、合成サンプル（ｓｙｎｔｈｅｔｉｃｓａｍｐｌｅ）の補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）を柔らかにすることができる。
すなわち、２個の類似する初期入力が与えられると、２個の類似する合成サンプルが本発明の実施形態に係る生成器により生成される。

【0071】

ＮＯＤＥベースの生成部３３０は、最適の変換学習機能を備えた生成器を実現することができ、以下に示す数式５のように表現され得る。

【数5】

【0072】

ここで、Ｔａｎｈは、双曲線タンジェント（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔ）であり、Ｇｕｍｂｅｌは、ワンホットベクトルを生成するためのガンベルソフトマックス（Ｇｕｍｂｅｌ－ｓｏｆｔｍａｘ）である。

【0073】

ＯＤＥ関数ｇ（ｐ（ｔ），ｔ；θ_ｇ）は、以下に示す数式６のように定義される。

【数6】

ここで、

である。

【0074】

ＮＯＤＥベースの生成部３３０は、離散カラムに離散値を条件として指定する。
従って、

が必要であり、マッチングを適用するために

で表現される交差エントロピー損失（ｃｒｏｓｓｅｎｔｒｏｐｙｌｏｓｓ）が使用できる。
別の例として、ＮＯＤＥベースの生成部３３０は、ｃ_ｓを

にコピーできる。

【0075】

ＮＯＤＥベースの判別部３５０は、前処理された表データのリアルサンプル（ｒｅａｌｓａｍｐｌｅ）又はフェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行する。
すなわち、ＮＯＤＥベースの判別部３５０は、入力サンプルｘがリアルなのか、フェイクなのか予測する際に、ｔ∈［０，ｔ_ｍ］であるｈ（ｔ）の軌跡（ｔｒａｊｅｃｔｏｒｙ）を考慮することができる。

【0076】

ＮＯＤＥベースの判別部３５０は、与えられた（前処理された又は生成された）サンプルｘに対してＤ（ｘ）を出力するＯＤＥベースの判別器で実現され、以下に示す数式７のように表現される。

【数7】

【0077】

ここで、

は、接続演算子（ｃｏｎｃａｔｅｎａｔｉｏｎｏｐｅｒａｔｉｏｒ）であり、Ｌｅａｋｙは「ｌｅａｋｙＲｅＬＵ」であり、Ｄｒｏｐはドロップアウト（ｄｒｏｐｏｕｔ）であり、ＦＣは完全接続階層（Ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）である。

【0078】

ＯＤＥ関数ｆ（ｈ（ｔ），ｔ；θ_ｆ）は、以下に示す数式８のように表現されることができる。

【数8】

ここで、ＢＮはバッチ正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ）であり、ＲｅＬＵは修正された線形ユニット（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）である。

【0079】

一実施形態において、ＮＯＤＥベースの判別部３５０は、入力されたサンプルのフィーチャ抽出を実行し、フィーチャ抽出されたサンプルに対するＯＤＥ（ＯｒｄｉｎａｒｙＤｉｆｆｅｒｅｎｔｉａｌＥｑｕａｔｉｏｎｓ）演算を介して複数の連続軌跡を生成する。

【0080】

ｈ（ｔ）の軌跡（ｔｒａｊｅｃｔｏｒｙ）は、ＮＯＤＥで連続的（ｃｏｎｔｉｎｕｏｕｓ）であり得る。
しかし、ＧＡＮに対する学習過程で連続軌跡を考慮することは難しいことがある。
従って、ｈ（ｔ）の軌跡を離散化（ｄｉｓｃｒｅｔｉｚｅ）するために、ｔ_１、ｔ_２、．．．、ｔ_ｍが学習でき、ｍは、当該モデルでハイパーパラメータに該当する。
また、前記数式７において、ｈ（ｔ_１）、ｈ（ｔ_２）、．．．、ｈ（ｔ_ｍ）は、同一のパラメータθ_ｆを共有することができ、ＯＤＥの単一システムを構成するが、離散化のために分離される。

である場合、全てのｉに対してｔ_ｉを学習させるために、次のグラディエント定義（隣接敏感度方法から派生する）が使用できる。

【0081】

すなわち、ｔｍに対する損失Ｌのグラディエントは、以下に示す数式９のように表現される。

【数9】

【0082】

上記のような理由で、

であり、ｉ＜ｍである。

【0083】

しかし、空間複雑度（ｓｐａｃｅｃｏｍｐｌｅｘｉｔｙ）のために中間隣接状態（ｉｎｔｅｒｍｅｄｉａｔｅａｄｊｏｉｎｔｓｔａｔｅ）を格納し、以下に示す数式１０のように逆モード積分（ｒｅｖｅｒｓｅ－ｍｏｄｅｉｎｔｅｇｒａｌ）でグラディエントを計算する動作は必要ではないことがある。

【数10】

【0084】

ＮＯＤＥベースの判別部３５０は、一つの隣接状態ａ_ｈ（ｔ_ｍ）のみ格納し、両関数ｆ及びａ_ｈ（ｔ）に基づいて

を計算することができる。

【0085】

一実施形態において、ＮＯＤＥベースの判別部３５０は、複数の連続軌跡を併合して併合軌跡（ｈｘ）を生成し、併合軌跡を介してサンプルをリアル又はフェイクに分類できる。
一般的な場合、分類のために最後の隠れベクトルｈ（ｔ_ｍ）を使用する反面、ＮＯＤＥベースの判別部３５０は分類のために全体軌跡を使用する。
最後の隠れベクトルのみ使用する場合、分類に必要な全ての情報が正しくキャプチャーされる必要がある。
しかし、ＮＯＤＥベースの判別部３５０は、２個の類似する最後の隠れベクトルであっても、中間軌跡が少なくともｔ値で異なる場合であれば、容易に区別できる。

【0086】

また、ＮＯＤＥベースの判別部３５０は、軌跡を区別する核心時点（ｋｅｙｔｉｍｅ）を見つけることによって、効率性をさらに向上させるようにｔ_ｉを学習することができる。
一般的なネットワークの場合、当該レイヤの構成が離散的であるため、ｔ_ｉに対する学習が不可能なことがある。
図７の（ｂ）は、学習可能な中間時点を有するＮＯＤＥベースの判別器のみが正しく分類できることを示し、図７の（ｃ）は、ＮＯＤＥの制限された学習表現の問題を解決することができることを示す。

【0087】

より具体的には、図７の（ｂ）で、ｔ_０からｔ_ｍまでの２個の赤／青の軌跡がｔ_ｉの周囲を除いていずれも似ていると仮定すれば、区別される時点を学習するため、本発明に係る軌跡ベースの分類は、これを正確に分類できる。
図７の（ｃ）で、赤色と青色の軌跡は互いに交差せず、ＮＯＤＥにより学習される。
しかし、ｔ_ｉで青色の隠れベクトルとｔ_ｍで赤色の隠れベクトルを使用することによって、相互位置を変更することができ、図７の（ｂ）では不可能なことがある。
従って、ＮＯＤＥを改善するためには、本発明に係る軌跡ベースの分類が必要である。

【0088】

制御部３７０は、ＯＣＴ－ＧＡＮ装置１３０の全体的な動作を制御し、表データ前処理部３１０、ＮＯＤＥベースの生成部３３０、及びＮＯＤＥベースの判別部３５０の間の制御フロー又はデータフローを管理する。

【0089】

図４は、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法を説明するためのフローチャートである。

【0090】

図４を参照すると、ＯＣＴ－ＧＡＮ装置１３０は表データ前処理部３１０を介して、離散カラム及び連続カラムで構成された表データ（ｔａｂｕｌａｒｄａｔａ）を前処理する（段階Ｓ４１０）。
ＯＣＴ－ＧＡＮ装置１３０は、ＮＯＤＥベースの生成部３３０を介して前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル（ｆａｋｅｓａｍｐｌｅ）を生成する（段階Ｓ４５０）。
ＯＣＴ－ＧＡＮ装置１３０は、ＮＯＤＥベースの判別部３５０を介して前処理された表データのリアルサンプル（ｒｅａｌｓａｍｐｌｅ）又はフェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を行う（段階Ｓ４５０）。

【0091】

本発明の実施形態に係るＯＣＴ－ＧＡＮ装置１３０は、Ｌ_{ｍａｔｃｈｉｎｇ}と共に前記の数式１における損失を用いてＯＣＴ－ＧＡＮを学習することができ、当該学習アルゴリズムは図９で示している。
ＯＣＴ－ＧＡＮを学習させるために、リアルテーブルＴ_{ｔｒａｉｎ}と最大のエポック（ｅｐｏｃｈ）ナンバー「ｍａｘ＿ｅｐｏｃｈ」が必要であり得る。
ＯＣＴ－ＧＡＮ装置１３０は、ミニバッチｂを生成した後（図９のライン４）、敵対的訓練（ａｄｖｅｒｓａｒｉａｌｔｒａｉｎｉｎｇ）（図９のライン５及び６）を行った後、隣接敏感度方法（ａｄｊｏｉｎｔｓｅｎｓｉｔｉｖｉｔｙｍｅｔｈｏｄ）（図９のライン７）により計算されたユーザの定義グラディエント（ｃｕｓｔｏｍｇｒａｄｉｅｎｔ）でｔ_ｉを更新する。

【0092】

そのとき、

を算出するための空間複雑度は、Ｏ（１）であり得る。

を算出することは、

の計算（ｃｏｍｐｕｔａｔｉｏｎ）を含む。
ここで、ｔ_０≦ｔ_ｊ＜ｔ_ｉ≦ｔ_ｍである。
ｔ_ｍからｔ_０までの逆モード積分を解く間、ＯＣＴ－ＧＡＮ装置１３０は全てのｉに対して

を検索する。
従って、全てのグラディエントを計算するための空間複雑度は、図９のライン７でＯ（ｍ）であり、本発明の実施形態に係る方法の追加オーバヘッド（ａｄｄｉｔｉｏｎａｌｏｖｅｒｈｅａｄ）に該当する。

【0093】

以下、図１０～１４を参照すると、本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験内容を説明する。
具体的には、尤度推定（ｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎ）、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）、回帰（ｒｅｇｒｅｓｓｉｏｎ）、クラスタリング（ｃｌｕｓｔｅｒｉｎｇ）等に対する実験環境と結果を説明する。

【0094】

図１１及び図１２の場合、全ての尤度推定結果を示している。
ＣＬＢＮ及びＰｒｉｖＢＮは、変動のある性能を示す。
ＣＬＢＮとＰｒｉｖＢＮは、ＲｉｎｇとＡｓｉａでそれぞれよい反面、ＰｒｉｖＢＮはＧｒｉｄとＧｒｉｄｒでよくない性能を示す。
ＴＶＡＥは多くの場合にＰｒ（Ｆ｜Ｓ）に対してよい性能を示す反面、Ｇｒｉｄ及びＩｎｓｕｒａｎｃｅでＰｒ（Ｔ_ｔｅｓｔ｜Ｓ’）に対して他のものよりも相対的に低い性能を示し、これは、モード崩壊（ｍｏｄｅｃｏｌｌａｐｓｅ）を意味する。
同時に、ＴＶＡＥはＧｒｉｄｒに対してよい性能を示す。
大体ＴＶＡＥは、このような実験で合理的な性能を示す。

【0095】

ＯＣＴ－ＧＡＮを除いた多くのＧＡＮモデルの中で、ＴＧＡＮとＴａｂｌｅＧＡＮは適当な性能を示し、他のＧＡＮは劣等な性能を示す。
例えば、Ｐｒ（Ｔ_ｔｅｓｔ｜Ｓ’）に対してＩｎｓｕｒａｎｃｅでＴａｂｌｅＧＡＮの場合－１４．３、ＴＧＡＮの場合－１４．８、ＶＥＥＧＡＮの場合－１８．１である。
しかし、このような全てのモデルは、提案されたＯＣＴ－ＧＡＮよりもはるかに性能に優れ得る。
全ての場合に、ＯＣＴ－ＧＡＮは、最新のＧＡＮモデルであるＴＧＡＮよりもさらによい性能を示す。

【0096】

図１３の場合、分類結果を示している。
ＣＬＢＮとＰｒｉｖＢＮは、模擬データを使用した尤度推定実験が悪くないにもかかわらず、当該実験では適する性能を示さないことがある。
全ての（マクロ）Ｆ－１の点数は、最悪の性能範疇に含まれ得、これは、尤度推定と分類との間の潜在的な本質的差異を証明する。
よい尤度推定を有するデータの合成が必ずしもよい分類を示すことはない。
ＴＶＡＥは多くの場合に適する点数を示す。
しかし、Ｃｒｅｄｉｔでは点数が非常に低いことがある。
これは、尤度推定と分類との間の本質的な差異を証明する。
ＴＧＡＮ及びＯＣＴ－ＧＡＮを除いた多くのＧＡＮモデルは、多くの場合に低い点数を示す（例えば、ＣｅｎｓｕｓでＶＥＥＧＡＮのＦ－１の点数は０．０９４である）。
Ｆでの深刻なモード崩壊により、ある場合には分類器をしっかり学習させることができず、Ｆ－１の点数は、‘Ｎ／Ａ’で表示される。
しかし、その変形（ｖａｒｉａｔｉｏｎ）を含めて、本発明の実施形態に係るＯＣＴ－ＧＡＮは、全てのデータセットで他の全ての方法をはるかに凌駕する性能を示す。

【0097】

図１３において、ＯＣＴ－ＧＡＮを除いた全ての方法は適さない正確度を示すことができる。Ｔ_{ｔｒａｉｎ}で訓練された元のモデルは、０．１４のＲ^２点数を示すことができ、本発明に係るＯＣＴ－ＧＡＮは、これに近い点数を示すことができる。Ｔ_{ｔｒａｉｎ}で表示される、ＯＣＴ－ＧＡＮと元のモデルのみが肯定的な点数を示すことができる。

【0098】

図１４の場合、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）及び回帰（ｒｅｇｒｅｓｓｉｏｎ）に対する上位２個のモデルであるＴＧＡＮ及びＯＣＴ－ＧＡＮの結果を示している。
ここで、ＯＣＴ－ＧＡＮは、ほぼ全ての場合にＴＧＡＮを凌駕する性能を示す。

【0099】

一方、本発明の実施形態に係るモデルに関する主要な設計ポイントの効率性を示すために、次の比較モデルとの比較実験を行うことができる。

【0100】

（１）ＯＣＴ－ＧＡＮ（ｆｉｘｅｄ）の場合、ｔ_ｉを学習させず、ｔ_ｉ＝ｉ／ｍ、０≦ｉ≦ｍに設定される。
すなわち、［０，１］の範囲をｔ_０＝０、ｔ_１＝１／ｍ、．．．、ｔ_ｍ＝１と均等に分ける。

【0101】

（２）ＯＣＴ－ＧＡＮ（ｏｎｌｙ＿Ｇ）の場合、生成器にのみＯＤＥ階層を追加することができ、判別器はＯＤＥ階層を含まないことがある。
前記の数式７において、Ｄ（ｘ）は、

に設定される。

【0102】

（３）ＯＣＴ－ＧＡＮ（ｏｎｌｙ＿Ｄ）の場合、判別器にのみＯＤＥ階層を追加し、生成器には

を直接入力する。

【0103】

図１１～図１４の場合、比較モデルの性能を示している。
図１１及び図１２で当該比較モデルは、いくつかの場合において、全体モデルであるＯＣＴ－ＧＡＮよりもさらによい尤度推定を示す。
しかし、全体モデルと比較モデルとの間の差は、相対的に小さいことがある（しかも、節制研究モデルが全体モデルよりもさらによい場合にも）。

【0104】

しかし、図１３の分類及び回帰実験では、いくつかの場合でこれらの間の些細な差異を観察することができる。
例えば、Ａｄｕｌｔの場合、ＯＣＴ－ＧＡＮ（ｏｎｌｙ＿Ｇ）が他のモデルよりもはるかに低い点数を示す。
これを介して、Ａｄｕｌｔで判別器のＯＤＥ階層が核心的な役割をするという事実を確認することができる。
ＯＣＴ－ＧＡＮ（ｆｉｘｅｄ）は、ＯＣＴ－ＧＡＮとほぼ類似するが、中間時点を学習する場合、さらに向上することができる。
すなわち、ＯＣＴ－ＧＡＮ（ｆｉｘｅｄ）の場合、０．６３２である反面、ＯＣＴ－ＧＡＮの場合、０．６３５であり得る。
従って、様々なデータセットで高いデータ活用度を考慮し、全体モデルであるＯＣＴ－ＧＡＮを使用することが重要なことである。

【0105】

テーブルデータ合成（ｔａｂｕｌａｒｄａｔａｓｙｎｔｈｅｓｉｓ）は、ウェブベースの研究（ｗｅｂ－ｂａｓｅｄｒｅｓｅａｒｃｈ）の重要な主題に該当する。
しかし、不規則なデータ分布（ｉｒｒｅｇｕｌａｒｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎ）とモード崩壊（ｍｏｄｅｃｏｌｌａｐｓｅ）により、テーブルデータを合成する作業は非常に難しいことがある。
本発明の実施形態に係るＮＯＤＥベースの条件付きテーブルデータ敵対的生成ネットワーク方法は、このような全ての問題を解決するために、ＯＣＴ－ＧＡＮというＮＯＤＥベースの条件付きＧＡＮを実現する。
本発明の実施形態に係る方法は、分類、回帰、及びクラスタリング実験の多くの場合で最高の性能を提供する。

【0106】

尚、本発明は、上述の実施形態に限られるものではない。本発明の技術的範囲から逸脱しない範囲内で多様に変更実施することが可能である。

【符号の説明】

【0107】

１００ＯＣＴ－ＧＡＮシステム
１１０ユーザ端末
１３０ＯＣＴ－ＧＡＮ装置
１５０データベース
２１０プロセッサ
２３０メモリ
２５０ユーザ入出力部
２７０ネットワーク入出力部
３１０表データ前処理部
３３０ＮＯＤＥベースの生成部
３５０ＮＯＤＥベースの判別部
３７０制御部

【図1】