(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023090592
(43)【公開日】2023-06-29
(54)【発明の名称】OCT-GAN(Neural ODE-based Conditional Tabular Generative Adversarial Networks)装置及びOCT-GAN方法
(51)【国際特許分類】
G06N 3/04 20230101AFI20230622BHJP
G06N 3/08 20230101ALI20230622BHJP
【FI】
G06N3/04
G06N3/08
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2021215113
(22)【出願日】2021-12-28
(31)【優先権主張番号】10-2021-0181679
(32)【優先日】2021-12-17
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】514274672
【氏名又は名称】延世大学校 産学協力団
【氏名又は名称原語表記】YONSEI UNIVERSITY,UNIVERSITY-INDUSTRY FOUNDATION(UIF)
【住所又は居所原語表記】50,YONSEI-RO, SEODAEMUN-GU, SEOUL 03722, REPUBLIC OF KOREA
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】パク, ノ ソン
(72)【発明者】
【氏名】キム, ザ ヨン
(72)【発明者】
【氏名】ジョン, ジン ソン
(72)【発明者】
【氏名】リ, ジェ フン
(72)【発明者】
【氏名】ヒョン, ジ ヒョン
(57)【要約】
【課題】ニューラルODEをベースとして敵対的生成ネットワークモデルを用いて、テーブルデータをさらに合成できるNODEベースの条件付きテーブルデータ敵対的生成ネットワーク装置及び方法を提供する。
【解決手段】本発明によるOCT-GAN装置は、離散カラム及び連続カラムで構成された表データを前処理する表データ前処理部と、前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプルを生成するNODEベースの生成部と、前記前処理された表データのリアルサンプル又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するNODEベースの判別部と、を備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
離散カラム及び連続カラムで構成された表データ(tabular data)を前処理する表データ前処理部と、
前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル(fake sample)を生成するNODE(Neural Ordinary Differential Equations)ベースの生成部と、
前記前処理された表データのリアルサンプル(real sample)又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するNODEベースの判別部と、を備えることを特徴とするOCT-GAN(Neural ODE-based Conditional Tabular Generative Adversarial Networks)装置。
【請求項2】
前記表データ前処理部は、前記離散カラムにある離散値をワンホットベクトルに変換し、前記連続カラムにある連続値を、モード特定正規化を介して前処理することを特徴とする請求項1に記載のOCT-GAN装置。
【請求項3】
前記表データ前処理部は、前記連続値それぞれにガウシアンミクスチャーを適用し、当該標準偏差で正規化して正規化値及びモード値を生成することを特徴とする請求項2に記載のOCT-GAN装置。
【請求項4】
前記表データ前処理部は、前記ワンホットベクトル、前記正規化値、及び前記モード値を併合し、前記表データにあるローデータ(raw data)をモードベース情報に変換することを特徴とする請求項3に記載のOCT-GAN装置。
【請求項5】
前記NODEベースの生成部は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得して、前記条件ベクトルと前記ノイズベクトルとを併合して前記フェイクサンプルを生成することを特徴とする請求項1に記載のOCT-GAN装置。
【請求項6】
前記NODEベースの生成部は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング(homeomorphic mapping)を実行し、リアルサンプルの分布に一致する範囲内で前記フェイクサンプルを生成することを特徴とする請求項5に記載のOCT-GAN装置。
【請求項7】
前記NODEベースの判別部は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するODE(Ordinary Differential Equations)演算を介して複数の連続軌跡を生成することを特徴とする請求項1に記載のOCT-GAN装置。
【請求項8】
前記NODEベースの判別部は、前記複数の連続軌跡を併合して併合軌跡(hx)を生成し、前記併合軌跡を介して前記サンプルをリアル又はフェイクに分類することを特徴とする請求項7に記載のOCT-GAN装置。
【請求項9】
離散カラム及び連続カラムで構成された表データ(tabular data)を前処理する表データ前処理段階と、
前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル(fake sample)を生成するNODE(Neural Ordinary Differential Equations)ベースの生成段階と、
前記前処理された表データのリアルサンプル(real sample)又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するNODEベースの識別段階と、を有することを特徴とするOCT-GAN(Neural ODE-based Conditional Tabular Generative Adversarial Networks)方法。
【請求項10】
前記表データ前処理段階は、前記離散カラムにある離散値をワンホットベクトルに変換し、前記連続カラムにある連続値をモード特定正規化を介して前処理する段階を含むことを特徴とする請求項9に記載のOCT-GAN方法。
【請求項11】
前記NODEベースの生成段階は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得し、前記条件ベクトルと前記ノイズベクトルとを併合して前記フェイクサンプルを生成する段階を含むことを特徴とする請求項9に記載のOCT-GAN方法。
【請求項12】
前記NODEベースの生成段階は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング(homeomorphic mapping)を実行し、リアルサンプルの分布に一致される範囲内で前記フェイクサンプルを生成する段階を含むことを特徴とする請求項11に記載のOCT-GAN方法。
【請求項13】
前記NODEベースの判別段階は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するODE(Ordinary Differential Equations)演算を介して複数の連続軌跡を生成する段階を含むことを特徴とする請求項9に記載のOCT-GAN方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ合成技術に関し、特に、ニューラルODEをベースとして敵対的生成神経モデルを用いてテーブルデータをさらに合成できるNODEベースの条件付きテーブルデータ敵対的生成ネットワーク装置及び方法に関する。
【背景技術】
【0002】
多くのウェブベースの応用プログラムは、テーブルデータ(tabular data)を使用しており、多くのエンタプライズシステムは、関係型データベース管理システム(relational database management system)を使用している。
このような理由で、多くのウェブ指向研究は、テーブルデータに対する多様な作業に集中している。
すなわち、このような作業では、現実的な合成テーブルデータを生成することが非常に重要である。
合成データの活用度が合理的に高いとともに、リアルデータと充分に異なる場合、合成データを学習データとして使用できるようにし、多くのアプリケーションに大きな助けになり得る。
【0003】
生成器(Generator)と判別器(Discriminator)とで構成された敵対的生成ネットワーク(Generative Adversarial Networks、GANs)は、最も成功的な生成モデルの内の一つに該当する。
GANは、イメージとテキストから表に至るまで多様な領域に拡張されている。
最近は、テーブルデータを合成するためにTGANという「tabular GAN」が紹介された。
TGANは、モデル互換性(model compatibility)の側面で、テーブルの生成にあたって既存のGANの内、最先端の性能を提供することができる。
すなわち、合成(生成された)データで学習された機械学習モデルは、知られていない実際のテスト事例について合理的な正確度を提供することができる。
【0004】
一方、テーブルデータは、不規則な分布と多重様式を有する場合が多く、既存の技術が効果的に動作しないことがある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】韓国特許出願公開第10-2021-0098381号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は上記従来の敵対的生成ネットワークにおける問題点に鑑みてなされたものであって、本発明の目的は、ニューラルODEをベースとして敵対的生成ネットワークモデルを用いて、テーブルデータをさらに合成できるNODEベースの条件付きテーブルデータ敵対的生成ネットワーク装置及び方法を提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するためになされた本発明によるOCT-GAN(Neural ODE-based Conditional Tabular Generative Adversarial Networks)装置は、離散カラム及び連続カラムで構成された表データ(tabular data)を前処理する表データ前処理部と、前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル(fake sample)を生成するNODE(Neural Ordinary Differential Equations)ベースの生成部と、前記前処理された表データのリアルサンプル(real sample)又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するNODEベースの判別部と、を備えることを特徴とする。
【0008】
前記表データ前処理部は、前記離散カラムにある離散値を、ワンホットベクトルに変換し、前記連続カラムにある連続値を、モード特定正規化を介して前処理することが好ましい。
前記表データ前処理部は、前記連続値それぞれにガウシアンミクスチャーを適用し、当該標準偏差で正規化して正規化値及びモード値を生成することが好ましい。
前記表データ前処理部は、前記ワンホットベクトル、前記正規化値及び前記モード値を併合して前記表データにあるローデータ(raw data)をモードベース情報に変換することが好ましい。
【0009】
前記NODEベースの生成部は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得して、前記条件ベクトルと前記ノイズベクトルとを併合し、前記フェイクサンプルを生成することが好ましい。
前記NODEベースの生成部は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング(homeomorphic mapping)を実行し、リアルサンプルの分布に一致される範囲内で前記フェイクサンプルを生成することが好ましい。
前記NODEベースの判別部は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するODE(Ordinary Differential Equations)演算を介して複数の連続軌跡を生成することが好ましい。
前記NODEベースの判別部は、前記複数の連続軌跡を併合して併合軌跡(hx)を生成し、前記併合軌跡を介して前記サンプルをリアル又はフェイクに分類することが好ましい。
【0010】
上記目的を達成するためになされた本発明によるOCT-GAN(Neural ODE-based Conditional Tabular Generative Adversarial Networks)方法は、離散カラム及び連続カラムで構成された表データ(tabular data)を前処理する表データ前処理段階と、前記前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル(fake sample)を生成するNODE(Neural Ordinary Differential Equations)ベースの生成段階と、前記前処理された表データのリアルサンプル(real sample)又は前記フェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行するNODEベースの識別段階と、を有することを特徴とする。
【0011】
前記表データ前処理段階は、前記離散カラムにある離散値をワンホットベクトルに変換し、前記連続カラムにある連続値をモード特定正規化を介して前処理する段階を含むことが好ましい。
前記NODEベースの生成段階は、前記条件ベクトルを条件分布から取得し、前記ノイズベクトルをガウシアン分布から取得し、前記条件ベクトルと前記ノイズベクトルとを併合して前記フェイクサンプルを生成する段階を含むことが好ましい。
前記NODEベースの生成段階は、前記条件ベクトルと前記ノイズベクトルとの併合ベクトルに対する位相同型マッピング(homeomorphic mapping)を実行し、リアルサンプルの分布に一致される範囲内で前記フェイクサンプルを生成する段階を含むことが好ましい。
前記NODEベースの判別段階は、前記入力されたサンプルのフィーチャ抽出を実行し、前記フィーチャ抽出されたサンプルに対するODE(Ordinary Differential Equations)演算を介して複数の連続軌跡を生成する段階を含むことが好ましい。
【発明の効果】
【0012】
本発明に係るOCT-GAN装置及びOCT-GAN方法によれば、次の効果を有することができる。
但し、特定の実施形態が次の効果を全て含まなければならないか、又は次の効果のみを含まなければならないという意味ではないので、開示された技術の権利範囲は、これによって制限されるものと理解されてはならない。
【0013】
本発明に係るOCT-GAN装置及びOCT-GAN方法は、ニューラルODEをベースとして敵対的生成ネットワークモデルを用いてテーブルデータをさらに合成できる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態に係るOCT-GANシステムを説明するための図である。
【
図2】本発明の実施形態に係るOCT-GAN装置の概略的なシステム構成を示すブロック図である。
【
図3】本発明の実施形態に係るOCT-GAN装置の機能的構成を説明するための図である。
【
図4】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法を説明するためのフローチャートである。
【
図5】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法の細部設計事項を説明する図である。
【
図6】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法の細部設計事項を説明するための図である。
【
図7】NODEと本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法を説明するための図である。
【
図8】本発明の実施形態に係る2段階の接近方法を説明するための図である。
【
図9】本発明の実施形態に係るOCT-GANの学習アルゴリズムを説明するための図である。
【
図10】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。
【
図11】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。
【
図12】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。
【
図13】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。
【
図14】本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験結果を示す図である。
【発明を実施するための形態】
【0015】
この発明は、下記の研究課題をもって支援を受けて出願された。
〔本発明を支援した国家研究開発事業〕
〔課題固有番号〕 1711126082
〔課題番号〕 2020-0-01361-002
〔省庁名〕 科学技術情報通信部
〔課題管理(専門)機関名〕 情報通信企画評価院
〔研究事業名〕 情報通信放送革新人材養成(R&D)
〔研究課題名〕 人工知能大学院支援(延世大学)
〔貢献率〕 1/1
〔課題遂行機関名〕 延世大学産学協力団
〔研究期間〕 2021.01.01~2021.12.31
【0016】
次に、本発明に係るOCT-GAN装置及びOCT-GAN方法を実施するための形態の具体例を図面を参照しながら説明する。
【0017】
本発明に関する説明は、構造的乃至機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明された実施形態により制限されるものと解釈されてはならない。
すなわち、実施形態は、多様な変更が可能であり、様々な形態を有し得るので、本発明の権利範囲は、技術的思想を実現できる均等物を含むものと理解されなければならない。
また、本発明で提示された目的又は効果は、特定の実施形態がこれを全て含まなければならないか、又はそのような効果のみを含まなければならないという意味ではないので、本発明の権利範囲は、これによって制限されるものと理解されてはならない。
【0018】
一方、本明細書で述べられる用語の意味は、次のように理解されなければならない。
「第1」、「第2」等の用語は、一つの構成要素を他の構成要素から区別するためのものであって、これらの用語により権利範囲が限定されてはならない。
例えば、第1構成要素は第2構成要素と名付けられてもよく、同様に第2構成要素も第1構成要素と名付けられてもよい。
【0019】
ある構成要素が他の構成要素に「接続されて」いると言及された場合には、その他の構成要素に直接的に接続されていることもあるが、中間に他の構成要素が存在することもあると理解されなければならない。
反面、ある構成要素が他の構成要素に「直接接続されて」いると言及された場合には、中間に他の構成要素が存在しないものと理解されなければならない。
一方、構成要素間の関係を説明する他の表現、すなわち、「~の間に」と「すぐ~の間に」又は「~に隣り合う」と「~に直接隣り合う」等も同様に解釈されなければならない。
【0020】
単数の表現は、文脈上明らかに異なる意味ではない限り、複数の表現を含むものと理解されなければならず、「含む」又は「有する」等の用語は、実施された特徴、数字、段階、動作、構成要素、部分品、又はこれらを組み合わせたものが存在するということを指定しようとするものであり、一つ又はそれ以上の異なる特徴や数字、段階、動作、構成要素、部分品、又はこれらを組み合わせたものの存在又は付加の可能性を予め排除しないものと理解されなければならない。
【0021】
各段階において、判別符号(例えば、a、b、c等)は、説明の便宜のために使用されるものであって、判別符号は各段階の順序を説明するものではなく、各段階は、文脈上明らかに特定の順序を記載しない以上、明記された順序と異なって生じ得る。
すなわち、各段階は、明記された順序と同一に生じることもあり、実質的に同時に行われることもあり、反対の順序通り行われることもある。
【0022】
本発明は、コンピュータが読み取ることができる記録媒体にコンピュータが読み取ることができるコードで実現することができ、コンピュータが読み取ることができる記録媒体は、コンピュータシステムにより読み取られるデータが格納される全ての種類の記録装置を含む。
コンピュータが読み取ることができる記録媒体の例としては、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク(登録商標)、光データ格納装置等がある。
また、コンピュータが読み取ることができる記録媒体は、ネットワークで接続されたコンピュータシステムに分散され、分散方式でコンピュータが読み取ることができるコードが格納されて実行することができる。
【0023】
ここで使用する全ての用語は、異なって定義されない限り、本発明が属する分野で通常の知識を有する者により一般的に理解されることと同じ意味を有する。
一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致するものと解釈されなければならず、本明細書で明らかに定義しない限り、理想的であるか、又は過度に形式的な意味を有するものと解釈できない。
【0024】
GAN(Generative Adversarial Network)は、生成器(generator)と判別器(discriminator)の二つのニューラルネットワーク(neural network)で構成される。
生成器と判別器は、2プレイゼロサム(two-play zero-sum)のゲームを行うことができ、それぞれの平衡状態(equilibrium state)は、理論的に定義される。
ここで、生成器は、最適の生成品質を達成することができ、判別器は、リアルサンプルとフェイクサンプルとの間の区別が不可能なことがある。
WGANとその変形は、これまで提案された多くのGANの中で、広く使用されている。
【0025】
特に、WGAN-GPは、最も成功的なモデルのうちの一つに該当し得、以下に示す数式1のように表現できる。
【数1】
【0026】
ここで、p
zは、事前分布(prior distribution)であり、p
xは、データ分布(distribution of data)であり、Gは、生成関数(generator function)であり、Dは、判別(又はWasserstein critic)関数(discriminator function)であり、
は、G(z)とxのランダム加重組み合わせ(randomly weighted combination)である。
判別器は、生成品質に対するフィードバックを提供することができる。
【0027】
また、p
gは、p
zの関数G(z)により誘導されたフェイクデータの分布で定義され、
は、ランダム組み合わせの後に生成された分布で定義される。
一般的に、事前分布p
zに対してN(0,1)が使用できる。
各作業に特化された多くのGANモデルは、WGAN-GPフレームワークに基づいて設計される。
判別器と生成器をそれぞれ学習するために、WGAN-GPの損失関数(loss function)を表示するL
D及びL
Gが使用できる。
【0028】
また、条件付きGAN(Conditional GAN、CGAN)は、GANのよくある変形の内の一つであり得る。
条件付きGAN体系で、生成器G(z,c)にはノイズベクトル(noisy vector)zと条件ベクトル(condition vection)cが提供される。
そのとき、条件ベクトルは、生成するクラスレーベルを示すワンホットベクトルに該当する。
【0029】
テーブルにある列の結合確率分布(joint probability distribution)をモデリングして現実的な合成テーブルを生成するテーブルデータ合成(tabular data synthesis)は、データの類型に応じて多様な方法を含むことができる。
例えば、ベイジアンネットワーク(Bayesian network)と決定ツリー(decision tree)は、離散型変数を生成するのに使用することができる。
ガウシアンコピュラ(Gaussian copula)を使用したテーブルの再帰モデリングは、連続型変数を生成するのに使用することができる。
分解のための差分個人情報保護アルゴリズム(differentially private algorithm)は、空間データを合成するのに使用することができる。
【0030】
しかし、このようなモデルが有する分布類型(type of distribution)及び計算問題(computational problem)のような一部の制約条件は、充実した(high-fidelity)データ合成を阻害し得る。
【0031】
最近数年で、GANをベースとした様々なデータ生成方法が主に医療記録を処理するのに使用されるテーブルデータを合成する方法として紹介されている。
RGANは、連続的な時系列の医療記録を生成する反面、MedGAN及びcorrGANは、個別的な記録を生成することができる。
EhrGANは、制限された学習データを補強するために、半教師あり学習(semi-supervised learning)を使用して、そのようなレーベルが指定されたレコードを生成することができる。
PATE-GANは、原本データのプライバシーを脅かさないとともに、合成データを生成することができる。
TableGANは、レーベル列に対する予測正確度を最大化するために、畳み込みネットワークを使用してテーブルデータ合成を改善することができる。
【0032】
h(t)は、ネットワークの時間(又は階層)tで隠れベクトル(hidden vector)を出力する関数で定義されることができる。ニューラルODE(Neural OED、NODE)でパラメータの集合を含むネットワークfはθ
fで表現することができ、
で近似される。
また、h(t
m)は、
で計算される。
このとき、
である。
すなわち、隠れベクトル進化プロセス(hidden vector evolution process)の内部力学(internal dynamics)は、θ
fによりパラメータ化されたODEシステムで説明することができる。
NODEを使用する場合、tを連続的なものと解釈できるが、一般的なネットワークの場合には、離散的である。
従って、NODEでより柔軟な構成が可能であり、本発明で判別器にODE階層を適用する主要な理由の内の一つであり得る。
【0033】
積分問題
を解決するために、NODEではODEソルバー(ODE solver)を介して、積分を一連の足し算に変換できる。
「Dormand-Prince」(DOPRI)方法は、最も強力な積分器(integrator)の内の一つに該当し、NODEで広く使用される。
DOPRIは、積分問題を解決するとともに、段階の大きさ(step size)を動的に制御することができる。
【0034】
を積分問題を解決した後、ODEにより生成されたt
0からt
mまでのマッピング(mapping)で定義される。
φ
tは、位相同型マッピング(homeomorphic mapping)になる。
φ
tは、連続的であり、全単射(bijective)であり、
も全てのt∈[0,T]に対して連続的である。
このとき、Tは、時間領域(time domain)の最後の時点である。
当該特性から次のような命題が導出できる。
すなわち、φ
tの入力空間のトポロジーは出力空間に保存されるので、互いに交差する軌跡(trajectory)は、NODEで示すことができない(
図7の(a)参照)。
【0035】
NODEは、トポロジーを維持しつつ、機械学習作業を実行し、敵対的攻撃に対する表現学習(representation)の堅牢性(robustness)を増加させる。
逆伝播方法(backpropagation method)の代わりに隣接敏感度方法(adjoint sensitivity method)がNODEの効率性と理論的正確性を訓練するのに使用できる。
【0036】
作業特化された損失(task-specific loss)Lに対して
を定義した後、以下に示す数式2のように他の逆モード積分(reverse-mode integral)を使用し、損失w.r.tモデルのパラメータの勾配(gradient)が計算できる。
【数2】
も同様の方式で計算されることができ、ODEよりも先にレイヤに勾配を逆方向に伝播することができる(もしある場合)。
隣接敏感度方法の空間複雑度(space complexity)は、O(1)である反面、NODEを学習するために逆伝播を使用することは、DOPRI段階の数に比例する空間複雑度を有する。
時間複雑度(time complexity)は互いに類似するか、隣接敏感度方法が逆伝播方法よりももう少し効率的である。
従って、NODEを効果的に学習させることができる。
【0037】
以下、
図1乃至9を参照して、本発明の実施形態に係るOCT-GAN装置及び方法についてより詳しく説明する。
図1は、本発明の実施形態に係るOCT-GANシステムを説明するための図である。
【0038】
図1を参照すると、OCT-GANシステム100は、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワークの方法を実行するように実現する。
このため、OCT-GANシステム100は、ユーザ端末110、OCT-GAN装置130及びデータベース150を含む。
【0039】
ユーザ端末110は、ユーザにより運用される端末装置に該当する。
例えば、ユーザは、ユーザ端末110を介してデータの生成及び学習に関する動作を処理する。
本発明の実施形態において、ユーザは、一つ以上のユーザと理解され、複数のユーザは、一つ以上のユーザグループに区分され得る。
【0040】
また、ユーザ端末110は、OCT-GANシステム100を構成する一つの装置であって、OCT-GAN装置130と連動して動作するコンピューティング装置に該当する。
例えば、ユーザ端末110は、OCT-GAN装置130と接続され、動作可能なスマートフォン、ラップトップ又はコンピュータで実現され得るが、必ずしもこれに限定されるのではなく、タブレットPC等を含めて多様なデバイスでも実現することができる。
また、ユーザ端末110は、OCT-GAN装置130と連動するための専用プログラム又はアプリケーション(又はアプリ、app)を設置して実行することができる。
【0041】
OCT-GAN装置130は、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワークの方法を実行するコンピュータ又はプログラムに該当するサーバで実現され得る。
また、OCT-GAN装置130は、ユーザ端末110と有線ネットワーク又はブルートゥース(登録商標)、WiFi、LTE等のような無線ネットワークで接続され得、ネットワークを介してユーザ端末110とデータを送・受信する。
さらに、OCT-GAN装置130は、関連動作を実行するために、独立した外部システム(
図1に図示していない)と接続されて動作するように実現される。
【0042】
一方、
図5は、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法、すなわち、OCT-GAN(NODE-based Conditional Tabular GAN)に関する細部設計事項を示している。
すなわち、NODEでネットワークfは、dh(t)/dtを近似するために常微分方程式(ordinary differential equations)システムを学習する。
このとき、h(t)は、時間(又は階層)tで隠れベクトルである。
従って、サンプルx(すなわち、テーブルの行又はレコード)が与えられると、積分問題、すなわち、
であり、θ
fはfに対して学習するパラメータの集合である。
NODEは、積分問題を足し算の様々な段階に変換し、このような段階、すなわち、{h(t
0),h(t
1),(t
2),..., h(t
m)}で軌跡を抽出する。
学習可能なODEが装着された本発明の実施形態に係る判別器は、抽出された進化軌跡(evolution trajectory)を使用し、リアルサンプルと合成サンプルを区別する(他のネットワークは、最後の隠れベクトルのみ使用する(例えば、前記の場合、h(t
m))。
本発明に係る軌跡ベースの分類は、判別器に重要な自由(non-trivial freedom)を提供し、生成器によりよいフィードバックを提供する。
本発明に係る方法の追加核心部分は、軌跡を抽出するために全てのiに対して当該時点t
iを決定する方法であり得る。
本発明に係る方法の場合、モデルがデータで学習するようにできる。
【0043】
データベース150は、OCT-GAN装置130の動作過程で必要な多様な情報を格納する格納装置に該当する。
例えば、データベース150は、学習過程に使用される学習データに関する情報を格納することができ、学習のためのモデルや学習アルゴリズムに関する情報を格納することができるが、必ずしもこれに限定されるわけではなく、OCT-GAN装置130が本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法を実行する過程で、多様な形態で収集又は加工された情報を格納することができる。
【0044】
一方、
図1において、データベース150はOCT-GAN装置130と独立的な装置として示しているが、必ずしもこれに限定されるわけではなく、論理的な格納装置としてOCT-GAN装置130に含まれて実現できるのは勿論である。
【0045】
図2は、本発明の実施形態に係るOCT-GAN装置のシステム構成を説明する図である。
図2を参照すると、OCT-GAN装置130は、プロセッサ210、メモリ230、ユーザ入出力部250、及びネットワーク入出力部270を含む。
【0046】
プロセッサ210は、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワークのプロシージャを実行することができ、このような過程で読まれたり、作成されるメモリ230を管理し、メモリ230にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。
プロセッサ210は、OCT-GAN装置130の動作全般を制御し、メモリ230、ユーザ入出力部250、及びネットワーク入出力部270と電気的に接続され、これらの間のデータフローを制御する。
プロセッサ210は、OCT-GAN装置130のCPU(Central Processing Unit)で実現される。
【0047】
メモリ230は、SSD(Solid State Disk)又はHDD(Hard Disk Drive)のような不揮発性メモリで実現され、OCT-GAN装置130に必要なデータ全般を格納するのに使用される補助記憶装置を含み、RAM(Random Access Memory)のような揮発性メモリで実現された主記憶装置を含む。
また、メモリ230は、電気的に接続されたプロセッサ210により実行されることによって、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法を実行するコマンドの集合を格納する。
【0048】
ユーザ入出力部250は、ユーザ入力を受信するための環境及びユーザに特定情報を出力するための環境を含み、例えば、タッチパッド、タッチスクリーン、画像キーボード又はポインティング装置のようなアダプタを含む入力装置及びモニター又はタッチスクリーンのようなアダプタを含む出力装置を含み得る。
一実施形態において、ユーザ入出力部250は、リモートアクセスを介してアクセスされるコンピューティング装置に該当し、そのような場合、OCT-GAN装置130は、独立的なサーバとして実行され得る。
【0049】
ネットワーク入出力部270は、ネットワークを介してユーザ端末110と接続されるための通信環境を提供し、例えば、LAN(Local Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)及びVAN(Value Added Network)などの通信のためのアダプタを含み得る。
また、ネットワーク入出力部270は、データの無線送信のためにWiFi、ブルートゥース(登録商標)などの近距離通信機能や4G以上の無線通信機能を提供するように実現される。
【0050】
図3は、本発明の実施形態に係るOCT-GAN装置の機能的構成を説明するための図である。
図3を参照すると、OCT-GAN装置130は、表データ前処理部310、NODEベースの生成部330、NODEベースの判別部350、及び制御部370を含む。
OCT-GAN装置130は、NODEベースの生成部330とNODEベースの判別部350に対してODE階層を適用する。
【0051】
これを介して、OCT-GAN装置130は、判別部350を介して時間(又は階層)tをODE階層で連続的なものと解釈できる。
また、OCT-GAN装置130は、分類性能を向上させる最適の時点を見つけて軌跡ベースの分類(trajectory-based classification)を実行することもできる。
【0052】
また、OCT-GAN装置130は、生成部330を介してNODEの位相同型特性(homeomorphic characteristic)を用いて、初期潜在空間(initial latent space)の(意味論的)トポロジーを維持しつつ、
を他の潜在空間に変換できる。
i)テーブルデータ(tabular data)は、データの分布が不規則的であり、直接キャプチャーし難いことがあり、
ii)適切な潜在空間を見付けることによって、生成器がよりよいサンプルを生成することができる点で、OCT-GAN装置130は利点を有する。
また、OCT-GAN装置130は、与えられた固定条件(fixed condition)でノイズベクトルを補間する作業を円滑に行うことができる。
【0053】
従って、OCT-GAN装置130で実行される全体生成プロセスは、
図8のように次の2段階に分離される。
1)(潜在的にリアルデータ分布に近いように)入力空間のトポロジーを維持しつつ、初期の入力空間を他の潜在空間に変換する段階、及び
2)残りの生成プロセスは、リアルデータ分布(real data distribution)と一致するフェイク分布(fake distribution)を見付ける段階。
【0054】
表データ前処理部310は、離散カラム及び連続カラムで構成された表データ(tabular data)を前処理する。
より具体的には、表データ(又はテーブルデータ)は、2つの類型のカラムを含む。
すなわち、2つの類型のカラムは、離散カラム(discrete column)と連続カラム(continuous column)である。
そのとき、離散カラムは
、連続カラムは
で表現される。
【0055】
一実施形態において、表データ前処理部310は、離散カラムにある離散値(discrete value)をワンホットベクトル(one-hot vector)に変換し、連続カラムにある連続値(continuous value)をモード特定正規化(mode-specific normalization)を介して前処理する。
一方、テーブルデータを生成するGANは、時々モード崩壊(mode collapse)と不規則なデータ分布(irregular data distribution)により、希望の結果を導出し難いことがある。
そのとき、学習前にモードを特定することによって、モード特定正規化が当該問題を緩和することができる。
i番目の原本サンプル(raw sample)r
i(表データの行又はレコード)は、
のように表現され、ここで、d
i,j(又はc
i,j)は、カラムD
j(又はカラムC
j)の値である。
【0056】
一実施形態において、表データ前処理部310は、次の3段階を介して原本サンプル(raw sample)riはxiで前処理される。
特に、表データ前処理部310は、連続値のそれぞれにガウシアンミクスチャーを適用し、当該標準偏差で正規化して正規化値及びモード値を生成し、ワンホットベクトル、正規化値、及びモード値を併合して、表データにあるローデータ(raw data)をモードベース情報に変換する。
【0057】
より具体的には、第1段階で、各離散値
は、ワンホットベクトル
に変換される。
また、第2段階で、変分ガウシアンミクスチャー(Variational Gaussian mixture:VGM)モデルを介して、各連続カラムC
jは、ガウシアンミクスチャーに適合(fit)する。
この場合、適合されたガウシアンミクスチャーは、
である。
ここで、n
jは、C
jカラムにモードの個数(すなわち、ガウシアン分布の個数)であり、w
j,k、μ
j,k及びσ
j,kは、k番目のガウシアン分布の適合加重値(fitted weight)、平均(mean)及び標準偏差(standard deviation)である。
【0058】
また、第3段階で、
の確率でc
i,jに対する適切なモードkがサンプリングできる。
その後、c
i,jを適合された標準偏差でモードkで正規化し、正規化された値α
i,jとモード情報β
i,jが格納できる。
例えば、4個のモードが存在し、3番目のモードであるk=3を選択した場合、α
i,jは
であり、β
i,jは[0,0,1,0]である。
【0059】
結果として、r
iは、以下に示す数式3のように表現されるx
iに変換される。
【数3】
【0060】
このとき、xiでriのモードベースの細部情報が特定できる。
OCT-GAN装置130の判別部350と生成部330は、モードに対する明確性(clarification)のためにriの代わりにxiを使用する。
しかし、xiは、ガウシアンミクスチャーの適合されたパラメータを使用して生成された後、riに容易に変更される。
【0061】
NODEベースの生成部330は、前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル(fake sample)を生成する。
すなわち、OCT-GAN装置130は、条件付きGANを実現することができる。
このとき、条件ベクトルは、
のように定義され、c
iは零ベクトルであるか、又はi番目の離散カラムの任意のワンホットベクトルである。
【0062】
また、NODEベースの生成部330は、ランダムにs∈{1,2,...,ND}を決定することができ、csのみ任意のワンホットベクトルであり、他の全てのi≠sに対してciは零ベクトルである。
すなわち、NODEベースの生成部330は、s番目の離散カラムで離散値を特定することができる。
【0063】
NODEベースの生成部330は、初期入力
が与えられると、ODE階層に入力して他の潜在ベクトルに変換できる。
このとき、変形されたベクトルはz’で表現される。
【0064】
NODEベースの生成部330は、当該変換のために、以下に示す数式4のように表現され、判別器のODE階層と独立的なODE階層を使用することができる。
【数4】
【0065】
このとき、積分時間(integral time)は、[0,1]に固定されることができる。
すなわち、
で定義することによって、Gを含む[0,w]、w>0での全てのODEはg’を使用する単位時間積分(unit-time integral)で縮小される。
【0066】
一実施形態において、NODEベースの生成部330は、条件ベクトルを条件分布から取得し、ノイズベクトルをガウシアン分布から取得し、条件ベクトルとノイズベクトルとを併合してフェイクサンプルを生成する。
一実施形態において、NODEベースの生成部330は、条件ベクトルとノイズベクトルとの併合ベクトルに対する位相同型マッピング(homeomorphic mapping)を実行し、リアルサンプルの分布に一致する範囲内でフェイクサンプルを生成する。
【0067】
まず、ODEは位相同型マッピングに該当する。
また、GANは、一般的に準最適(sub-optimal)と知られているガウシアン分布でサンプリングされたノイズベクトルを使用する。
従って、所定の変換が必要なことがある。
【0068】
グロンウォールの不等式(Gronwall-Bellman inequality)は、ODEφ
tと2個の初期状態p
1(0)=x及びp2(0)=x+δが与えられると、
を満たす定数τが存在する。
すなわち、小さいδを有する2個の類似する入力ベクトルが
の境界内で互いに近くマッピングされる。
【0069】
また、NODEベースの生成部330は、中間時点でz’を抽出しないことによって、生成器のODEを介して位相同型マッピングを学習する。
従って、NODEベースの生成部330は、初期入力ベクトル空間のトポロジーを維持する。
初期入力ベクトルp(0)は、生成する項目(例えば、条件)に対する重要な情報(non-trivial information)を含むことができるので、NODEベースの生成部330は、初期入力ベクトル間の関係を維持しつつ、初期入力ベクトルを生成に適した他の潜在ベクトル空間に変換できる。
【0070】
図8は、
i)ODE階層が初期入力分布とリアルデータ分布との間の均衡分布を見付け、
ii)次の手順でリアルのようなフェイクサンプルを生成する2段階の接近方式の一実施形態を示している。
特に、本発明の実施形態に係る変換は、合成サンプル(synthetic sample)の補間(interpolation)を柔らかにすることができる。
すなわち、2個の類似する初期入力が与えられると、2個の類似する合成サンプルが本発明の実施形態に係る生成器により生成される。
【0071】
NODEベースの生成部330は、最適の変換学習機能を備えた生成器を実現することができ、以下に示す数式5のように表現され得る。
【数5】
【0072】
ここで、Tanhは、双曲線タンジェント(hyperbolic tangent)であり、Gumbelは、ワンホットベクトルを生成するためのガンベルソフトマックス(Gumbel-softmax)である。
【0073】
ODE関数g(p(t),t;θ
g)は、以下に示す数式6のように定義される。
【数6】
ここで、
である。
【0074】
NODEベースの生成部330は、離散カラムに離散値を条件として指定する。
従って、
が必要であり、マッチングを適用するために
で表現される交差エントロピー損失(cross entropy loss)が使用できる。
別の例として、NODEベースの生成部330は、c
sを
にコピーできる。
【0075】
NODEベースの判別部350は、前処理された表データのリアルサンプル(real sample)又はフェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を実行する。
すなわち、NODEベースの判別部350は、入力サンプルxがリアルなのか、フェイクなのか予測する際に、t∈[0,tm]であるh(t)の軌跡(trajectory)を考慮することができる。
【0076】
NODEベースの判別部350は、与えられた(前処理された又は生成された)サンプルxに対してD(x)を出力するODEベースの判別器で実現され、以下に示す数式7のように表現される。
【数7】
【0077】
ここで、
は、接続演算子(concatenation operatior)であり、Leakyは「leaky ReLU」であり、Dropはドロップアウト(dropout)であり、FCは完全接続階層(Fully connected layer)である。
【0078】
ODE関数f(h(t),t;θ
f)は、以下に示す数式8のように表現されることができる。
【数8】
ここで、BNはバッチ正規化(batch normalization)であり、ReLUは修正された線形ユニット(rectified linear unit)である。
【0079】
一実施形態において、NODEベースの判別部350は、入力されたサンプルのフィーチャ抽出を実行し、フィーチャ抽出されたサンプルに対するODE(Ordinary Differential Equations)演算を介して複数の連続軌跡を生成する。
【0080】
h(t)の軌跡(trajectory)は、NODEで連続的(continuous)であり得る。
しかし、GANに対する学習過程で連続軌跡を考慮することは難しいことがある。
従って、h(t)の軌跡を離散化(discretize)するために、t
1、t
2、...、t
mが学習でき、mは、当該モデルでハイパーパラメータに該当する。
また、前記数式7において、h(t
1)、h(t
2)、...、h(t
m)は、同一のパラメータθ
fを共有することができ、ODEの単一システムを構成するが、離散化のために分離される。
である場合、全てのiに対してt
iを学習させるために、次のグラディエント定義(隣接敏感度方法から派生する)が使用できる。
【0081】
すなわち、tmに対する損失Lのグラディエントは、以下に示す数式9のように表現される。
【数9】
【0082】
【0083】
しかし、空間複雑度(space complexity)のために中間隣接状態(intermediate adjoint state)を格納し、以下に示す数式10のように逆モード積分(reverse-mode integral)でグラディエントを計算する動作は必要ではないことがある。
【数10】
【0084】
NODEベースの判別部350は、一つの隣接状態a
h(t
m)のみ格納し、両関数f及びa
h(t)に基づいて
を計算することができる。
【0085】
一実施形態において、NODEベースの判別部350は、複数の連続軌跡を併合して併合軌跡(hx)を生成し、併合軌跡を介してサンプルをリアル又はフェイクに分類できる。
一般的な場合、分類のために最後の隠れベクトルh(tm)を使用する反面、NODEベースの判別部350は分類のために全体軌跡を使用する。
最後の隠れベクトルのみ使用する場合、分類に必要な全ての情報が正しくキャプチャーされる必要がある。
しかし、NODEベースの判別部350は、2個の類似する最後の隠れベクトルであっても、中間軌跡が少なくともt値で異なる場合であれば、容易に区別できる。
【0086】
また、NODEベースの判別部350は、軌跡を区別する核心時点(key time)を見つけることによって、効率性をさらに向上させるようにt
iを学習することができる。
一般的なネットワークの場合、当該レイヤの構成が離散的であるため、t
iに対する学習が不可能なことがある。
図7の(b)は、学習可能な中間時点を有するNODEベースの判別器のみが正しく分類できることを示し、
図7の(c)は、NODEの制限された学習表現の問題を解決することができることを示す。
【0087】
より具体的には、
図7の(b)で、t
0からt
mまでの2個の赤/青の軌跡がt
iの周囲を除いていずれも似ていると仮定すれば、区別される時点を学習するため、本発明に係る軌跡ベースの分類は、これを正確に分類できる。
図7の(c)で、赤色と青色の軌跡は互いに交差せず、NODEにより学習される。
しかし、t
iで青色の隠れベクトルとt
mで赤色の隠れベクトルを使用することによって、相互位置を変更することができ、
図7の(b)では不可能なことがある。
従って、NODEを改善するためには、本発明に係る軌跡ベースの分類が必要である。
【0088】
制御部370は、OCT-GAN装置130の全体的な動作を制御し、表データ前処理部310、NODEベースの生成部330、及びNODEベースの判別部350の間の制御フロー又はデータフローを管理する。
【0089】
図4は、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法を説明するためのフローチャートである。
【0090】
図4を参照すると、OCT-GAN装置130は表データ前処理部310を介して、離散カラム及び連続カラムで構成された表データ(tabular data)を前処理する(段階S410)。
OCT-GAN装置130は、NODEベースの生成部330を介して前処理された表データに基づいて生成された条件ベクトルとノイズベクトルを読んでフェイクサンプル(fake sample)を生成する(段階S450)。
OCT-GAN装置130は、NODEベースの判別部350を介して前処理された表データのリアルサンプル(real sample)又はフェイクサンプルで構成されたサンプルの入力を受けて、連続軌跡ベースの分類を行う(段階S450)。
【0091】
本発明の実施形態に係るOCT-GAN装置130は、L
matchingと共に前記の数式1における損失を用いてOCT-GANを学習することができ、当該学習アルゴリズムは
図9で示している。
OCT-GANを学習させるために、リアルテーブルT
trainと最大のエポック(epoch)ナンバー「max_epoch」が必要であり得る。
OCT-GAN装置130は、ミニバッチbを生成した後(
図9のライン4)、敵対的訓練(adversarial training)(
図9のライン5及び6)を行った後、隣接敏感度方法(adjoint sensitivity method)(
図9のライン7)により計算されたユーザの定義グラディエント(custom gradient)でt
iを更新する。
【0092】
そのとき、
を算出するための空間複雑度は、O(1)であり得る。
を算出することは、
の計算(computation)を含む。
ここで、t
0≦t
j<t
i≦t
mである。
t
mからt
0までの逆モード積分を解く間、OCT-GAN装置130は全てのiに対して
を検索する。
従って、全てのグラディエントを計算するための空間複雑度は、
図9のライン7でO(m)であり、本発明の実施形態に係る方法の追加オーバヘッド(additional overhead)に該当する。
【0093】
以下、
図10~14を参照すると、本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法に関する実験内容を説明する。
具体的には、尤度推定(likelihood estimation)、分類(classification)、回帰(regression)、クラスタリング(clustering)等に対する実験環境と結果を説明する。
【0094】
図11及び
図12の場合、全ての尤度推定結果を示している。
CLBN及びPrivBNは、変動のある性能を示す。
CLBNとPrivBNは、RingとAsiaでそれぞれよい反面、PrivBNはGridとGridrでよくない性能を示す。
TVAEは多くの場合にPr(F|S)に対してよい性能を示す反面、Grid及びInsuranceでPr(T
test|S’)に対して他のものよりも相対的に低い性能を示し、これは、モード崩壊(mode collapse)を意味する。
同時に、TVAEはGridrに対してよい性能を示す。
大体TVAEは、このような実験で合理的な性能を示す。
【0095】
OCT-GANを除いた多くのGANモデルの中で、TGANとTableGANは適当な性能を示し、他のGANは劣等な性能を示す。
例えば、Pr(Ttest|S’)に対してInsuranceでTableGANの場合-14.3、TGANの場合-14.8、VEEGANの場合-18.1である。
しかし、このような全てのモデルは、提案されたOCT-GANよりもはるかに性能に優れ得る。
全ての場合に、OCT-GANは、最新のGANモデルであるTGANよりもさらによい性能を示す。
【0096】
図13の場合、分類結果を示している。
CLBNとPrivBNは、模擬データを使用した尤度推定実験が悪くないにもかかわらず、当該実験では適する性能を示さないことがある。
全ての(マクロ)F-1の点数は、最悪の性能範疇に含まれ得、これは、尤度推定と分類との間の潜在的な本質的差異を証明する。
よい尤度推定を有するデータの合成が必ずしもよい分類を示すことはない。
TVAEは多くの場合に適する点数を示す。
しかし、Creditでは点数が非常に低いことがある。
これは、尤度推定と分類との間の本質的な差異を証明する。
TGAN及びOCT-GANを除いた多くのGANモデルは、多くの場合に低い点数を示す(例えば、CensusでVEEGANのF-1の点数は0.094である)。
Fでの深刻なモード崩壊により、ある場合には分類器をしっかり学習させることができず、F-1の点数は、‘N/A’で表示される。
しかし、その変形(variation)を含めて、本発明の実施形態に係るOCT-GANは、全てのデータセットで他の全ての方法をはるかに凌駕する性能を示す。
【0097】
図13において、OCT-GANを除いた全ての方法は適さない正確度を示すことができる。T
trainで訓練された元のモデルは、0.14のR
2点数を示すことができ、本発明に係るOCT-GANは、これに近い点数を示すことができる。T
trainで表示される、OCT-GANと元のモデルのみが肯定的な点数を示すことができる。
【0098】
図14の場合、分類(classification)及び回帰(regression)に対する上位2個のモデルであるTGAN及びOCT-GANの結果を示している。
ここで、OCT-GANは、ほぼ全ての場合にTGANを凌駕する性能を示す。
【0099】
一方、本発明の実施形態に係るモデルに関する主要な設計ポイントの効率性を示すために、次の比較モデルとの比較実験を行うことができる。
【0100】
(1)OCT-GAN(fixed)の場合、tiを学習させず、ti=i/m、0≦i≦mに設定される。
すなわち、[0,1]の範囲をt0=0、t1=1/m、...、tm=1と均等に分ける。
【0101】
(2)OCT-GAN(only_G)の場合、生成器にのみODE階層を追加することができ、判別器はODE階層を含まないことがある。
前記の数式7において、D(x)は、
に設定される。
【0102】
(3)OCT-GAN(only_D)の場合、判別器にのみODE階層を追加し、生成器には
を直接入力する。
【0103】
図11~
図14の場合、比較モデルの性能を示している。
図11及び
図12で当該比較モデルは、いくつかの場合において、全体モデルであるOCT-GANよりもさらによい尤度推定を示す。
しかし、全体モデルと比較モデルとの間の差は、相対的に小さいことがある(しかも、節制研究モデルが全体モデルよりもさらによい場合にも)。
【0104】
しかし、
図13の分類及び回帰実験では、いくつかの場合でこれらの間の些細な差異を観察することができる。
例えば、Adultの場合、OCT-GAN(only_G)が他のモデルよりもはるかに低い点数を示す。
これを介して、Adultで判別器のODE階層が核心的な役割をするという事実を確認することができる。
OCT-GAN(fixed)は、OCT-GANとほぼ類似するが、中間時点を学習する場合、さらに向上することができる。
すなわち、OCT-GAN(fixed)の場合、0.632である反面、OCT-GANの場合、0.635であり得る。
従って、様々なデータセットで高いデータ活用度を考慮し、全体モデルであるOCT-GANを使用することが重要なことである。
【0105】
テーブルデータ合成(tabular data synthesis)は、ウェブベースの研究(web-based research)の重要な主題に該当する。
しかし、不規則なデータ分布(irregular data distribution)とモード崩壊(mode collapse)により、テーブルデータを合成する作業は非常に難しいことがある。
本発明の実施形態に係るNODEベースの条件付きテーブルデータ敵対的生成ネットワーク方法は、このような全ての問題を解決するために、OCT-GANというNODEベースの条件付きGANを実現する。
本発明の実施形態に係る方法は、分類、回帰、及びクラスタリング実験の多くの場合で最高の性能を提供する。
【0106】
尚、本発明は、上述の実施形態に限られるものではない。本発明の技術的範囲から逸脱しない範囲内で多様に変更実施することが可能である。
【符号の説明】
【0107】
100 OCT-GANシステム
110 ユーザ端末
130 OCT-GAN装置
150 データベース
210 プロセッサ
230 メモリ
250 ユーザ入出力部
270 ネットワーク入出力部
310 表データ前処理部
330 NODEベースの生成部
350 NODEベースの判別部
370 制御部