特開2024-131078 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特開2024-131078学習装置、データ生成装置、学習方法及び学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024131078

(43)【公開日】2024-09-30

(54)【発明の名称】学習装置、データ生成装置、学習方法及び学習プログラム

(51)【国際特許分類】

G06N 3/0475 20230101AFI20240920BHJP

G06N 20/00 20190101ALI20240920BHJP

G06N 3/094 20230101ALI20240920BHJP

【ＦＩ】

G06N3/0475

G06N20/00

G06N3/094

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023041120

(22)【出願日】2023-03-15

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】披田野清良

(72)【発明者】

【氏名】福島和英

(57)【要約】

【課題】プライバシリスクの増加を抑えつつ、ＡＩの精度及び公平性を向上した合成データを出力できるデータ生成装置を提供すること。
【解決手段】データ生成装置１は、合成データを出力する生成器Ｇと、データ拡張から特徴表現を獲得する符号化器Ｄとを含み、損失関数Ｌ１からＬ３に基づいて符号化器Ｄ、及び合成データの特徴表現を分類するヘッダｈ３を更新する処理を繰り返す第１更新部１１と、ヘッダｈ３の損失関数Ｌ３に対応した損失関数に基づいて生成器Ｇを更新する処理を繰り返す第２更新部１２と、損失関数Ｌ４に基づいてセンシティブなデータの特徴表現を分類するヘッダｈ４を更新する処理を繰り返す第３更新部１３と、損失関数Ｌ４に基づいて生成器Ｇを更新する処理を繰り返す第４更新部１４とを備え、損失関数Ｌ１は、センシティブなデータ及び非センシティブなデータそれぞれについて、データ数に応じた損失への貢献度が調整される。
【選択図】図１

【特許請求の範囲】

【請求項1】

ノイズに基づいて訓練データと類似した合成データを出力する生成器と、
前記訓練データ又は前記合成データのデータ拡張から特徴表現を獲得する符号化器と、
前記訓練データに対応する特徴表現を、教師あり対照学習によりセンシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するための第１損失関数への入力に変換する第１ヘッダと、
前記訓練データ及び前記合成データに対応する特徴表現を、教師あり対照学習により前記訓練データと前記合成データとを区別するための第２損失関数への入力に変換する第２ヘッダと、
前記訓練データ及び前記合成データに対応する特徴表現を、互いに識別するための第３損失関数への入力に変換する第３ヘッダと、
前記合成データのうち、センシティブな属性を持つデータ及び非センシティブな属性を持つデータに対応する特徴表現を、互いに識別するための第４損失関数への入力に変換する第４ヘッダと、を含む敵対的生成ネットワークが構成され、
前記第１損失関数及び前記第２損失関数の勾配に基づいて、前記第１ヘッダ、前記第２ヘッダ及び前記符号化器を更新する処理、並びに前記第３損失関数の勾配に基づいて、前記第３ヘッダを更新する処理を繰り返す第１更新部と、
前記第１更新部による更新処理、及び前記第３損失関数に対応しており、前記訓練データと前記合成データとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第２更新部と、
前記第２更新部による更新処理、及び前記第４損失関数に基づいて、前記第４ヘッダを更新する処理を繰り返す第３更新部と、
前記第３更新部による更新処理、及び前記第４損失関数に対応しており、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第４更新部と、を備え、
前記第１損失関数は、センシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれについて、データ数に応じた損失への貢献度が調整される学習装置。

【請求項2】

前記第１ヘッダ及び前記第２ヘッダは、対象の特徴表現を、データ間のコサイン類似度を算出するためのベクトルに変換する請求項１に記載の学習装置。

【請求項3】

前記第１損失関数は、前記コサイン類似度がセンシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれの集合内での平均値として調整される請求項２に記載の学習装置。

【請求項4】

前記第３ヘッダ及び前記第４ヘッダは、対象の特徴表現を識別するための推定値に変換する請求項１に記載の学習装置。

【請求項5】

請求項１から請求項４のいずれかに記載の学習装置により学習された前記生成器に対してノイズを入力し、前記合成データを出力する出力部を備えるデータ生成装置。

【請求項6】

ノイズに基づいて訓練データと類似した合成データを出力する生成器と、
前記訓練データ又は前記合成データのデータ拡張から特徴表現を獲得する符号化器と、
前記訓練データに対応する特徴表現を、教師あり対照学習によりセンシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するための第１損失関数への入力に変換する第１ヘッダと、
前記訓練データ及び前記合成データに対応する特徴表現を、教師あり対照学習により前記訓練データと前記合成データとを区別するための第２損失関数への入力に変換する第２ヘッダと、
前記訓練データ及び前記合成データに対応する特徴表現を、互いに識別するための第３損失関数への入力に変換する第３ヘッダと、
前記合成データのうち、センシティブな属性を持つデータ及び非センシティブな属性を持つデータに対応する特徴表現を、互いに識別するための第４損失関数への入力に変換する第４ヘッダと、を含む敵対的生成ネットワークを構成したコンピュータが、
前記第１損失関数及び前記第２損失関数の勾配に基づいて、前記第１ヘッダ、前記第２ヘッダ及び前記符号化器を更新する処理、並びに前記第３損失関数の勾配に基づいて、前記第３ヘッダを更新する処理を繰り返す第１更新ステップと、
前記第１更新ステップによる更新処理、及び前記第３損失関数に対応しており、前記訓練データと前記合成データとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第２更新ステップと、
前記第２更新ステップによる更新処理、及び前記第４損失関数に基づいて、前記第４ヘッダを更新する処理を繰り返す第３更新ステップと、
前記第３更新ステップによる更新処理、及び前記第４損失関数に対応しており、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第４更新ステップと、を実行し、
前記第１損失関数は、センシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれについて、データ数に応じた損失への貢献度が調整される学習方法。

【請求項7】

請求項１から請求項４のいずれかに記載の学習装置としてコンピュータを機能させるための学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、敵対的生成ネットワークを用いた公平なデータ生成手法に関する。

【背景技術】

【0002】

従来、ＡＩ（Artificial Intelligence）による公平な意思決定を目的として、敵対的生成ネットワークを用いてセンシティブな属性を持つデータ（例えば、女性の画像データ）の分布と非センシティブな属性を持つデータ（その他の画像データ）の分布とが同一となるように、すなわち区別できなくなるように生成器を学習し、生成器が出力する合成データを用いて公平なＡＩ（例えば、分類器）を構築しようとする試みがある（例えば、非特許文献１参照）。公平な合成データを訓練データとして何らかの分類器を構築した場合、この分類器は、センシティブな属性によらずに推論を行うことが可能となる。

【0003】

しかしながら、公平性に配慮してＡＩを構築した場合、その出力から訓練データを推定するメンバシップ推定攻撃が容易となることが知られている（例えば、非特許文献２参照）。この場合、特に、特定の属性を持つ訓練データに対する攻撃成功確率が大きく上昇することが指摘されている。

【0004】

また、非特許文献２では、分類器を対象として公平なＡＩのプライバシリスクが分析されているが、メンバシップ推定攻撃は、敵対的生成ネットワークに対しても適用できることが知られている。敵対的生成ネットワークに対するメンバシップ推定攻撃では、敵対的生成ネットワークを用いて学習した生成器が出力する合成データと、与えられたデータとの類似性から、生成器の学習に利用された訓練データが推定される。
敵対的生成ネットワークに対するメンバシップ推定攻撃への対策としては、差分プライバシを用いた手法や、訓練データの集合を複数のデータセットに分割して個別のデータセットに依存しないように制約を加えて生成器を汎化するＰｒｉｖＧＡＮと呼ばれる方法（例えば、非特許文献３参照）がある。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Xu et al., FairGAN: Fairness-aware Generative Adversarial Networks, IEEE Big Data 2018.

【非特許文献2】Chang et al., On the Privacy Risks of Algorithmic Fairness, EuroSP 2021.

【非特許文献3】Mukherjee et al., PrivGAN: Protecting GANs from Membership Inference Attacks at Low Cost, PETS 2021.

【非特許文献4】Jeong et al., Training GANs with Stronger Augmentations via Contrastive Discriminator, ICLR 2021.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、差分プライバシを用いた手法では、訓練データに対して大量のノイズを付与することで安全性を担保するため、ＡＩの精度が大幅に低下していた。また、ＰｒｉｖＧＡＮでは、データセットを分割することで個々のデータセットのサイズが小さくなるため、一般的に大規模なデータセットが必要とされる敵対的生成ネットワークの学習には適さなかった。
さらに、これらの手法は、公平な敵対的生成ネットワークを対象としていないため、特定の属性に対して攻撃成功確率が上昇する問題を防げない可能性があった。

【0007】

また、例えば非特許文献４では、教師なし対照学習を用いた敵対的生成ネットワークにより分類器の精度向上を図る技術が提案されているが、公平なデータ生成をするものではなく、プライバシリスクを低減する効果も期待できなかった。

【0008】

本発明は、プライバシリスクの増加を抑えつつ、ＡＩの精度及び公平性を向上した合成データを出力できるデータ生成装置を提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明に係る学習装置は、ノイズに基づいて訓練データと類似した合成データを出力する生成器と、前記訓練データ又は前記合成データのデータ拡張から特徴表現を獲得する符号化器と、前記訓練データに対応する特徴表現を、教師あり対照学習によりセンシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するための第１損失関数への入力に変換する第１ヘッダと、前記訓練データ及び前記合成データに対応する特徴表現を、教師あり対照学習により前記訓練データと前記合成データとを区別するための第２損失関数への入力に変換する第２ヘッダと、前記訓練データ及び前記合成データに対応する特徴表現を、互いに識別するための第３損失関数への入力に変換する第３ヘッダと、前記合成データのうち、センシティブな属性を持つデータ及び非センシティブな属性を持つデータに対応する特徴表現を、互いに識別するための第４損失関数への入力に変換する第４ヘッダと、を含む敵対的生成ネットワークが構成され、前記第１損失関数及び前記第２損失関数の勾配に基づいて、前記第１ヘッダ、前記第２ヘッダ及び前記符号化器を更新する処理、並びに前記第３損失関数の勾配に基づいて、前記第３ヘッダを更新する処理を繰り返す第１更新部と、前記第１更新部による更新処理、及び前記第３損失関数に対応しており、前記訓練データと前記合成データとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第２更新部と、前記第２更新部による更新処理、及び前記第４損失関数に基づいて、前記第４ヘッダを更新する処理を繰り返す第３更新部と、前記第３更新部による更新処理、及び前記第４損失関数に対応しており、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第４更新部と、を備え、前記第１損失関数は、センシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれについて、データ数に応じた損失への貢献度が調整される。

【0010】

前記第１ヘッダ及び前記第２ヘッダは、対象の特徴表現を、データ間のコサイン類似度を算出するためのベクトルに変換してもよい。

【0011】

前記第１損失関数は、前記コサイン類似度がセンシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれの集合内での平均値として調整されてもよい。

【0012】

前記第３ヘッダ及び前記第４ヘッダは、対象の特徴表現を識別するための推定値に変換してもよい。

【0013】

本発明に係るデータ生成装置は、前記学習装置により学習された前記生成器に対してノイズを入力し、前記合成データを出力する出力部を備える。

【0014】

本発明に係る学習方法は、ノイズに基づいて訓練データと類似した合成データを出力する生成器と、前記訓練データ又は前記合成データのデータ拡張から特徴表現を獲得する符号化器と、前記訓練データに対応する特徴表現を、教師あり対照学習によりセンシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するための第１損失関数への入力に変換する第１ヘッダと、前記訓練データ及び前記合成データに対応する特徴表現を、教師あり対照学習により前記訓練データと前記合成データとを区別するための第２損失関数への入力に変換する第２ヘッダと、前記訓練データ及び前記合成データに対応する特徴表現を、互いに識別するための第３損失関数への入力に変換する第３ヘッダと、前記合成データのうち、センシティブな属性を持つデータ及び非センシティブな属性を持つデータに対応する特徴表現を、互いに識別するための第４損失関数への入力に変換する第４ヘッダと、を含む敵対的生成ネットワークを構成したコンピュータが、前記第１損失関数及び前記第２損失関数の勾配に基づいて、前記第１ヘッダ、前記第２ヘッダ及び前記符号化器を更新する処理、並びに前記第３損失関数の勾配に基づいて、前記第３ヘッダを更新する処理を繰り返す第１更新ステップと、前記第１更新ステップによる更新処理、及び前記第３損失関数に対応しており、前記訓練データと前記合成データとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第２更新ステップと、前記第２更新ステップによる更新処理、及び前記第４損失関数に基づいて、前記第４ヘッダを更新する処理を繰り返す第３更新ステップと、前記第３更新ステップによる更新処理、及び前記第４損失関数に対応しており、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できないようにするための損失関数に基づいて、前記生成器を更新する処理を繰り返す第４更新ステップと、を実行し、前記第１損失関数は、センシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれについて、データ数に応じた損失への貢献度が調整される。

【0015】

本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。

【発明の効果】

【0016】

本発明によれば、プライバシリスクの増加を抑えつつ、ＡＩの精度及び公平性を向上した合成データを出力できる。

【図面の簡単な説明】

【0017】

【図1】実施形態におけるデータ生成装置の機能構成を示す図である。

【図2A】実施形態におけるデータ生成装置の学習フェーズにおける処理アルゴリズムを示す第１のフローチャートである。

【図2B】実施形態におけるデータ生成装置の学習フェーズにおける処理アルゴリズムを示す第２のフローチャートである。

【発明を実施するための形態】

【0018】

以下、本発明の実施形態の一例について説明する。
本実施形態のデータ生成装置は、非特許文献４で示されている教師なし対照学習を用いた敵対的生成ネットワークに代えて、教師あり対照学習を適用する。データ生成装置は、データ拡張及び教師あり対照学習を用いてセンシティブな属性及び非センシティブな属性の両方の訓練データを多様化することで、訓練データのみに類似しないプライバシに配慮した公平な合成データを生成する。

【0019】

図１は、本実施形態におけるデータ生成装置１（学習装置）の機能構成を示す図である。
データ生成装置１は、制御部１０及び記憶部２０の他、各種の入出力インタフェース等を備えた情報処理装置（コンピュータ）である。

【0020】

制御部１０は、データ生成装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

【0021】

記憶部２０は、ハードウェア群をデータ生成装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスクドライブ（ＨＤＤ）等であってよい。
具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（学習プログラム、データ生成プログラム）の他、敵対的生成ネットワークを構成する学習モデルのパラメータ、訓練データ等を記憶する。

【0022】

制御部１０は、記憶部２０に記憶された各種パラメータに基づく複数の学習モデルとして生成器Ｇ、符号化器Ｄ、第１ヘッダｈ１、第２ヘッダｈ２、第３ヘッダｈ３及び第４ヘッダｈ４と、これらの学習モデルを学習するための第１更新部１１、第２更新部１２、第３更新部１３及び第４更新部１４と、学習済みのモデルを用いて合成データを出力する出力部１５とを備える。
データ生成装置１は、これらの機能部を動作させることにより、生成器Ｇを学習し（学習フェーズ）、学習済みの生成器Ｇを用いてプライバシに配慮した公平な合成データを出力する（生成フェーズ）。

【0023】

制御部１０は、次に示す複数の学習モデルを含む敵対的生成ネットワークを構成する。
生成器Ｇは、ノイズに基づいて訓練データと類似した合成データを出力するニューラルネットワークであり、学習フェーズによりこの生成器Ｇが学習される。
符号化器Ｄは、訓練データ又は合成データのデータ拡張から特徴表現を獲得するニューラルネットワークである。
第１ヘッダｈ１は、訓練データに対応する特徴表現を、教師あり対照学習によりセンシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するための第１損失関数への入力に変換するニューラルネットワークである。
第２ヘッダｈ２は、訓練データ及び合成データに対応する特徴表現を、教師あり対照学習により訓練データと合成データとを区別するための第２損失関数への入力に変換するニューラルネットワークである。
第３ヘッダｈ３は、訓練データ及び合成データに対応する特徴表現を、互いに識別するための第３損失関数への入力である推定値に変換するニューラルネットワークである。
第４ヘッダｈ４は、合成データのうち、センシティブな属性を持つデータ及び非センシティブな属性を持つデータに対応する特徴表現を、互いに識別するための第４損失関数への入力である推定値に変換するニューラルネットワークである。

【0024】

ここで、第１損失関数は、センシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれについて、データ数に応じた損失への貢献度が調整される。
また、第１ヘッダｈ１及び第２ヘッダｈ２は、対象の特徴表現を、データ間のコサイン類似度を算出するためのベクトルに変換するものであり、第１損失関数は、コサイン類似度がセンシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれの集合内での合計に代えて平均値として調整される。

【0025】

第１更新部１１は、学習フェーズにおいて、第１損失関数及び第２損失関数を合計した損失関数の勾配に基づいて、第１ヘッダｈ１、第２ヘッダｈ２及び符号化器Ｄを更新する処理、並びに第３損失関数の勾配に基づいて、第３ヘッダｈ３を更新する処理を繰り返す。

【0026】

第２更新部１２は、学習フェーズにおいて、第１更新部１１による更新処理と、第３損失関数に対応し、訓練データと合成データとを区別できないようにするための損失関数に基づいて、生成器Ｇを更新する処理とを繰り返す。

【0027】

第３更新部１３は、学習フェーズにおいて、第２更新部１２による更新処理と、第４損失関数に基づいて第４ヘッダｈ４を更新する処理とを繰り返す。

【0028】

第４更新部１４は、学習フェーズにおいて、第３更新部１３による更新処理と、第４損失関数に対応し、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できないようにするための損失関数に基づいて、生成器Ｇを更新する処理とを繰り返す。

【0029】

出力部１５は、生成フェーズにおいて、第４更新部１４により学習された生成器Ｇに対してノイズを入力し、合成データを出力する。

【0030】

図２Ａ及び２Ｂは、本実施形態におけるデータ生成装置１の学習フェーズの動作手順を示すフローチャートである。

【0031】

ステップＳ１において、第１更新部１１は、訓練データの集合ＸからＮ個の訓練データを選択してバッチＢを作成する。また、第１更新部１１は、生成器Ｇを用いてＮ個の合成データを生成し、合成データのバッチＢ’を作成する。

【0032】

ステップＳ２において、第１更新部１１は、まず、３つのデータ拡張関数ｔ１、ｔ２、ｔ３を選択する。
そして、第１更新部１１は、バッチＢに含まれるそれぞれのデータに対して、関数ｔ１及びＤを順番に適用して特徴表現されたデータの集合Ｚ１を得る。また、第１更新部１１は、同様にバッチＢに含まれるそれぞれのデータに対して、関数ｔ２及びＤを順番に適用してデータ集合Ｚ２を得る。
さらに、第１更新部１１は、バッチＢ’に含まれるそれぞれのデータに対して、関数ｔ３及びＤを順番に適用してデータ集合Ｚ３を得る。

【0033】

ステップＳ３において、第１更新部１１は、データ集合Ｚ１及びＺ２を用いて、損失関数Ｌ１（第１損失関数）を次式のように計算する。

【数1】

ただし、Ｚ_ｉは、Ｚ１又はＺ２に含まれるｚ_ｉと同様の属性（センシティブ又は非センシティブ）を持つデータの集合とする。また、Ｚ_ｓは、属性ｓを持つデータの集合とする。Ｓは、属性ｓの取りうる値の集合とし、センシティブな属性を表す１、非センシティブな属性を表す０からなる。ｓｉｍは、ベクトル間のコサイン類似度を返す関数とする。

【0034】

損失関数Ｌ１は、センシティブ又は非センシティブな属性を持つそれぞれのデータ集合内におけるデータ間の類似度が高く、センシティブな属性を持つデータと非センシティブな属性を持つデータとの類似度が低い場合に値（損失）が小さくなる。すなわち、損失関数Ｌ１は、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するように符号化器Ｄ及びヘッダｈ１を学習するための損失を計算するものである。
ここで、式中の１／｜Ｚ_ｓ｜により、各属性のデータ数に応じて損失への貢献度が調整されている。

【0035】

ステップＳ４において、第１更新部１１は、データ集合Ｚ２及びデータ集合Ｚ３を用いて、損失関数Ｌ２（第２損失関数）を次式のように計算する。

【数2】

【0036】

損失関数Ｌ２は、合成データ間の類似度が高く、訓練データと合成データとの類似度が低い場合に値（損失）が小さくなる。すなわち、損失関数Ｌ２は、訓練データと合成データとを区別するように符号化器Ｄ及びヘッダｈ２を学習するための損失を計算するものである。

【0037】

ステップＳ５において、第１更新部１１は、データ集合Ｚ２及びＺ３に含まれるそれぞれのデータに対して分類器としてのヘッダｈ３を適用し、損失関数Ｌ３（第３損失関数）を次式のように計算する。ただし、Ｚ２及びＺ３に含まれるデータは、全て勾配の計算を停止（ｓｔｏｐ－ｇｒａｄｉｅｎｔ）し、損失関数Ｌ３を符号化器Ｄの学習に用いない。

【数3】

ただし、σは、シグモイド関数とする。

【0038】

損失関数Ｌ３は、ヘッダｈ３によって訓練データが大きな値（正数）に、合成データが小さな値（負数）に変換された場合に値（損失）が小さくなる。すなわち、損失関数Ｌ３は、訓練データと合成データとを区別するようにヘッダｈ３を学習するための損失を計算するものである。

【0039】

ステップＳ６において、第１更新部１１は、符号化器Ｄ用の損失関数ＬＤを次式のように計算する。

【数4】

【0040】

ステップＳ７において、第１更新部１１は、ＬＤの勾配を用いて符号化器Ｄ及びヘッダｈ１～ｈ３を更新する。より詳細には、第１更新部１１は、Ｌ１及びＬ２の勾配を用いて符号化器Ｄとヘッダｈ１及びｈ２とを更新する処理と、Ｌ３の勾配を用いてヘッダｈ３を更新する処理とを並列に実行する。
ステップＳ８において、第１更新部１１は、ステップＳ１からステップＳ７までの処理をＴ１回繰り返す。すなわち、Ｔ１回に満たない場合、処理はステップＳ１に戻る。

【0041】

ステップＳ９において、第２更新部１２は、データ集合Ｚ３を用いて生成器Ｇ用の損失関数ＬＧ１を次式のように計算する。

【数5】

【0042】

損失関数ＬＧ１は、Ｌ３における合成データに関する項とは逆に、ヘッダｈ３によって合成データが大きな値（正数）に変換された場合に値（損失）が小さくなる。すなわち、訓練データと合成データとを区別できないように生成器Ｇを学習するための損失を計算するものである。

【0043】

ステップＳ１０において、第２更新部１２は、損失関数ＬＧ１の勾配を用いて、生成器Ｇを更新する。
ステップＳ１１において、第２更新部１２は、ステップＳ１からステップＳ１０までの処理をＴ２回繰り返す。すなわち、Ｔ２回に満たない場合、処理はステップＳ１に戻る。

【0044】

ステップＳ１２において、第３更新部１３は、生成器Ｇを用いてセンシティブな属性を持つＮ個の合成データと、非センシティブな属性を持つＮ個の合成データとを生成し、これらをまとめてバッチＢ”を作成する。

【0045】

ステップＳ１３において、第３更新部１３は、データ拡張関数ｔ４を選択する。なお、ｔ４は、ｔ１～ｔ３のいずれかと同一であってもよい。
そして、第３更新部１３は、バッチＢ”に含まれるそれぞれのデータに対してｔ４及びＤを順番に適用し、特徴表現されたセンシティブなデータの集合Ｒ１及び非センシティブなデータの集合Ｒ２を得る。ただし、Ｒ１及びＲ２に含まれるデータは、全て勾配の計算を停止する。

【0046】

ステップＳ１４において、第３更新部１３は、データ集合Ｒ１及びＲ２に含まれるそれぞれのデータに対して分類器としてのヘッダｈ４を適用し、損失関数Ｌ４（第４損失関数）を次式のように計算する。

【数6】

【0047】

損失関数Ｌ４は、ヘッダｈ４によってセンシティブな属性を持つデータが大きな値（正数）に、非センシティブな属性を持つデータが小さな値（負数）に変換された場合に値（損失）が小さくなる。すなわち、損失関数Ｌ４は、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別するようにヘッダｈ４を学習するための損失を計算するものである。

【0048】

ステップＳ１５において、第３更新部１３は、損失関数Ｌ４の勾配を用いて、ヘッダｈ４を更新する。
ステップＳ１６において、第３更新部１３は、ステップＳ１からステップＳ１５までの処理をＴ３回繰り返す。すなわち、Ｔ３回に満たない場合、処理はステップＳ１に戻る。

【0049】

ステップＳ１７において、第４更新部１４は、データ集合Ｒ１及びＲ２に含まれるそれぞれのデータに対して分類器としてのヘッダｈ４を適用し、生成器Ｇ用の損失関数ＬＧ２を次式のように計算する。

【数7】

【0050】

損失関数ＬＧ２は、Ｌ４とは逆に、ヘッダｈ４によってセンシティブな属性を持つデータが小さな値（負数）に、非センシティブな属性を持つデータが大きな値（正数）に変換された場合に値（損失）が小さくなる。すなわち、損失関数ＬＧ２は、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できないように生成器Ｇを学習するための損失を計算するものである。

【0051】

ステップＳ１８において、第４更新部１４は、損失関数ＬＧ２の勾配を用いて、生成器Ｇを更新する。
ステップＳ１９において、第４更新部１４は、ステップＳ１からステップＳ１８までの処理をＴ４回繰り返す。すなわち、Ｔ４回に満たない場合、処理はステップＳ１に戻る。

【0052】

このように、データ生成装置１は、まず、損失関数ＬＤに基づく学習モデル（符号化器Ｄ及びヘッダｈ１、ｈ２、ｈ３）と、損失関数ＬＧ１に基づく学習モデル（生成器Ｇ）とを競い合わせることにより、訓練データと類似し、かつ、センシティブな属性を持つデータと非センシティブな属性を持つデータとが特徴空間内で識別され得る合成データを生成するように生成器Ｇ及び符号化器Ｄを学習する（ステップＳ１～Ｓ１１）。
そのうえで、データ生成装置１は、さらに、損失関数Ｌ４に基づく学習モデル（ヘッダｈ４）と、損失関数ＬＧ２に基づく学習モデル（生成器Ｇ）とを競い合わせることにより、センシティブな属性を持つデータと非センシティブな属性を持つデータとを区別できない公平な合成データを生成するように生成器Ｇを学習する（ステップＳ１２～Ｓ１９）。

【0053】

なお、バッチのデータ数Ｎ、及び繰り返し回数Ｔ１～Ｔ４は、データの種類や適用分野等に応じて適宜設定されてよい。また、Ｔ１～Ｔ３は、繰り返し処理の都度、変更されてもよい。

【0054】

本実施形態によれば、データ生成装置１は、敵対的生成ネットワークにおいて、センシティブな属性を持つデータ及び非センシティブな属性を持つデータの特徴表現を、教師あり対照学習を用いて獲得（符号化器Ｄを学習）するとともに、センシティブな属性を持つデータと非センシティブな属性を持つデータとを識別するための分類器（ヘッダｈ４）を導入して分類器と合成データを出力する生成器Ｇとを競い合わせながら生成器Ｇを学習する。これにより、訓練データが多様化されるため、データ生成装置１は、元の訓練データのみに依存しない合成データを生成する生成器Ｇが構築でき、訓練データとそれ以外のデータとが区別できなくなるため、プライバシに配慮した公平なデータを生成できる。

【0055】

さらに、教師あり対照学習において、訓練データに含まれるセンシティブな属性を持つデータ数及び非センシティブな属性を持つデータ数に応じてそれぞれの貢献度を調整した対照損失を用いることで、データ生成装置１は、訓練データの少ない属性を持つデータに対する特徴表現を改善し、当該属性を持つデータの学習を適切に行える。この結果、データ生成装置１は、特定の属性を持つデータに対してのプライバシリスクの増加を抑えつつ、さらに、データ拡張及び対照学習を用いて合成データを多様化することで、合成データを用いた分類器等のＡＩの精度及び公平性を向上できる。

【0056】

また、データ生成装置１は、対照学習に用いる特徴表現のコサイン類似度を、センシティブな属性を持つデータ及び非センシティブな属性を持つデータそれぞれの集合内での合計に代えて平均値として損失関数Ｌ１を調整する。
これにより、データ生成装置１は、教師あり対照学習における対照損失を容易に調整して訓練データを多様化できる。
さらに、データ生成装置１は、既知の分類器を適用して推定値により損失関数を定義することで、公平性に関する敵対的生成ネットワークを容易に構成できる。

【0057】

なお、本実施形態により、例えば、プライバシリスクを低減した公平な合成データによりＡＩを構築できることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標９「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。

【0058】

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

【0059】

データ生成装置１による学習方法及びデータ生成方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

【符号の説明】

【0060】

Ｄ符号化器
Ｇ生成器
ｈ１第１ヘッダ
ｈ２第２ヘッダ
ｈ３第３ヘッダ
ｈ４第４ヘッダ
１データ生成装置
１０制御部
１１第１更新部
１２第２更新部
１３第３更新部
１４第４更新部
１５出力部
２０記憶部

【図1】

【図2A】

【図2B】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版