特開2022-181338 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特開2022-181338擬似データ生成装置、擬似データ生成方法及び擬似データ生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022181338

(43)【公開日】2022-12-08

(54)【発明の名称】擬似データ生成装置、擬似データ生成方法及び擬似データ生成プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20221201BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021088232

(22)【出願日】2021-05-26

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100106002

【弁理士】

【氏名又は名称】正林真之

(74)【代理人】

【識別番号】100120891

【弁理士】

【氏名又は名称】林一好

(72)【発明者】

【氏名】披田野清良

(72)【発明者】

【氏名】成定真太郎

(72)【発明者】

【氏名】清本晋作

(57)【要約】

【課題】構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐための対策手法を提供すること。
【解決手段】擬似データ生成装置１は、ノイズ、及び特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、非可逆特徴ベクトル及びクラスラベルを生成する生成器Ｇと、訓練データ又は擬似訓練データを入力として、当該入力が訓練データか擬似訓練データかを識別するための二項分類器Ｄ１と、非可逆特徴ベクトル及びクラスラベルを入力として、可逆特徴ベクトルの値を予測するための多クラス分類器Ｄ２と、二項分類器Ｄ１及び多クラス分類器Ｄ２を、分類精度を最大化するように学習すると共に、生成器Ｇを、分類精度を最小化するように学習する学習部１２と、訓練データに基づいて、当該訓練データを置換するための擬似データを、生成器Ｇにより生成して出力する出力部１３と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、
前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、
前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、
前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習部と、
訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力部と、を備える擬似データ生成装置。

【請求項2】

前記可逆特徴ベクトルを、所定数の離散値に量子化する符号化部を備える請求項１に記載の擬似データ生成装置。

【請求項3】

前記学習部は、前記二項分類器による分類精度の評価と、前記多クラス分類器による分類精度の評価とを、重み付けする請求項１又は請求項２に記載の擬似データ生成装置。

【請求項4】

前記出力部は、マルウェア検知用の学習モデルの訓練データを受け付け、当該訓練データを構成する前記可逆特徴ベクトルに基づいて、擬似訓練データを前記生成器により生成し出力する請求項１から請求項３のいずれかに記載の擬似データ生成装置。

【請求項5】

前記出力部は、マルウェア検知用の学習モデルのテストデータを受け付け、当該テストデータを構成する前記可逆特徴ベクトルに基づいて、擬似テストデータを前記生成器により生成し出力する請求項１から請求項３のいずれかに記載の擬似データ生成装置。

【請求項6】

ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、
前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、
前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、を備えたコンピュータが、
前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習ステップと、
訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力ステップと、を実行する擬似データ生成方法。

【請求項7】

請求項１から請求項５のいずれかに記載の擬似データ生成装置としてコンピュータを機能させるための擬似データ生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習に対するデータポイズニング攻撃を防御するための装置、方法及びプログラムに関する。

【背景技術】

【0002】

従来、機械学習に対する代表的な脅威の一つとして、訓練データに毒データを混入するデータポイズニング攻撃がある（例えば、非特許文献１参照）。毒データを混入することで、攻撃者は、学習モデルを意図的に操作することができ、この結果、学習モデルの性能低下等の問題が引き起こされる。

【0003】

データポイズニング攻撃は、主に画像認識の分野で議論されていたが、非特許文献２では、機械学習を用いたマルウェア検知への攻撃が示された。マルウェア検知では、画像認識と異なり、バイナリデータから特徴抽出を行い、特徴量で表現された訓練データを用いてモデルの学習が行われる。したがって、特徴量空間上で訓練データが改変されることで攻撃性能が最大化される。しかしながら、一般的に、特徴抽出とモデルの構築とは同時に行われるため、特徴量で表現された毒データを直接訓練データに混入することは現実的ではない。そこで、非特許文献２では、一部の特徴量がバイナリデータへ逆変換可能であることに着目し、当該特徴量のみに対して改変を行う新たな攻撃が示されている。この場合、特徴量空間上の改変をバイナリデータへ反映することができるため、攻撃性能の高い毒データを訓練データに混入できる。

【0004】

データポイズニング攻撃への対策として、例えば、非特許文献３では、線形モデルに対するトリム学習と呼ばれる防御手法が提案されている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Battista Biggio, Blaine Nelson, and Pavel Laskov. Poisoning attacks against support vector machines. arXiv preprint arXiv:1206.6389, 2012.

【非特許文献2】Giorgio Severi, Jim Meyer, Scott Coull, and Alina Oprea. Exploring backdoor poisoning attacks against malware classifiers. arXiv preprint arXiv:2003.01031, 2020.

【非特許文献3】Matthew Jagielski, Alina Oprea, Battista Biggio, Chang Liu, Cristina Nita-Rotaru, and Bo Li. Manipulating machine learning: Poisoning attacks and countermeasures for regression learning. In 2018 IEEE Symposium on Security and Privacy, 2018.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、トリム学習は、線形モデルを想定した防御手法であるため、深層学習等の非線型モデルには適用できなかった。このため、モデルの種類を問わない、汎用的な防御手法が必要とされている。
また、非特許文献２の攻撃のように実空間上で訓練データに改変が行われる場合、攻撃対象の特徴量による直接的な影響を防ぐだけでなく、その他の特徴量へ攻撃の効果が伝搬し、間接的にモデルに影響を与える可能性も考慮しなければならない。このため、攻撃対象の特徴量を利用しないといった単純な手法では十分に攻撃を防げなかった。

【0007】

本発明は、構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐための対策手法を提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明に係る擬似データ生成装置は、ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習部と、訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力部と、を備える。

【0009】

前記擬似データ生成装置は、前記可逆特徴ベクトルを、所定数の離散値に量子化する符号化部を備えてもよい。

【0010】

前記学習部は、前記二項分類器による分類精度の評価と、前記多クラス分類器による分類精度の評価とを、重み付けしてもよい。

【0011】

前記出力部は、マルウェア検知用の学習モデルの訓練データを受け付け、当該訓練データを構成する前記可逆特徴ベクトルに基づいて、擬似訓練データを前記生成器により生成し出力してもよい。

【0012】

前記出力部は、マルウェア検知用の学習モデルのテストデータを受け付け、当該テストデータを構成する前記可逆特徴ベクトルに基づいて、擬似テストデータを前記生成器により生成し出力してもよい。

【0013】

本発明に係る擬似データ生成方法は、ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、を備えたコンピュータが、前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習ステップと、訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力ステップと、を実行する。

【0014】

本発明に係る擬似データ生成プログラムは、前記擬似データ生成装置としてコンピュータを機能させるためのものである。

【発明の効果】

【0015】

本発明によれば、構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐことができる。

【図面の簡単な説明】

【0016】

【図1】実施形態における敵対的生成ネットワークの構成を示す図である。

【図2】実施形態における擬似データ生成装置の機能構成を示す図である。

【図3】実施形態における敵対的生成ネットワークの学習アルゴリズムを示すフローチャートである。

【発明を実施するための形態】

【0017】

以下、本発明の実施形態の一例について説明する。
本実施形態では、敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）を応用し、モデルの種類を問わず汎用的に利用可能な、ポイズニング攻撃への対策手法を提供する。

【0018】

機械学習の訓練データ（ｘ，ｙ）の集合において、ｘを実空間上の入力情報、ｙをｘが属するクラスを表すラベルとする。また、ｖをｘから抽出した特徴ベクトルとする。教師あり学習では、特徴抽出済みの訓練データの集合Ｃを用いて、ｖからｙを予測するためのモデルｆを学習する。
ｖは、２つの特徴ベクトルａとｂの組（ａ，ｂ）で表されるとする。ただし、ａの各要素は、実空間上の情報へ変換不可能な非可逆な特徴量を示す。また、ｂの各要素は実空間上の情報へ変換可能な可逆な特徴量を示す。

【0019】

ここで、データポイズニング攻撃により対象のモデルｆの性能低下を目的とする攻撃者は、以下の手順で毒データｘ’を生成する。
（１）任意の入力情報ｘを入手し、特徴抽出を行い、特徴ベクトルａ及びｂを得る。
（２）攻撃対象のモデルｆの性能を低下させるようにｂを改変し、ｂ’を得る。
（３）ｂの可逆性を利用して、特徴抽出を行った際にｂ’となるように実空間上でｘを改変し、毒データｘ’を得る。

【0020】

攻撃者は、生成した毒データｘ’と対応するクラスラベルｙとを関連付け、訓練データＣに混入させる。これにより、攻撃者は、攻撃対象のモデルｆを意図的に操作できる。
以下、Ｃ’を毒データ入りの訓練データ集合とする。

【0021】

本実施形態の擬似データ生成装置は、毒入りの訓練データ集合Ｃ’からポイズニング攻撃の影響を受けないモデルｆを構築するための擬似訓練データの集合Ｃ^＊を構築する。具体的には、擬似データ生成装置は、敵対的生成ネットワークを用いて、可逆な特徴ベクトルｂと相関性がない非可逆な特徴ベクトルａ及びクラスラベルｙを生成可能な生成器Ｇを学習する。

【0022】

図１は、本実施形態における敵対的生成ネットワークの構成を示す図である。
生成器Ｇは、ノイズｚ及び可逆な特徴ベクトルｂから非可逆な特徴ベクトルａとクラスラベルｙとを生成する深層ニューラルネットワークである。擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）は、与えられたｚ及びｂに対してＧ（ｚ，ｂ）を計算し、（Ｇ（ｚ，ｂ），ｂ）とすることで得られる。また、擬似訓練データの集合Ｃ^＊は、分布Ｐ（ｚ）及びＰ（ｂ）に従ってｚ及びｂをそれぞれ複数選択し、Ｇを用いて複数の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）を生成することで得られる。

【0023】

ここで、生成器Ｇは、Ｃ’を用いて以下の目的関数を満たすように学習される。
min_G max_D1,D2 [J1(G, D1) + Σ_b λ・J2(G, D2, b)] …（１）
ただし、Ｄ１は、与えられた訓練データ（ａ，ｂ，ｙ）が元のデータであるか擬似データであるかを識別するための二項分類器である。また、Ｄ２は、与えられた非可逆な特徴ベクトルａ及びクラスラベルｙから、対応する可逆な特徴ベクトルｂの値を予測するための多クラス分類器である。

【0024】

Ｄ１は、深層ニューラルネットワークで構成され、与えられたデータが元のデータである確率を出力する。
Ｄ２もまた深層ニューラルネットワークで構成され、分布（Ｄ２_１，…，Ｄ２_ｉ，…，Ｄ２_Ｎ）を出力する。Ｄ２_ｉは、与えられたａ及びｙに対応するｂの値がｂ_ｉである確率を示し、Ｎ個を足し合わせると１となる。ただし、ｂは、Ｎ個の値｛ｂ_１，…，ｂ_ｉ，…，ｂ_Ｎ｝のいずれかの値を取るとする。また、λは、ハイパーパラメータである。
なお、ｂが連続値又は無限の値を取る場合は、所定の量子化手段を用いて事前にＮ個の離散値に変換される。例えば、敵対的自己符号化器を用いて所定の分布となるように符号化されてもよい。

【0025】

Ｊ１は、分類器Ｄ１の性能、すなわち元のデータを元のデータの確率が高いと判定でき、擬似データを擬似データの確率が高いと判定できることを評価する関数である。また、Ｊ２は、分類器Ｄ２の性能、すなわち、擬似データのａ，ｙから元データの可逆な特徴ベクトルｂを高確率で推定できることを評価する関数である。Ｊ１及びＪ２は、それぞれ、例えば次のように表せる。
J1(G, D1) = E_P(a,b,y) [log D1(a,b,y)] + E_P(z),P(b) [1 - log D1(G(z,b), b)]
J2(G, D2, b) = E_P(z) [log D2_b(G(z,b))]
ただし、Ｐ（ａ，ｂ，ｙ）は（ａ，ｂ，ｙ）の分布である。

【0026】

図２は、本実施形態における擬似データ生成装置１の機能構成を示す図である。
擬似データ生成装置１は、サーバ装置又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイス等を備える。

【0027】

制御部１０は、擬似データ生成装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

【0028】

記憶部２０は、ハードウェア群を擬似データ生成装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスクドライブ（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（擬似データ生成プログラム）の他、敵対的生成ネットワークを構成するモデル（Ｇ，Ｄ１，Ｄ２）のパラメータ、訓練データ等を記憶する。

【0029】

制御部１０は、記憶部２０に記憶された各種パラメータに基づく学習モデルとして、生成器Ｇ、二項分類器Ｄ１、多クラス分類器Ｄ２と、これらの学習モデルを学習するための符号化部１１及び学習部１２と、訓練データ又はテストデータを置換するための擬似データを出力する出力部１３とを備える。擬似データ生成装置１は、これらの機能部を動作させることにより、ポイズニング攻撃に耐性のある擬似データを出力する。

【0030】

生成器Ｇ、二項分類器Ｄ１、多クラス分類器Ｄ２は、前述の通り、それぞれ深層ニューラルネットワークで構成される。
生成器Ｇは、ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルｂを入力として、この可逆特徴ベクトルｂと共に擬似訓練データを構成する非可逆特徴ベクトルａ及びクラスラベルｙを生成する。
二項分類器Ｄ１は、訓練データ又は擬似訓練データを入力として、この入力が訓練データか擬似訓練データかを識別する。
多クラス分類器Ｄ２は、非可逆特徴ベクトルａ及びクラスラベルｙを入力として、可逆特徴ベクトルｂの値を予測する。

【0031】

符号化部１１は、可逆特徴ベクトルｂを、多クラス分類器Ｄ２のクラス数に対応させるため、所定数（クラス数）の離散値に量子化する。

【0032】

学習部１２は、二項分類器Ｄ１及び多クラス分類器Ｄ２を、分類精度を最大化するように学習すると共に、生成器Ｇを、この分類精度を最小化するように学習する。

【0033】

出力部１３は、訓練データ又はテストデータに基づいて、訓練データ又はテストデータを置換するための擬似データを、生成器Ｇにより生成して出力する。
例えば、出力部１３は、マルウェア検知用の学習モデルの訓練データ（ａ，ｂ，ｙ）を受け付け、この訓練データを構成する可逆特徴ベクトルｂに基づいて、擬似訓練データ（ａ^＊，ｂ，ｙ^＊）を生成器Ｇにより生成し出力する。
また、出力部１３は、マルウェア検知用の学習モデルのテストデータ（ａ，ｂ）を受け付け、このテストデータを構成する可逆特徴ベクトルｂに基づいて、擬似テストデータ（ａ^＊，ｂ）を生成器Ｇにより生成し出力する。

【0034】

図３は、本実施形態における敵対的生成ネットワークの学習アルゴリズムを示すフローチャートである。
このアルゴリズムは、前述の式（１）で示される最適化問題を解く方法の一例である。

【0035】

ステップＳ１において、学習部１２は、生成器Ｇ、二項分類器Ｄ１、多クラス分類器Ｄ２を、深層ニューラルネットワークとして初期化する。

【0036】

ステップＳ２において、学習部１２は、毒データが混入した訓練データ集合Ｃ’に含まれる全ての訓練データを特徴ベクトルに変換する。

【0037】

ステップＳ３において、学習部１２は、Ｃ’からｍ個の訓練データ（ａ，ｂ，ｙ）を選択する。

【0038】

ステップＳ４において、学習部１２は、Ｐ（ｚ）及びＰ（ｂ）に従って、それぞれｍ個のノイズｚ及び可逆特徴ベクトルｂを選択し、Ｇ（ｚ，ｂ）を計算してｍ個の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）を得る。
なお、Ｐ（ｚ）は、例えば、正規分布等の予め決められた分布であり、Ｐ（ｂ）に従ったｂは、訓練データからランダムに選択することで得られる。

【0039】

ステップＳ５において、学習部１２は、ｍ個の訓練データ（ａ，ｂ，ｙ）から二項分類器Ｄ１に関する評価関数Ｊ１（Ｇ，Ｄ１）の勾配を計算し、勾配法を用いてＪ１（Ｇ，Ｄ１）を最大化するようにＤ１のパラメータを更新する。
なお、関数Ｊ１における擬似訓練データに関する項目は微分により消えるため、ここでは、訓練データのみを使用し、擬似訓練データは不要である。

【0040】

ステップＳ６において、学習部１２は、ｍ個の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）から生成器Ｇに関する評価関数Ｊ１（Ｇ，Ｄ１）の勾配を計算し、勾配法を用いてＪ１（Ｇ，Ｄ１）を最小化するようにＧのパラメータを更新する。
なお、関数Ｊ１における訓練データに関する項目は微分により消えるため、ここでは、擬似訓練データのみを使用し、訓練データは不要である。

【0041】

ステップＳ７において、学習部１２は、Ｐ（ｚ）に従ってｍ個のノイズｚを選択し、ｂ＝ｂ_ｉとして、それぞれのノイズｚに対してＧ（ｚ，ｂ）を計算し、ｍ個の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）を得る。
このステップは、変数ｉを１からＮまで変動させ、Ｎ個全てのｂ_ｉに対して行われ、学習部１２は、計Ｎｍ個の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）を得る。

【0042】

ステップＳ８において、学習部１２は、Ｎｍ個の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）から多クラス分類器Ｄ２に関するΣ_ｂλＪ２（Ｇ，Ｄ２，ｂ）の勾配を計算し、勾配法を用いてΣ_ｂλＪ２（Ｇ，Ｄ２，ｂ）を最大化するようにＤ２のパラメータを更新する。

【0043】

ステップＳ９において、学習部１２は、Ｎｍ個の擬似訓練データ（ａ^＊，ｂ^＊，ｙ^＊）から生成器Ｇに関するΣ_ｂλＪ２（Ｇ，Ｄ２，ｂ）の勾配を計算し、勾配法を用いてΣ_ｂλＪ２（Ｇ，Ｄ２，ｂ）を最小化するようにＧのパラメータを更新する。

【0044】

ステップＳ１０において、学習部１２は、ステップＳ３からＳ９までの処理を所定回数実行したか否かを判定する。この判定がＹＥＳの場合、処理は終了し、判定がＮＯの場合、処理はステップＳ３に戻り、学習部１２は、敵対的生成ネットワークの学習を繰り返す。
なお、繰り返しの回数は、各ニューラルネットワークのパラメータ値の収束が見込める回数が予め設定される。

【0045】

本実施形態によれば、擬似データ生成装置１は、ノイズ及び可逆特徴ベクトルから非可逆特徴ベクトル及びクラスラベルを生成する生成器Ｇ、元の訓練データと擬似訓練データとを識別するための二項分類器Ｄ１、非可逆特徴ベクトル及びクラスラベルから可逆特徴ベクトルを推定するための多クラス分類器Ｄ２を用いて敵対的生成ネットワークを構築する。擬似データ生成装置１は、ＧとＤ１、ＧとＤ２をそれぞれ競い合わせながら生成器Ｇを学習する。

【0046】

学習済みの生成器Ｇを用いて生成された擬似訓練データは、二項分類器Ｄ１の効果により、元の訓練データとの類似性が確保される。また、多クラス分類器Ｄ２の効果により、擬似訓練データを構成する可逆特徴ベクトルと非可逆特徴ベクトルとの相関性、及び可逆特徴ベクトルとクラスラベルとの相関性が除去される。
これにより、可逆特徴ベクトルへの攻撃の効果が非可逆特徴ベクトルへ伝搬することを防ぎつつ、攻撃対象の特徴量がモデルの性能に与える影響を排除することができ、さらには訓練データの改変によるモデルの性能低下も最小限に抑えられる。

【0047】

この結果、擬似データ生成装置１により生成される擬似データを用いて、構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐことができる。
特に、マルウェア検知システムにおいて、訓練データを擬似データに置換することにより、攻撃に耐性のある学習モデルを生成でき、あるいは、テストデータを擬似データに置換することにより、攻撃の効果を抑制することができる。

【0048】

ここで、元の訓練データと擬似訓練データとの類似性を確保することと、可逆な特徴量と非可逆な特徴量及びクラスラベルとの相関性を除去することとは、相反するものであるため、ＧとＤ１及びＧとＤ２の学習の優先度を調整するため、最適化問題式（１）におけるハイパーパラメータにより重みを導入する。これにより、擬似データ生成装置１は、元の訓練データとの類似性と、可逆な特徴量との相関性とのトレードオフを最適化できる。

【0049】

また、擬似データ生成装置１は、可逆特徴ベクトルが連続値又は無限の値を取る場合、多クラス分類器Ｄ２を構成するために、敵対的自己符号化器等の量子化の手段を適用して所定数の離散値に変換する。
これにより、擬似データ生成装置１は、特徴量の種類によらず、汎用的に擬似データを生成できる。

【0050】

なお、前述の実施形態により、例えば、マルウェア検知システムへのデータポイズニング攻撃に対して、モデルの種類を問わない汎用的な対策が可能となるので、ソフトウェア利用における安全性を向上できることから、国連が主導する持続可能な開発目標（ＳＤＧｓ）の目標９「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。

【0051】

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

【0052】

擬似データ生成装置１による擬似データ生成方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

【符号の説明】

【0053】

Ｄ１二項分類器
Ｄ２多クラス分類器
Ｇ生成器
１擬似データ生成装置
１０制御部
１１符号化部
１２学習部
１３出力部
２０記憶部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版