(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181338
(43)【公開日】2022-12-08
(54)【発明の名称】擬似データ生成装置、擬似データ生成方法及び擬似データ生成プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20221201BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021088232
(22)【出願日】2021-05-26
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】披田野 清良
(72)【発明者】
【氏名】成定 真太郎
(72)【発明者】
【氏名】清本 晋作
(57)【要約】
【課題】構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐための対策手法を提供すること。
【解決手段】擬似データ生成装置1は、ノイズ、及び特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、非可逆特徴ベクトル及びクラスラベルを生成する生成器Gと、訓練データ又は擬似訓練データを入力として、当該入力が訓練データか擬似訓練データかを識別するための二項分類器D1と、非可逆特徴ベクトル及びクラスラベルを入力として、可逆特徴ベクトルの値を予測するための多クラス分類器D2と、二項分類器D1及び多クラス分類器D2を、分類精度を最大化するように学習すると共に、生成器Gを、分類精度を最小化するように学習する学習部12と、訓練データに基づいて、当該訓練データを置換するための擬似データを、生成器Gにより生成して出力する出力部13と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、
前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、
前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、
前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習部と、
訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力部と、を備える擬似データ生成装置。
【請求項2】
前記可逆特徴ベクトルを、所定数の離散値に量子化する符号化部を備える請求項1に記載の擬似データ生成装置。
【請求項3】
前記学習部は、前記二項分類器による分類精度の評価と、前記多クラス分類器による分類精度の評価とを、重み付けする請求項1又は請求項2に記載の擬似データ生成装置。
【請求項4】
前記出力部は、マルウェア検知用の学習モデルの訓練データを受け付け、当該訓練データを構成する前記可逆特徴ベクトルに基づいて、擬似訓練データを前記生成器により生成し出力する請求項1から請求項3のいずれかに記載の擬似データ生成装置。
【請求項5】
前記出力部は、マルウェア検知用の学習モデルのテストデータを受け付け、当該テストデータを構成する前記可逆特徴ベクトルに基づいて、擬似テストデータを前記生成器により生成し出力する請求項1から請求項3のいずれかに記載の擬似データ生成装置。
【請求項6】
ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、
前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、
前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、を備えたコンピュータが、
前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習ステップと、
訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力ステップと、を実行する擬似データ生成方法。
【請求項7】
請求項1から請求項5のいずれかに記載の擬似データ生成装置としてコンピュータを機能させるための擬似データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習に対するデータポイズニング攻撃を防御するための装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、機械学習に対する代表的な脅威の一つとして、訓練データに毒データを混入するデータポイズニング攻撃がある(例えば、非特許文献1参照)。毒データを混入することで、攻撃者は、学習モデルを意図的に操作することができ、この結果、学習モデルの性能低下等の問題が引き起こされる。
【0003】
データポイズニング攻撃は、主に画像認識の分野で議論されていたが、非特許文献2では、機械学習を用いたマルウェア検知への攻撃が示された。マルウェア検知では、画像認識と異なり、バイナリデータから特徴抽出を行い、特徴量で表現された訓練データを用いてモデルの学習が行われる。したがって、特徴量空間上で訓練データが改変されることで攻撃性能が最大化される。しかしながら、一般的に、特徴抽出とモデルの構築とは同時に行われるため、特徴量で表現された毒データを直接訓練データに混入することは現実的ではない。そこで、非特許文献2では、一部の特徴量がバイナリデータへ逆変換可能であることに着目し、当該特徴量のみに対して改変を行う新たな攻撃が示されている。この場合、特徴量空間上の改変をバイナリデータへ反映することができるため、攻撃性能の高い毒データを訓練データに混入できる。
【0004】
データポイズニング攻撃への対策として、例えば、非特許文献3では、線形モデルに対するトリム学習と呼ばれる防御手法が提案されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Battista Biggio, Blaine Nelson, and Pavel Laskov. Poisoning attacks against support vector machines. arXiv preprint arXiv:1206.6389, 2012.
【非特許文献2】Giorgio Severi, Jim Meyer, Scott Coull, and Alina Oprea. Exploring backdoor poisoning attacks against malware classifiers. arXiv preprint arXiv:2003.01031, 2020.
【非特許文献3】Matthew Jagielski, Alina Oprea, Battista Biggio, Chang Liu, Cristina Nita-Rotaru, and Bo Li. Manipulating machine learning: Poisoning attacks and countermeasures for regression learning. In 2018 IEEE Symposium on Security and Privacy, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、トリム学習は、線形モデルを想定した防御手法であるため、深層学習等の非線型モデルには適用できなかった。このため、モデルの種類を問わない、汎用的な防御手法が必要とされている。
また、非特許文献2の攻撃のように実空間上で訓練データに改変が行われる場合、攻撃対象の特徴量による直接的な影響を防ぐだけでなく、その他の特徴量へ攻撃の効果が伝搬し、間接的にモデルに影響を与える可能性も考慮しなければならない。このため、攻撃対象の特徴量を利用しないといった単純な手法では十分に攻撃を防げなかった。
【0007】
本発明は、構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐための対策手法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る擬似データ生成装置は、ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習部と、訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力部と、を備える。
【0009】
前記擬似データ生成装置は、前記可逆特徴ベクトルを、所定数の離散値に量子化する符号化部を備えてもよい。
【0010】
前記学習部は、前記二項分類器による分類精度の評価と、前記多クラス分類器による分類精度の評価とを、重み付けしてもよい。
【0011】
前記出力部は、マルウェア検知用の学習モデルの訓練データを受け付け、当該訓練データを構成する前記可逆特徴ベクトルに基づいて、擬似訓練データを前記生成器により生成し出力してもよい。
【0012】
前記出力部は、マルウェア検知用の学習モデルのテストデータを受け付け、当該テストデータを構成する前記可逆特徴ベクトルに基づいて、擬似テストデータを前記生成器により生成し出力してもよい。
【0013】
本発明に係る擬似データ生成方法は、ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルを入力として、当該可逆特徴ベクトルと共に擬似訓練データを構成する非可逆特徴ベクトル及びクラスラベルを生成する生成器と、前記訓練データ又は前記擬似訓練データを入力として、当該入力が前記訓練データか前記擬似訓練データかを識別するための二項分類器と、前記非可逆特徴ベクトル及び前記クラスラベルを入力として、前記可逆特徴ベクトルの値を予測するための多クラス分類器と、を備えたコンピュータが、前記二項分類器及び前記多クラス分類器を、分類精度を最大化するように学習すると共に、前記生成器を、前記分類精度を最小化するように学習する学習ステップと、訓練データ又はテストデータに基づいて、当該訓練データ又はテストデータを置換するための擬似データを、前記生成器により生成して出力する出力ステップと、を実行する。
【0014】
本発明に係る擬似データ生成プログラムは、前記擬似データ生成装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0015】
本発明によれば、構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐことができる。
【図面の簡単な説明】
【0016】
【
図1】実施形態における敵対的生成ネットワークの構成を示す図である。
【
図2】実施形態における擬似データ生成装置の機能構成を示す図である。
【
図3】実施形態における敵対的生成ネットワークの学習アルゴリズムを示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態の一例について説明する。
本実施形態では、敵対的生成ネットワーク(GAN: Generative Adversarial Networks)を応用し、モデルの種類を問わず汎用的に利用可能な、ポイズニング攻撃への対策手法を提供する。
【0018】
機械学習の訓練データ(x,y)の集合において、xを実空間上の入力情報、yをxが属するクラスを表すラベルとする。また、vをxから抽出した特徴ベクトルとする。教師あり学習では、特徴抽出済みの訓練データの集合Cを用いて、vからyを予測するためのモデルfを学習する。
vは、2つの特徴ベクトルaとbの組(a,b)で表されるとする。ただし、aの各要素は、実空間上の情報へ変換不可能な非可逆な特徴量を示す。また、bの各要素は実空間上の情報へ変換可能な可逆な特徴量を示す。
【0019】
ここで、データポイズニング攻撃により対象のモデルfの性能低下を目的とする攻撃者は、以下の手順で毒データx’を生成する。
(1)任意の入力情報xを入手し、特徴抽出を行い、特徴ベクトルa及びbを得る。
(2)攻撃対象のモデルfの性能を低下させるようにbを改変し、b’を得る。
(3)bの可逆性を利用して、特徴抽出を行った際にb’となるように実空間上でxを改変し、毒データx’を得る。
【0020】
攻撃者は、生成した毒データx’と対応するクラスラベルyとを関連付け、訓練データCに混入させる。これにより、攻撃者は、攻撃対象のモデルfを意図的に操作できる。
以下、C’を毒データ入りの訓練データ集合とする。
【0021】
本実施形態の擬似データ生成装置は、毒入りの訓練データ集合C’からポイズニング攻撃の影響を受けないモデルfを構築するための擬似訓練データの集合C*を構築する。具体的には、擬似データ生成装置は、敵対的生成ネットワークを用いて、可逆な特徴ベクトルbと相関性がない非可逆な特徴ベクトルa及びクラスラベルyを生成可能な生成器Gを学習する。
【0022】
図1は、本実施形態における敵対的生成ネットワークの構成を示す図である。
生成器Gは、ノイズz及び可逆な特徴ベクトルbから非可逆な特徴ベクトルaとクラスラベルyとを生成する深層ニューラルネットワークである。擬似訓練データ(a
*,b
*,y
*)は、与えられたz及びbに対してG(z,b)を計算し、(G(z,b),b)とすることで得られる。また、擬似訓練データの集合C
*は、分布P(z)及びP(b)に従ってz及びbをそれぞれ複数選択し、Gを用いて複数の擬似訓練データ(a
*,b
*,y
*)を生成することで得られる。
【0023】
ここで、生成器Gは、C’を用いて以下の目的関数を満たすように学習される。
minG maxD1,D2 [J1(G, D1) + Σb λ・J2(G, D2, b)] …(1)
ただし、D1は、与えられた訓練データ(a,b,y)が元のデータであるか擬似データであるかを識別するための二項分類器である。また、D2は、与えられた非可逆な特徴ベクトルa及びクラスラベルyから、対応する可逆な特徴ベクトルbの値を予測するための多クラス分類器である。
【0024】
D1は、深層ニューラルネットワークで構成され、与えられたデータが元のデータである確率を出力する。
D2もまた深層ニューラルネットワークで構成され、分布(D21,…,D2i,…,D2N)を出力する。D2iは、与えられたa及びyに対応するbの値がbiである確率を示し、N個を足し合わせると1となる。ただし、bは、N個の値{b1,…,bi,…,bN}のいずれかの値を取るとする。また、λは、ハイパーパラメータである。
なお、bが連続値又は無限の値を取る場合は、所定の量子化手段を用いて事前にN個の離散値に変換される。例えば、敵対的自己符号化器を用いて所定の分布となるように符号化されてもよい。
【0025】
J1は、分類器D1の性能、すなわち元のデータを元のデータの確率が高いと判定でき、擬似データを擬似データの確率が高いと判定できることを評価する関数である。また、J2は、分類器D2の性能、すなわち、擬似データのa,yから元データの可逆な特徴ベクトルbを高確率で推定できることを評価する関数である。J1及びJ2は、それぞれ、例えば次のように表せる。
J1(G, D1) = EP(a,b,y) [log D1(a,b,y)] + EP(z),P(b) [1 - log D1(G(z,b), b)]
J2(G, D2, b) = EP(z) [log D2b(G(z,b))]
ただし、P(a,b,y)は(a,b,y)の分布である。
【0026】
図2は、本実施形態における擬似データ生成装置1の機能構成を示す図である。
擬似データ生成装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0027】
制御部10は、擬似データ生成装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0028】
記憶部20は、ハードウェア群を擬似データ生成装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(擬似データ生成プログラム)の他、敵対的生成ネットワークを構成するモデル(G,D1,D2)のパラメータ、訓練データ等を記憶する。
【0029】
制御部10は、記憶部20に記憶された各種パラメータに基づく学習モデルとして、生成器G、二項分類器D1、多クラス分類器D2と、これらの学習モデルを学習するための符号化部11及び学習部12と、訓練データ又はテストデータを置換するための擬似データを出力する出力部13とを備える。擬似データ生成装置1は、これらの機能部を動作させることにより、ポイズニング攻撃に耐性のある擬似データを出力する。
【0030】
生成器G、二項分類器D1、多クラス分類器D2は、前述の通り、それぞれ深層ニューラルネットワークで構成される。
生成器Gは、ノイズ、及び学習モデルの訓練データを構成し特徴量空間から実空間上の値に変換可能な可逆特徴ベクトルbを入力として、この可逆特徴ベクトルbと共に擬似訓練データを構成する非可逆特徴ベクトルa及びクラスラベルyを生成する。
二項分類器D1は、訓練データ又は擬似訓練データを入力として、この入力が訓練データか擬似訓練データかを識別する。
多クラス分類器D2は、非可逆特徴ベクトルa及びクラスラベルyを入力として、可逆特徴ベクトルbの値を予測する。
【0031】
符号化部11は、可逆特徴ベクトルbを、多クラス分類器D2のクラス数に対応させるため、所定数(クラス数)の離散値に量子化する。
【0032】
学習部12は、二項分類器D1及び多クラス分類器D2を、分類精度を最大化するように学習すると共に、生成器Gを、この分類精度を最小化するように学習する。
【0033】
出力部13は、訓練データ又はテストデータに基づいて、訓練データ又はテストデータを置換するための擬似データを、生成器Gにより生成して出力する。
例えば、出力部13は、マルウェア検知用の学習モデルの訓練データ(a,b,y)を受け付け、この訓練データを構成する可逆特徴ベクトルbに基づいて、擬似訓練データ(a*,b,y*)を生成器Gにより生成し出力する。
また、出力部13は、マルウェア検知用の学習モデルのテストデータ(a,b)を受け付け、このテストデータを構成する可逆特徴ベクトルbに基づいて、擬似テストデータ(a*,b)を生成器Gにより生成し出力する。
【0034】
図3は、本実施形態における敵対的生成ネットワークの学習アルゴリズムを示すフローチャートである。
このアルゴリズムは、前述の式(1)で示される最適化問題を解く方法の一例である。
【0035】
ステップS1において、学習部12は、生成器G、二項分類器D1、多クラス分類器D2を、深層ニューラルネットワークとして初期化する。
【0036】
ステップS2において、学習部12は、毒データが混入した訓練データ集合C’に含まれる全ての訓練データを特徴ベクトルに変換する。
【0037】
ステップS3において、学習部12は、C’からm個の訓練データ(a,b,y)を選択する。
【0038】
ステップS4において、学習部12は、P(z)及びP(b)に従って、それぞれm個のノイズz及び可逆特徴ベクトルbを選択し、G(z,b)を計算してm個の擬似訓練データ(a*,b*,y*)を得る。
なお、P(z)は、例えば、正規分布等の予め決められた分布であり、P(b)に従ったbは、訓練データからランダムに選択することで得られる。
【0039】
ステップS5において、学習部12は、m個の訓練データ(a,b,y)から二項分類器D1に関する評価関数J1(G,D1)の勾配を計算し、勾配法を用いてJ1(G,D1)を最大化するようにD1のパラメータを更新する。
なお、関数J1における擬似訓練データに関する項目は微分により消えるため、ここでは、訓練データのみを使用し、擬似訓練データは不要である。
【0040】
ステップS6において、学習部12は、m個の擬似訓練データ(a*,b*,y*)から生成器Gに関する評価関数J1(G,D1)の勾配を計算し、勾配法を用いてJ1(G,D1)を最小化するようにGのパラメータを更新する。
なお、関数J1における訓練データに関する項目は微分により消えるため、ここでは、擬似訓練データのみを使用し、訓練データは不要である。
【0041】
ステップS7において、学習部12は、P(z)に従ってm個のノイズzを選択し、b=biとして、それぞれのノイズzに対してG(z,b)を計算し、m個の擬似訓練データ(a*,b*,y*)を得る。
このステップは、変数iを1からNまで変動させ、N個全てのbiに対して行われ、学習部12は、計Nm個の擬似訓練データ(a*,b*,y*)を得る。
【0042】
ステップS8において、学習部12は、Nm個の擬似訓練データ(a*,b*,y*)から多クラス分類器D2に関するΣbλJ2(G,D2,b)の勾配を計算し、勾配法を用いてΣbλJ2(G,D2,b)を最大化するようにD2のパラメータを更新する。
【0043】
ステップS9において、学習部12は、Nm個の擬似訓練データ(a*,b*,y*)から生成器Gに関するΣbλJ2(G,D2,b)の勾配を計算し、勾配法を用いてΣbλJ2(G,D2,b)を最小化するようにGのパラメータを更新する。
【0044】
ステップS10において、学習部12は、ステップS3からS9までの処理を所定回数実行したか否かを判定する。この判定がYESの場合、処理は終了し、判定がNOの場合、処理はステップS3に戻り、学習部12は、敵対的生成ネットワークの学習を繰り返す。
なお、繰り返しの回数は、各ニューラルネットワークのパラメータ値の収束が見込める回数が予め設定される。
【0045】
本実施形態によれば、擬似データ生成装置1は、ノイズ及び可逆特徴ベクトルから非可逆特徴ベクトル及びクラスラベルを生成する生成器G、元の訓練データと擬似訓練データとを識別するための二項分類器D1、非可逆特徴ベクトル及びクラスラベルから可逆特徴ベクトルを推定するための多クラス分類器D2を用いて敵対的生成ネットワークを構築する。擬似データ生成装置1は、GとD1、GとD2をそれぞれ競い合わせながら生成器Gを学習する。
【0046】
学習済みの生成器Gを用いて生成された擬似訓練データは、二項分類器D1の効果により、元の訓練データとの類似性が確保される。また、多クラス分類器D2の効果により、擬似訓練データを構成する可逆特徴ベクトルと非可逆特徴ベクトルとの相関性、及び可逆特徴ベクトルとクラスラベルとの相関性が除去される。
これにより、可逆特徴ベクトルへの攻撃の効果が非可逆特徴ベクトルへ伝搬することを防ぎつつ、攻撃対象の特徴量がモデルの性能に与える影響を排除することができ、さらには訓練データの改変によるモデルの性能低下も最小限に抑えられる。
【0047】
この結果、擬似データ生成装置1により生成される擬似データを用いて、構築する学習モデルの種類を問わず、特徴量の可逆性に基づく実空間上のデータポイズニング攻撃を防ぐことができる。
特に、マルウェア検知システムにおいて、訓練データを擬似データに置換することにより、攻撃に耐性のある学習モデルを生成でき、あるいは、テストデータを擬似データに置換することにより、攻撃の効果を抑制することができる。
【0048】
ここで、元の訓練データと擬似訓練データとの類似性を確保することと、可逆な特徴量と非可逆な特徴量及びクラスラベルとの相関性を除去することとは、相反するものであるため、GとD1及びGとD2の学習の優先度を調整するため、最適化問題式(1)におけるハイパーパラメータにより重みを導入する。これにより、擬似データ生成装置1は、元の訓練データとの類似性と、可逆な特徴量との相関性とのトレードオフを最適化できる。
【0049】
また、擬似データ生成装置1は、可逆特徴ベクトルが連続値又は無限の値を取る場合、多クラス分類器D2を構成するために、敵対的自己符号化器等の量子化の手段を適用して所定数の離散値に変換する。
これにより、擬似データ生成装置1は、特徴量の種類によらず、汎用的に擬似データを生成できる。
【0050】
なお、前述の実施形態により、例えば、マルウェア検知システムへのデータポイズニング攻撃に対して、モデルの種類を問わない汎用的な対策が可能となるので、ソフトウェア利用における安全性を向上できることから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。
【0051】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0052】
擬似データ生成装置1による擬似データ生成方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0053】
D1 二項分類器
D2 多クラス分類器
G 生成器
1 擬似データ生成装置
10 制御部
11 符号化部
12 学習部
13 出力部
20 記憶部