(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023102803
(43)【公開日】2023-07-26
(54)【発明の名称】データ処理装置、方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20230719BHJP
【FI】
G06N20/00
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022003435
(22)【出願日】2022-01-13
(71)【出願人】
【識別番号】000003333
【氏名又は名称】ボッシュ株式会社
(72)【発明者】
【氏名】中里 研一
(57)【要約】
【課題】識別精度が高い識別器の提供。
【解決手段】データ処理装置(10)は、第1訓練データセットを記憶する記憶部(13)と、第1訓練データセットの一部を抽出し、第2訓練データセットを出力するデータ制御部(31)と、第2訓練データセットの模倣データを生成する生成器(32)と、識別器(20)による識別結果の誤差が小さくなるように識別器(20)を更新し、誤差が大きくなるように生成器(32)を更新する更新部(33)と、模倣データの多様性を評価する評価部(34)と、を備える。第1訓練データセットにおける訓練データは複数のクラスに分類される。評価部(34)は、模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算する。データ制御部(31)は、類似度に基づいて、第2訓練データセットにおいて各クラスに属する訓練データの比率(Ki)を調整する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
識別器(20)を訓練するデータ処理装置(10)において、
複数の訓練データからなる第1訓練データセットを記憶する記憶部(13)と、
前記第1訓練データセットの一部を抽出し、第2訓練データセットとして前記識別器(20)に出力するデータ制御部(31)と、
前記第2訓練データセットの模倣データを生成し、前記識別器(20)に出力する生成器(32)と、
前記識別器(20)によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器(20)を更新し、前記識別結果の誤差が大きくなるように前記生成器(32)を更新する更新部(33)と、
前記模倣データの多様性を評価する評価部(34)と、を備え、
前記第1訓練データセットにおける訓練データは、複数のクラスに分類され、
前記評価部(34)は、前記模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算し、
前記データ制御部(31)は、前記類似度に基づいて、前記第2訓練データセットにおいて前記各クラスに属する前記訓練データの比率(Ki)を調整する
データ処理装置(10)。
【請求項2】
前記データ制御部(31)は、前記模倣データの比率が前記第1訓練データセットより小さいクラスがある場合、前記第2訓練データセットにおける当該クラスの比率(Ki)を増加させる
請求項1に記載のデータ処理装置(10)。
【請求項3】
前記データ制御部(31)は、前記模倣データの比率が前記第1訓練データセットより大きいクラスがある場合、前記第2訓練データセットにおける当該クラスの比率(Ki)を減少させる
請求項1又は2に記載のデータ処理装置(10)。
【請求項4】
前記評価部(34)は、前記第1訓練データセットの各クラスから、前記各クラスに属する前記訓練データの比率と同じ比率で前記訓練データを抽出して代表データを構成し、前記代表データの多様性と前記模倣データの多様性の類似度を計算する
請求項1~3のいずれか一項に記載のデータ処理装置(10)。
【請求項5】
前記訓練データには正常のラベルが付与され、前記模倣データには異常のラベルが付与され、
前記識別器(20)は、前記入力データを前記訓練データと識別した場合には正常の識別結果を出力し、前記入力データを前記模倣データと識別した場合には異常の識別結果を出力する
請求項1~4のいずれか一項に記載のデータ処理装置(10)。
【請求項6】
識別器(20)を訓練する方法において、
複数の訓練データからなる第1訓練データセットの一部を抽出し、第2訓練データセットとして前記識別器(20)に出力するステップと、
生成器(32)により前記第2訓練データセットの模倣データを生成し、前記識別器(20)に出力するステップと、
前記識別器(20)によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器(20)を更新し、前記識別結果の誤差が大きくなるように前記生成器(32)を更新するステップと、
前記模倣データの多様性を評価するステップと、を含み、
前記第1訓練データセットにおける訓練データは、複数のクラスに分類され、
前記評価するステップは、前記模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算することを含み、
前記類似度に基づいて、前記第2訓練データセットにおいて前記各クラスに属する前記訓練データの比率(Ki)を調整するステップをさらに含む
方法。
【請求項7】
識別器(20)を訓練する方法をコンピュータに実行させるためのプログラムであって、
前記方法は、
複数の訓練データからなる第1訓練データセットの一部を抽出し、第2訓練データセットとして前記識別器(20)に出力するステップと、
生成器(32)により前記第2訓練データセットの模倣データを生成し、前記識別器(20)に出力するステップと、
前記識別器(20)によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器(20)を更新し、前記識別結果の誤差が大きくなるように前記生成器(32)を更新するステップと、
前記模倣データの多様性を評価するステップと、を含み、
前記第1訓練データセットにおける訓練データは、複数のクラスに分類され、
前記評価するステップは、前記模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算することを含み、
前記類似度に基づいて、前記第2訓練データセットにおいて前記各クラスに属する前記訓練データの比率(Ki)を調整するステップをさらに含む
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、製品を撮影した画像データや搬送ベルトの振動データ等を解析することにより、製品の欠陥又は製造設備の故障のような異常を検出することが行われている。異常の検出には、オートエンコーダー又は敵対的生成ネットワーク(GAN:Generative Adversarial Networks)のような機械学習が利用されることも多い(例えば、特許文献1又は2参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-135630号公報
【特許文献2】国際公開第2020/031984号
【発明の概要】
【発明が解決しようとする課題】
【0004】
異常か正常かの判定は、通常、カメラやセンサ等により得られたデータの確率密度分布に基づいて行われる。オートエンコーダーの場合、得られたデータの頻度分布がそのまま確率密度分布となりやすい。データが一様ではなく、その多様性が高いと、頻度が多いデータ群から離れて頻度が少ない希少なデータが分布しやすくなるが、このような希少なデータはオートエンコーダーでは異常と判定される傾向がある。
【0005】
しかし、希少な現象がすべて異常とは限らない。また希少であってもすでに知られた現象は、異常か否かの判定が容易であるため、異常検出においては未知の現象に注目する必要があることが多い。
【0006】
一方、GANは、本物のラベルが付与された訓練データと、生成器によって生成される偽物のデータとを識別器により識別させる。生成器によって生成されるデータは、訓練データに似せた未知のデータであるため、これを識別器に学習させるGANでは、希少性よりも未知の度合いに重点をおいた異常検出が期待される。
【0007】
しかし、GANはモード崩壊(mode collapse)が生じやすいことが知られている。モード崩壊は、生成器が訓練データの確率密度分布を正確に学習できず、生成器により生成されるデータが一部の訓練データを模倣するように偏る現象である。モード崩壊が生じると、識別器による学習も偏り、識別精度が低下することがある。
【0008】
本発明は、識別精度が高い識別器の提供を目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様は、識別器(20)を訓練するデータ処理装置(10)である。前記データ処理装置(10)は、複数の訓練データからなる第1訓練データセットを記憶する記憶部(13)と、前記第1訓練データセットの一部を抽出し、第2訓練データセットとして前記識別器(20)に出力するデータ制御部(31)と、前記第2訓練データセットの模倣データを生成し、前記識別器(20)に出力する生成器(32)と、前記識別器(20)によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器(20)を更新し、前記識別結果の誤差が大きくなるように前記生成器(32)を更新する更新部(33)と、前記模倣データの多様性を評価する評価部(34)と、を備える。前記第1訓練データセットにおける訓練データは、複数のクラスに分類される。前記評価部(34)は、前記模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算する。前記データ制御部(31)は、前記類似度に基づいて、前記第2訓練データセットにおいて前記各クラスに属する前記訓練データの比率(Ki)を調整する。
【0010】
本発明の他の一態様は、識別器(20)を訓練する方法である。前記方法は、複数の訓練データからなる第1訓練データセットの一部を抽出し、第2訓練データセットとして前記識別器(20)に出力するステップと、生成器(32)により前記第2訓練データセットの模倣データを生成し、前記識別器(20)に出力するステップと、前記識別器(20)によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器(20)を更新し、前記識別結果の誤差が大きくなるように前記生成器(32)を更新するステップと、前記模倣データの多様性を評価するステップと、を含む。前記第1訓練データセットにおける訓練データは、複数のクラスに分類される。前記評価するステップは、前記模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算することを含む。前記方法は、前記類似度に基づいて、前記第2訓練データセットにおいて前記各クラスに属する前記訓練データの比率(Ki)を調整するステップをさらに含む。
【0011】
本発明の他の一態様は、識別器(20)を訓練する方法をコンピュータに実行させるためのプログラムである。前記方法は、複数の訓練データからなる第1訓練データセットの一部を抽出し、第2訓練データセットとして前記識別器(20)に出力するステップと、生成器(32)により前記第2訓練データセットの模倣データを生成し、前記識別器(20)に出力するステップと、前記識別器(20)によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器(20)を更新し、前記識別結果の誤差が大きくなるように前記生成器(32)を更新するステップと、前記模倣データの多様性を評価するステップと、を含む。前記第1訓練データセットにおける訓練データは、複数のクラスに分類される。前記評価するステップは、前記模倣データの多様性と前記第1訓練データセットの多様性の類似度を計算することを含む。前記方法は、前記類似度に基づいて、前記第2訓練データセットにおいて前記各クラスに属する前記訓練データの比率(Ki)を調整するステップをさらに含む。
【発明の効果】
【0012】
本発明によれば、識別精度が高い識別器の提供が可能である。
【図面の簡単な説明】
【0013】
【発明を実施するための形態】
【0014】
以下、本発明のデータ処理装置、方法及びプログラムの実施の形態について、図面を参照して説明する。以下に説明する構成は本発明の一例(代表例)であり、本発明はこの構成に限定されない。
【0015】
図1は、本実施形態のデータ処理装置10の構成を示す。
データ処理装置10は、識別器(Discriminator)20を訓練することができる。本実施形態において、訓練済みの識別器20は異常検出装置30に組み込まれる。識別器20は、入力データに対して正常か又は異常かの識別結果を出力する。
【0016】
データ処理装置10は、制御部11、訓練部12及び記憶部13を備える。データ処理装置10は、操作部14、表示部15及び通信部16をさらに備えることができる。
【0017】
制御部11は、データ処理装置10の各部を制御する。例えば、制御部11は、操作部14の操作又は通信部16により受信した指示データに応じて、訓練部12によって識別器20を訓練させることができる。また制御部11は、訓練のための操作画面等を表示部15に表示させることができる。
【0018】
訓練部12は、訓練データを用いて識別器20を訓練する。
図2は、訓練部12の構成を示す。訓練部12は、データ制御部31、生成器(Generator)32、更新部33及び評価部34を備える。
【0019】
データ制御部31は、第1訓練データセットXの一部を抽出し、第2訓練データセットXeとして識別器20に出力する。第1訓練データセットXは、識別器20の訓練のために与えられた多数の訓練データからなり、予め記憶部13に保存される。
【0020】
生成器32は、入力されたノイズデータzに対して第2訓練データセットXeの模倣データG(z)を生成し、識別器20に出力する。識別器20及び生成器32における入力と出力の関係は、ニューラルネットワークにより近似される。
【0021】
更新部33は、識別器20の識別結果の誤差が小さくなるように、識別器20を更新する。また更新部33は、識別器20の識別結果の誤差が大きくなるように、生成器32を更新する。
【0022】
評価部34は、模倣データG(z)の多様性を評価する。具体的には、評価部34は、第1訓練データセットXから複数の訓練データを代表データXrとして抽出する。評価部34は、代表データXrと模倣データG(z)の多様性の類似度を計算する。
【0023】
本実施形態において、制御部11及び訓練部12の処理は、CPU(Central Processing Unit)又はGPU(Graphic Processing Unit)のようなプロセッサ、マイクロコンピュータのようなコンピュータが、記憶部13からプログラムを読み出して実行することにより実現されるソフトウェア処理である。上記処理は、FPGA、ASIC等のハードウェアによって実現されてもよい。
【0024】
記憶部13は、制御部11又は訓練部12が読み取り可能なプログラム、及びプログラムの実行に用いられるテーブル、訓練データ等を記憶する。記憶部13としては、例えばハードディスク等の記録媒体を用いることができる。
【0025】
操作部14は、キーボード、又はマウス等である。操作部14は、ユーザの操作を受け付けて、その操作内容を制御部11に出力する。
【0026】
表示部15は、ディスプレイ等である。表示部15は、制御部11からの表示指示にしたがって、操作画面や制御部11又は訓練部12の処理結果等を表示する。
【0027】
通信部16は、ネットワークを介して外部のコンピュータと通信するインターフェイスである。
【0028】
図3は、訓練部12が実行する識別器20の訓練処理のフローチャートである。
まずデータ制御部31は、第1訓練データセットXの一部を抽出し、第2訓練データセットXeを構成する(ステップS1)。
【0029】
第1訓練データセットXでは、訓練データが複数のクラスiに分類される。
図2に例示するように第1訓練データセットXがアルファベットの画像データ群である場合、当該画像データ群が予めアルファベットごとのクラスに分類されていてもよい。
【0030】
予め分類されていない場合、データ制御部31が第1訓練データセットXをクラスタリング分析することにより、いくつかのクラスiに分類してもよい。クラスタリング分析の方法としては特に限定されず、例えば最短距離法、k-means法等を使用することができる。
【0031】
データ制御部31は、第1訓練データセットXの各クラスiから所定の比率Ki(%)で訓練データを抽出する。訓練処理の開始時において、各クラスiの比率Kiは、5%のようなクラスiに関わらず一律の値であってもよいし、ランダムな数値であってもよい。また比率Kiは、第1訓練データセットXにおいて各クラスiに属する訓練データの比率と同じであってもよい。比率が同じであると、後述する訓練により模倣データG(z)の多様性が第1訓練データセットXの多様性に一致しやすくなる。
【0032】
一方、生成器32は、ノイズデータzから模倣データG(z)を生成する(ステップS2)。模倣データG(z)は、訓練当初は訓練データに類似しないかもしれないが、後述のように生成器32は第2訓練データセットXeとの誤差が小さくなるように訓練される。よって、訓練を繰り返すと訓練データと類似するようになる。
【0033】
更新部33は、第2訓練データセットXeと模倣データG(z)とを用いて識別器20を訓練する(ステップS3)。訓練時、まず更新部33は、識別器20によって入力データが訓練データxか又は模倣データG(z)かを識別させる。
【0034】
更新部33は、その識別結果の誤差が小さくなるように識別器20を更新する。また更新部33は、識別結果の誤差が大きくなるように生成器32を更新する。具体的には、更新部33は、識別器20及び生成器32の各ニューラルネットワークに用いられる重み付け係数、バイアス等のパラメータを更新する。
【0035】
一般的に、GANにおいて上記誤差を表す損失関数は下記式(1)により表される。
【数1】
【0036】
xは訓練データ、zはノイズデータ、G(z)は模倣データを表す。pz(z)はノイズデータの確率密度分布、pdata(x)は第1訓練データセットXの確率密度分布を表す。E[]は、[]内の期待値を出力する。
【0037】
上記損失関数をDに関して最大化する更新により、識別器20は模倣データG(z)と訓練データxとをより正確に識別できるように訓練される。また、上記損失関数をGに関して最小化する更新により、生成器32は訓練データxにより近い模倣データG(z)を生成できるように訓練される。
【0038】
一方、評価部34は、第1訓練データセットXから代表データXrとして複数の訓練データを抽出する(ステップS4)。このとき、評価部34は、代表データXrにおける各クラスiの訓練データの比率が第1訓練データセットXと同じとなるように、第1訓練データセットXの各クラスiから訓練データを抽出する。これにより、第1訓練データセットXと同じ多様性の代表データXrを構成することができる。
【0039】
次いで、評価部34は、模倣データG(z)の多様性と代表データXrの多様性の類似度を計算する(ステップS5)。類似度の計算方法としては、例えばコサイン類似度、KLダイバージェンス又はピアソンの相関係数等が挙げられるが、データの分布の多様性がどれだけ類似しているかを評価できるのであれば、計算方法はこれらに限定されない。
【0040】
例えば、9つの模倣データG(z)と9つの代表データXrがあり、これらのコサイン類似度を求める場合、評価部34は、9つの模倣データG(z)を変数とする9次元ベクトルaと、9つの代表データXrを変数とする9次元ベクトルbを計算する。評価部34は、下記式(2)に示すように、各ベクトルa及びbの内積をそれぞれの長さで除算することにより、類似度C1を計算する。
【0041】
【数2】
この類似度C1は、ベクトルa及びbの向きが一致しているときに最大値の1をとり、向きが逆のときに最小値の-1をとる。つまり、類似度C1が1に近いほど模倣データG(z)と代表データXrの分布の違いが少なく、多様性の類似度が高いと評価できる。
【0042】
KLダイバージェンスにより類似度を求める場合、評価部34は、9つの模倣データG(z)の分布P(xj)と、9つの代表データXrの分布Q(xj)とから、下記式(3)に示すように類似度C2を計算することができる。
【0043】
【数3】
この類似度C2は0以上の値をとり、値が大きいほど分布の違いが少なく、各分布P(x
j)及びQ(x
j)の多様性の類似度が高いと評価できる。
【0044】
計算された類似度が閾値より小さい場合(ステップS6:YES)、データ制御部31は、第2訓練データセットXeを構成するために、第1訓練データセットXの各クラスiから訓練データを抽出する比率Kiを調整する(ステップS7)。
【0045】
調整時、まずデータ制御部31は、模倣データG(z)を第1訓練データセットXと同じクラスiに分類する。クラス分類はサポートベクタマシンのような機械学習によって行うことができ、その方法は特に限定されない。データ制御部31は、第1訓練データセットXと模倣データG(z)の各クラスiに属するデータの比率の差に応じて、第1訓練データセットXから抽出する各クラスiの訓練データの比率Kiを調整する。
【0046】
データ制御部31は、模倣データG(z)の比率が代表データXrより小さいクラスがある場合、第2訓練データセットXeにおける当該クラスの比率を増加させる。
【0047】
また、データ制御部31は、模倣データG(z)の比率が代表データXrより大きいクラスがある場合、第2訓練データセットXeにおける当該クラスの比率を減少させる。
【0048】
例えば、第1訓練データセットXがクラス1~3に分類され、その訓練データの比率が、クラス1:30%、クラス2:60%、クラス3:10%であったとする。模倣データG(z)の比率が、クラス1:30%、クラス2:20%、クラス3:50%であった場合、模倣データG(z)は第1訓練データセットXに比べてクラス2の比率が少なく、クラス3の比率が多い。
【0049】
この場合、データ制御部31は、第2訓練データセットXeにおけるクラス2の比率K2を増加させ、クラス3の比率K3を減少させる。データ制御部31は、模倣データG(z)と代表データXrの各クラスiに属するデータの比率の差が大きいほど、比率Kiの増減量を大きくすることができる。
【0050】
所定数の訓練がまだ行われていない場合(ステップS8:NO)、ステップS1の処理に戻り、次の訓練が繰り返される。次の訓練時、第1訓練データセットXの各クラスiからから訓練データが抽出されて新たな第2訓練データセットXeが構成されるが、その抽出に調整後の比率Kiが用いられる。
【0051】
このように、本実施形態の第2訓練データセットXeは、訓練ごとに比率Kiが調整され、第1訓練データセットXから新たに抽出された訓練データからなる。当該第2訓練データセットXeを用いて識別器20及び生成器32を訓練することにより、生成器32から生成される模倣データG(z)の多様性が、第1訓練データセットXの多様性に近づいていく。
【0052】
所定数の訓練が終了すると(ステップS8:YES)、訓練処理が終了する。訓練済みの識別器20は異常検出装置30に組み込まれる。訓練データに正常のラベルを付与し、模倣データG(z)に異常のラベルを付与することにより、訓練済みの識別器20は、入力データを訓練データと識別した場合には正常の識別結果を出力し、入力データを模倣データG(z)と識別した場合には、異常の識別結果を出力することができる。
【0053】
本実施形態によれば、模倣データG(z)が第1訓練データセットXと同様の多様性を有するようになる。希少な訓練データであっても漏らすことなく模倣データG(z)が生成される。よって、識別器20によって推定される訓練データの確率密度分布P({X})が、第1訓練データセット{X}をカバーする割合が増える。識別器20により異常又は正常を識別する場合、頻度が少ない希少なデータであっても第1訓練データセット{X}周辺のデータであれば、識別器20によって正常と識別されやすくなり、識別精度が向上する。
【0054】
一方、オートエンコーダーでは、訓練データの頻度分布がそのまま確率密度分布になりやすい。そのため、訓練データの多様性が高いと、オートエンコーダーによって推定される訓練データの確率密度分布P({X})は、第1訓練データセットXを十分にカバーできないことがある。第1訓練データセット{X}が集中する領域付近のデータは正常と識別されるかもしれないが、そこから離れた希少なデータは異常と識別されやすくなる。
【0055】
GANの収束性を改善する方法としては、WGAN(Wasserstein-GAN)のようないくつかの方法が知られている。収束性の改善は、模倣データG(z)による訓練データセットXの確率密度分布のカバー率を改善することもある。しかし、GANはそのダイナミクスの特性上、安定解が複数あり得るため、収束性の改善だけではカバー率の高い解に収束するとは限らない。
【0056】
これに対し、本実施形態によれば、訓練するごとに第2訓練データセットXeの各クラスiの比率が調整されるため、カバー率の高い解へと導くことができる。比率Kiの調整という簡単なアルゴリズムによって、第1訓練データセットXの多様性を再現する模倣データG(z)を得ることが可能である。
【0057】
以上のように、本実施形態によれば、データ制御部31が訓練ごとに第1訓練データセットXから第2訓練データセットXeを抽出し、生成器32がノイズデータzから模倣データG(z)を生成する。更新部33は、当該第2訓練データセットXeと模倣データG(z)を用いて識別器20を訓練する。一方、評価部34は各クラスiの訓練データの比率が第1訓練データセットXと同じ代表データXrを構成し、模倣データG(z)の多様性と当該代表データXrの多様性の類似度を計算する。
【0058】
データ制御部31は、類似度が閾値より低い場合、第2訓練データセットXeにおける各クラスiの訓練データの比率Kiを調整する。データ制御部31は、模倣データG(z)の比率が第1訓練データセットXと比べて、低いクラスiの比率Kiを増加させ、高いクラスiの比率Kiを減少させる。
【0059】
調整後の比率Kiにより第1訓練データセットXの各クラスiから新たに抽出された第2訓練データセットXeを訓練に用いることにより、生成器32において模倣データG(z)の比率が低かったクラスiの学習が増え、比率が高かったクラスiの過学習が抑えられる。
【0060】
模倣データG(z)の偏りが減るため、識別器20によって識別される訓練データの確率密度分布が第1訓練データセットXの確率密度分布に近づく。訓練データの頻度によらず正確に訓練データxか模倣データG(z)かを識別できるようになり、識別精度が高い識別器20を提供することができる。
【0061】
また第1訓練データセットXとの多様性の類似度を計算してもよいが、上記実施形態では第1訓練データセットXよりもデータ数が少ない代表データXrを用いて類似度が計算される。これにより、類似度の計算時間を短縮できる。
【0062】
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されない。
【0063】
例えば、生成器との競合によって訓練される識別器であれば、異常検出のための識別器20の訓練に限らず、本発明を適用することができる。
【0064】
また評価部34は、代表データXr(又は第1訓練データセットX)と模倣データG(z)の類似度をクラスiごとに計算することができる。このクラスiごとの類似度により、データ制御部31は、どのクラスiにおいて模倣データG(z)が偏在するかを容易に特定できる。
【0065】
クラスiごとに類似度が計算される場合、計算された類似度とその最大値との差は代表データXr(又は第1訓練データセットX)と模倣データG(z)の分布の差を表す。データ制御部31は、その差が大きいほど比率Kiも大きく調整することができる。これにより、次回の訓練時、模倣データG(z)の多様性と第1訓練データセットXの多様性の差が小さくなるように第2訓練データセットXeを再構成することができる。
【符号の説明】
【0066】
10・・・データ処理装置、12・・・訓練部、31・・・データ制御部、32・・・生成器、33・・・更新部、34・・・評価部、13・・・記憶部