特開2023-102803 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ボッシュ株式会社の特許一覧

特開2023-102803データ処理装置、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023102803

(43)【公開日】2023-07-26

(54)【発明の名称】データ処理装置、方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230719BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022003435

(22)【出願日】2022-01-13

(71)【出願人】

【識別番号】000003333

【氏名又は名称】ボッシュ株式会社

(72)【発明者】

【氏名】中里研一

(57)【要約】

【課題】識別精度が高い識別器の提供。
【解決手段】データ処理装置（１０）は、第１訓練データセットを記憶する記憶部（１３）と、第１訓練データセットの一部を抽出し、第２訓練データセットを出力するデータ制御部（３１）と、第２訓練データセットの模倣データを生成する生成器（３２）と、識別器（２０）による識別結果の誤差が小さくなるように識別器（２０）を更新し、誤差が大きくなるように生成器（３２）を更新する更新部（３３）と、模倣データの多様性を評価する評価部（３４）と、を備える。第１訓練データセットにおける訓練データは複数のクラスに分類される。評価部（３４）は、模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算する。データ制御部（３１）は、類似度に基づいて、第２訓練データセットにおいて各クラスに属する訓練データの比率（Ｋｉ）を調整する。
【選択図】図２

【特許請求の範囲】

【請求項1】

識別器（２０）を訓練するデータ処理装置（１０）において、
複数の訓練データからなる第１訓練データセットを記憶する記憶部（１３）と、
前記第１訓練データセットの一部を抽出し、第２訓練データセットとして前記識別器（２０）に出力するデータ制御部（３１）と、
前記第２訓練データセットの模倣データを生成し、前記識別器（２０）に出力する生成器（３２）と、
前記識別器（２０）によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器（２０）を更新し、前記識別結果の誤差が大きくなるように前記生成器（３２）を更新する更新部（３３）と、
前記模倣データの多様性を評価する評価部（３４）と、を備え、
前記第１訓練データセットにおける訓練データは、複数のクラスに分類され、
前記評価部（３４）は、前記模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算し、
前記データ制御部（３１）は、前記類似度に基づいて、前記第２訓練データセットにおいて前記各クラスに属する前記訓練データの比率（Ｋｉ）を調整する
データ処理装置（１０）。

【請求項2】

前記データ制御部（３１）は、前記模倣データの比率が前記第１訓練データセットより小さいクラスがある場合、前記第２訓練データセットにおける当該クラスの比率（Ｋｉ）を増加させる
請求項１に記載のデータ処理装置（１０）。

【請求項3】

前記データ制御部（３１）は、前記模倣データの比率が前記第１訓練データセットより大きいクラスがある場合、前記第２訓練データセットにおける当該クラスの比率（Ｋｉ）を減少させる
請求項１又は２に記載のデータ処理装置（１０）。

【請求項4】

前記評価部（３４）は、前記第１訓練データセットの各クラスから、前記各クラスに属する前記訓練データの比率と同じ比率で前記訓練データを抽出して代表データを構成し、前記代表データの多様性と前記模倣データの多様性の類似度を計算する
請求項１～３のいずれか一項に記載のデータ処理装置（１０）。

【請求項5】

前記訓練データには正常のラベルが付与され、前記模倣データには異常のラベルが付与され、
前記識別器（２０）は、前記入力データを前記訓練データと識別した場合には正常の識別結果を出力し、前記入力データを前記模倣データと識別した場合には異常の識別結果を出力する
請求項１～４のいずれか一項に記載のデータ処理装置（１０）。

【請求項6】

識別器（２０）を訓練する方法において、
複数の訓練データからなる第１訓練データセットの一部を抽出し、第２訓練データセットとして前記識別器（２０）に出力するステップと、
生成器（３２）により前記第２訓練データセットの模倣データを生成し、前記識別器（２０）に出力するステップと、
前記識別器（２０）によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器（２０）を更新し、前記識別結果の誤差が大きくなるように前記生成器（３２）を更新するステップと、
前記模倣データの多様性を評価するステップと、を含み、
前記第１訓練データセットにおける訓練データは、複数のクラスに分類され、
前記評価するステップは、前記模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算することを含み、
前記類似度に基づいて、前記第２訓練データセットにおいて前記各クラスに属する前記訓練データの比率（Ｋｉ）を調整するステップをさらに含む
方法。

【請求項7】

識別器（２０）を訓練する方法をコンピュータに実行させるためのプログラムであって、
前記方法は、
複数の訓練データからなる第１訓練データセットの一部を抽出し、第２訓練データセットとして前記識別器（２０）に出力するステップと、
生成器（３２）により前記第２訓練データセットの模倣データを生成し、前記識別器（２０）に出力するステップと、
前記識別器（２０）によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器（２０）を更新し、前記識別結果の誤差が大きくなるように前記生成器（３２）を更新するステップと、
前記模倣データの多様性を評価するステップと、を含み、
前記第１訓練データセットにおける訓練データは、複数のクラスに分類され、
前記評価するステップは、前記模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算することを含み、
前記類似度に基づいて、前記第２訓練データセットにおいて前記各クラスに属する前記訓練データの比率（Ｋｉ）を調整するステップをさらに含む
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理装置、方法及びプログラムに関する。

【背景技術】

【0002】

従来、製品を撮影した画像データや搬送ベルトの振動データ等を解析することにより、製品の欠陥又は製造設備の故障のような異常を検出することが行われている。異常の検出には、オートエンコーダー又は敵対的生成ネットワーク（GAN：Generative Adversarial Networks）のような機械学習が利用されることも多い（例えば、特許文献１又は２参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－１３５６３０号公報

【特許文献2】国際公開第２０２０／０３１９８４号

【発明の概要】

【発明が解決しようとする課題】

【0004】

異常か正常かの判定は、通常、カメラやセンサ等により得られたデータの確率密度分布に基づいて行われる。オートエンコーダーの場合、得られたデータの頻度分布がそのまま確率密度分布となりやすい。データが一様ではなく、その多様性が高いと、頻度が多いデータ群から離れて頻度が少ない希少なデータが分布しやすくなるが、このような希少なデータはオートエンコーダーでは異常と判定される傾向がある。

【0005】

しかし、希少な現象がすべて異常とは限らない。また希少であってもすでに知られた現象は、異常か否かの判定が容易であるため、異常検出においては未知の現象に注目する必要があることが多い。

【0006】

一方、ＧＡＮは、本物のラベルが付与された訓練データと、生成器によって生成される偽物のデータとを識別器により識別させる。生成器によって生成されるデータは、訓練データに似せた未知のデータであるため、これを識別器に学習させるＧＡＮでは、希少性よりも未知の度合いに重点をおいた異常検出が期待される。

【0007】

しかし、ＧＡＮはモード崩壊（mode collapse）が生じやすいことが知られている。モード崩壊は、生成器が訓練データの確率密度分布を正確に学習できず、生成器により生成されるデータが一部の訓練データを模倣するように偏る現象である。モード崩壊が生じると、識別器による学習も偏り、識別精度が低下することがある。

【0008】

本発明は、識別精度が高い識別器の提供を目的とする。

【課題を解決するための手段】

【0009】

本発明の一態様は、識別器（２０）を訓練するデータ処理装置（１０）である。前記データ処理装置（１０）は、複数の訓練データからなる第１訓練データセットを記憶する記憶部（１３）と、前記第１訓練データセットの一部を抽出し、第２訓練データセットとして前記識別器（２０）に出力するデータ制御部（３１）と、前記第２訓練データセットの模倣データを生成し、前記識別器（２０）に出力する生成器（３２）と、前記識別器（２０）によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器（２０）を更新し、前記識別結果の誤差が大きくなるように前記生成器（３２）を更新する更新部（３３）と、前記模倣データの多様性を評価する評価部（３４）と、を備える。前記第１訓練データセットにおける訓練データは、複数のクラスに分類される。前記評価部（３４）は、前記模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算する。前記データ制御部（３１）は、前記類似度に基づいて、前記第２訓練データセットにおいて前記各クラスに属する前記訓練データの比率（Ｋｉ）を調整する。

【0010】

本発明の他の一態様は、識別器（２０）を訓練する方法である。前記方法は、複数の訓練データからなる第１訓練データセットの一部を抽出し、第２訓練データセットとして前記識別器（２０）に出力するステップと、生成器（３２）により前記第２訓練データセットの模倣データを生成し、前記識別器（２０）に出力するステップと、前記識別器（２０）によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器（２０）を更新し、前記識別結果の誤差が大きくなるように前記生成器（３２）を更新するステップと、前記模倣データの多様性を評価するステップと、を含む。前記第１訓練データセットにおける訓練データは、複数のクラスに分類される。前記評価するステップは、前記模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算することを含む。前記方法は、前記類似度に基づいて、前記第２訓練データセットにおいて前記各クラスに属する前記訓練データの比率（Ｋｉ）を調整するステップをさらに含む。

【0011】

本発明の他の一態様は、識別器（２０）を訓練する方法をコンピュータに実行させるためのプログラムである。前記方法は、複数の訓練データからなる第１訓練データセットの一部を抽出し、第２訓練データセットとして前記識別器（２０）に出力するステップと、生成器（３２）により前記第２訓練データセットの模倣データを生成し、前記識別器（２０）に出力するステップと、前記識別器（２０）によって、入力データが前記訓練データであるか又は前記模倣データであるかが識別されると、その識別結果の誤差が小さくなるように前記識別器（２０）を更新し、前記識別結果の誤差が大きくなるように前記生成器（３２）を更新するステップと、前記模倣データの多様性を評価するステップと、を含む。前記第１訓練データセットにおける訓練データは、複数のクラスに分類される。前記評価するステップは、前記模倣データの多様性と前記第１訓練データセットの多様性の類似度を計算することを含む。前記方法は、前記類似度に基づいて、前記第２訓練データセットにおいて前記各クラスに属する前記訓練データの比率（Ｋｉ）を調整するステップをさらに含む。

【発明の効果】

【0012】

本発明によれば、識別精度が高い識別器の提供が可能である。

【図面の簡単な説明】

【0013】

【図1】データ処理装置の構成を示す図である。

【図2】訓練部の構成を示す図である。

【図3】識別器の訓練処理のフローチャートである。

【発明を実施するための形態】

【0014】

以下、本発明のデータ処理装置、方法及びプログラムの実施の形態について、図面を参照して説明する。以下に説明する構成は本発明の一例（代表例）であり、本発明はこの構成に限定されない。

【0015】

図１は、本実施形態のデータ処理装置１０の構成を示す。
データ処理装置１０は、識別器（Discriminator）２０を訓練することができる。本実施形態において、訓練済みの識別器２０は異常検出装置３０に組み込まれる。識別器２０は、入力データに対して正常か又は異常かの識別結果を出力する。

【0016】

データ処理装置１０は、制御部１１、訓練部１２及び記憶部１３を備える。データ処理装置１０は、操作部１４、表示部１５及び通信部１６をさらに備えることができる。

【0017】

制御部１１は、データ処理装置１０の各部を制御する。例えば、制御部１１は、操作部１４の操作又は通信部１６により受信した指示データに応じて、訓練部１２によって識別器２０を訓練させることができる。また制御部１１は、訓練のための操作画面等を表示部１５に表示させることができる。

【0018】

訓練部１２は、訓練データを用いて識別器２０を訓練する。図２は、訓練部１２の構成を示す。訓練部１２は、データ制御部３１、生成器（Generator）３２、更新部３３及び評価部３４を備える。

【0019】

データ制御部３１は、第１訓練データセットＸの一部を抽出し、第２訓練データセットＸｅとして識別器２０に出力する。第１訓練データセットＸは、識別器２０の訓練のために与えられた多数の訓練データからなり、予め記憶部１３に保存される。

【0020】

生成器３２は、入力されたノイズデータｚに対して第２訓練データセットＸｅの模倣データＧ（ｚ）を生成し、識別器２０に出力する。識別器２０及び生成器３２における入力と出力の関係は、ニューラルネットワークにより近似される。

【0021】

更新部３３は、識別器２０の識別結果の誤差が小さくなるように、識別器２０を更新する。また更新部３３は、識別器２０の識別結果の誤差が大きくなるように、生成器３２を更新する。

【0022】

評価部３４は、模倣データＧ（ｚ）の多様性を評価する。具体的には、評価部３４は、第１訓練データセットＸから複数の訓練データを代表データＸｒとして抽出する。評価部３４は、代表データＸｒと模倣データＧ（ｚ）の多様性の類似度を計算する。

【0023】

本実施形態において、制御部１１及び訓練部１２の処理は、ＣＰＵ（Central Processing Unit）又はＧＰＵ（Graphic Processing Unit）のようなプロセッサ、マイクロコンピュータのようなコンピュータが、記憶部１３からプログラムを読み出して実行することにより実現されるソフトウェア処理である。上記処理は、ＦＰＧＡ、ＡＳＩＣ等のハードウェアによって実現されてもよい。

【0024】

記憶部１３は、制御部１１又は訓練部１２が読み取り可能なプログラム、及びプログラムの実行に用いられるテーブル、訓練データ等を記憶する。記憶部１３としては、例えばハードディスク等の記録媒体を用いることができる。

【0025】

操作部１４は、キーボード、又はマウス等である。操作部１４は、ユーザの操作を受け付けて、その操作内容を制御部１１に出力する。

【0026】

表示部１５は、ディスプレイ等である。表示部１５は、制御部１１からの表示指示にしたがって、操作画面や制御部１１又は訓練部１２の処理結果等を表示する。

【0027】

通信部１６は、ネットワークを介して外部のコンピュータと通信するインターフェイスである。

【0028】

図３は、訓練部１２が実行する識別器２０の訓練処理のフローチャートである。
まずデータ制御部３１は、第１訓練データセットＸの一部を抽出し、第２訓練データセットＸｅを構成する（ステップＳ１）。

【0029】

第１訓練データセットＸでは、訓練データが複数のクラスｉに分類される。図２に例示するように第１訓練データセットＸがアルファベットの画像データ群である場合、当該画像データ群が予めアルファベットごとのクラスに分類されていてもよい。

【0030】

予め分類されていない場合、データ制御部３１が第１訓練データセットＸをクラスタリング分析することにより、いくつかのクラスｉに分類してもよい。クラスタリング分析の方法としては特に限定されず、例えば最短距離法、ｋ－ｍｅａｎｓ法等を使用することができる。

【0031】

データ制御部３１は、第１訓練データセットＸの各クラスｉから所定の比率Ｋｉ（％）で訓練データを抽出する。訓練処理の開始時において、各クラスｉの比率Ｋｉは、５％のようなクラスｉに関わらず一律の値であってもよいし、ランダムな数値であってもよい。また比率Ｋｉは、第１訓練データセットＸにおいて各クラスｉに属する訓練データの比率と同じであってもよい。比率が同じであると、後述する訓練により模倣データＧ（ｚ）の多様性が第１訓練データセットＸの多様性に一致しやすくなる。

【0032】

一方、生成器３２は、ノイズデータｚから模倣データＧ（ｚ）を生成する（ステップＳ２）。模倣データＧ（ｚ）は、訓練当初は訓練データに類似しないかもしれないが、後述のように生成器３２は第２訓練データセットＸｅとの誤差が小さくなるように訓練される。よって、訓練を繰り返すと訓練データと類似するようになる。

【0033】

更新部３３は、第２訓練データセットＸｅと模倣データＧ（ｚ）とを用いて識別器２０を訓練する（ステップＳ３）。訓練時、まず更新部３３は、識別器２０によって入力データが訓練データｘか又は模倣データＧ（ｚ）かを識別させる。

【0034】

更新部３３は、その識別結果の誤差が小さくなるように識別器２０を更新する。また更新部３３は、識別結果の誤差が大きくなるように生成器３２を更新する。具体的には、更新部３３は、識別器２０及び生成器３２の各ニューラルネットワークに用いられる重み付け係数、バイアス等のパラメータを更新する。

【0035】

一般的に、ＧＡＮにおいて上記誤差を表す損失関数は下記式（１）により表される。

【数1】

【0036】

ｘは訓練データ、ｚはノイズデータ、Ｇ（ｚ）は模倣データを表す。ｐ_ｚ（ｚ）はノイズデータの確率密度分布、ｐ_ｄａｔａ（ｘ）は第１訓練データセットＸの確率密度分布を表す。Ｅ[]は、[]内の期待値を出力する。

【0037】

上記損失関数をＤに関して最大化する更新により、識別器２０は模倣データＧ（ｚ）と訓練データｘとをより正確に識別できるように訓練される。また、上記損失関数をＧに関して最小化する更新により、生成器３２は訓練データｘにより近い模倣データＧ（ｚ）を生成できるように訓練される。

【0038】

一方、評価部３４は、第１訓練データセットＸから代表データＸｒとして複数の訓練データを抽出する（ステップＳ４）。このとき、評価部３４は、代表データＸｒにおける各クラスｉの訓練データの比率が第１訓練データセットＸと同じとなるように、第１訓練データセットＸの各クラスｉから訓練データを抽出する。これにより、第１訓練データセットＸと同じ多様性の代表データＸｒを構成することができる。

【0039】

次いで、評価部３４は、模倣データＧ（ｚ）の多様性と代表データＸｒの多様性の類似度を計算する(ステップＳ５)。類似度の計算方法としては、例えばコサイン類似度、ＫＬダイバージェンス又はピアソンの相関係数等が挙げられるが、データの分布の多様性がどれだけ類似しているかを評価できるのであれば、計算方法はこれらに限定されない。

【0040】

例えば、９つの模倣データＧ（ｚ）と９つの代表データＸｒがあり、これらのコサイン類似度を求める場合、評価部３４は、９つの模倣データＧ（ｚ）を変数とする９次元ベクトルａと、９つの代表データＸｒを変数とする９次元ベクトルｂを計算する。評価部３４は、下記式（２）に示すように、各ベクトルａ及びｂの内積をそれぞれの長さで除算することにより、類似度Ｃ１を計算する。

【0041】

【数2】

この類似度Ｃ１は、ベクトルａ及びｂの向きが一致しているときに最大値の１をとり、向きが逆のときに最小値の－１をとる。つまり、類似度Ｃ１が１に近いほど模倣データＧ（ｚ）と代表データＸｒの分布の違いが少なく、多様性の類似度が高いと評価できる。

【0042】

ＫＬダイバージェンスにより類似度を求める場合、評価部３４は、９つの模倣データＧ（ｚ）の分布Ｐ（ｘ_ｊ）と、９つの代表データＸｒの分布Ｑ（ｘ_ｊ）とから、下記式（３）に示すように類似度Ｃ２を計算することができる。

【0043】

【数3】

この類似度Ｃ２は０以上の値をとり、値が大きいほど分布の違いが少なく、各分布Ｐ（ｘ_ｊ）及びＱ（ｘ_ｊ）の多様性の類似度が高いと評価できる。

【0044】

計算された類似度が閾値より小さい場合（ステップＳ６：ＹＥＳ）、データ制御部３１は、第２訓練データセットＸｅを構成するために、第１訓練データセットＸの各クラスｉから訓練データを抽出する比率Ｋｉを調整する（ステップＳ７）。

【0045】

調整時、まずデータ制御部３１は、模倣データＧ（ｚ）を第１訓練データセットＸと同じクラスｉに分類する。クラス分類はサポートベクタマシンのような機械学習によって行うことができ、その方法は特に限定されない。データ制御部３１は、第１訓練データセットＸと模倣データＧ（ｚ）の各クラスｉに属するデータの比率の差に応じて、第１訓練データセットＸから抽出する各クラスｉの訓練データの比率Ｋｉを調整する。

【0046】

データ制御部３１は、模倣データＧ（ｚ）の比率が代表データＸｒより小さいクラスがある場合、第２訓練データセットＸｅにおける当該クラスの比率を増加させる。

【0047】

また、データ制御部３１は、模倣データＧ（ｚ）の比率が代表データＸｒより大きいクラスがある場合、第２訓練データセットＸｅにおける当該クラスの比率を減少させる。

【0048】

例えば、第１訓練データセットＸがクラス１～３に分類され、その訓練データの比率が、クラス１：３０％、クラス２：６０％、クラス３：１０％であったとする。模倣データＧ（ｚ）の比率が、クラス１：３０％、クラス２：２０％、クラス３：５０％であった場合、模倣データＧ（ｚ）は第１訓練データセットＸに比べてクラス２の比率が少なく、クラス３の比率が多い。

【0049】

この場合、データ制御部３１は、第２訓練データセットＸｅにおけるクラス２の比率Ｋ２を増加させ、クラス３の比率Ｋ３を減少させる。データ制御部３１は、模倣データＧ（ｚ）と代表データＸｒの各クラスｉに属するデータの比率の差が大きいほど、比率Ｋｉの増減量を大きくすることができる。

【0050】

所定数の訓練がまだ行われていない場合（ステップＳ８：ＮＯ）、ステップＳ１の処理に戻り、次の訓練が繰り返される。次の訓練時、第１訓練データセットＸの各クラスｉからから訓練データが抽出されて新たな第２訓練データセットＸｅが構成されるが、その抽出に調整後の比率Ｋｉが用いられる。

【0051】

このように、本実施形態の第２訓練データセットＸｅは、訓練ごとに比率Ｋｉが調整され、第１訓練データセットＸから新たに抽出された訓練データからなる。当該第２訓練データセットＸｅを用いて識別器２０及び生成器３２を訓練することにより、生成器３２から生成される模倣データＧ（ｚ）の多様性が、第１訓練データセットＸの多様性に近づいていく。

【0052】

所定数の訓練が終了すると（ステップＳ８：ＹＥＳ）、訓練処理が終了する。訓練済みの識別器２０は異常検出装置３０に組み込まれる。訓練データに正常のラベルを付与し、模倣データＧ（ｚ）に異常のラベルを付与することにより、訓練済みの識別器２０は、入力データを訓練データと識別した場合には正常の識別結果を出力し、入力データを模倣データＧ（ｚ）と識別した場合には、異常の識別結果を出力することができる。

【0053】

本実施形態によれば、模倣データＧ（ｚ）が第１訓練データセットＸと同様の多様性を有するようになる。希少な訓練データであっても漏らすことなく模倣データＧ（ｚ）が生成される。よって、識別器２０によって推定される訓練データの確率密度分布Ｐ（｛Ｘ｝）が、第１訓練データセット｛Ｘ｝をカバーする割合が増える。識別器２０により異常又は正常を識別する場合、頻度が少ない希少なデータであっても第１訓練データセット｛Ｘ｝周辺のデータであれば、識別器２０によって正常と識別されやすくなり、識別精度が向上する。

【0054】

一方、オートエンコーダーでは、訓練データの頻度分布がそのまま確率密度分布になりやすい。そのため、訓練データの多様性が高いと、オートエンコーダーによって推定される訓練データの確率密度分布Ｐ（｛Ｘ｝）は、第１訓練データセットＸを十分にカバーできないことがある。第１訓練データセット｛Ｘ｝が集中する領域付近のデータは正常と識別されるかもしれないが、そこから離れた希少なデータは異常と識別されやすくなる。

【0055】

ＧＡＮの収束性を改善する方法としては、ＷＧＡＮ（Wasserstein－ＧＡＮ）のようないくつかの方法が知られている。収束性の改善は、模倣データＧ（ｚ）による訓練データセットＸの確率密度分布のカバー率を改善することもある。しかし、ＧＡＮはそのダイナミクスの特性上、安定解が複数あり得るため、収束性の改善だけではカバー率の高い解に収束するとは限らない。

【0056】

これに対し、本実施形態によれば、訓練するごとに第２訓練データセットＸｅの各クラスｉの比率が調整されるため、カバー率の高い解へと導くことができる。比率Ｋｉの調整という簡単なアルゴリズムによって、第１訓練データセットＸの多様性を再現する模倣データＧ（ｚ）を得ることが可能である。

【0057】

以上のように、本実施形態によれば、データ制御部３１が訓練ごとに第１訓練データセットＸから第２訓練データセットＸｅを抽出し、生成器３２がノイズデータｚから模倣データＧ（ｚ）を生成する。更新部３３は、当該第２訓練データセットＸｅと模倣データＧ（ｚ）を用いて識別器２０を訓練する。一方、評価部３４は各クラスｉの訓練データの比率が第１訓練データセットＸと同じ代表データＸｒを構成し、模倣データＧ（ｚ）の多様性と当該代表データＸｒの多様性の類似度を計算する。

【0058】

データ制御部３１は、類似度が閾値より低い場合、第２訓練データセットＸｅにおける各クラスｉの訓練データの比率Ｋｉを調整する。データ制御部３１は、模倣データＧ（ｚ）の比率が第１訓練データセットＸと比べて、低いクラスｉの比率Ｋｉを増加させ、高いクラスｉの比率Ｋｉを減少させる。

【0059】

調整後の比率Ｋｉにより第１訓練データセットＸの各クラスｉから新たに抽出された第２訓練データセットＸｅを訓練に用いることにより、生成器３２において模倣データＧ（ｚ）の比率が低かったクラスｉの学習が増え、比率が高かったクラスｉの過学習が抑えられる。

【0060】

模倣データＧ（ｚ）の偏りが減るため、識別器２０によって識別される訓練データの確率密度分布が第１訓練データセットＸの確率密度分布に近づく。訓練データの頻度によらず正確に訓練データｘか模倣データＧ（ｚ）かを識別できるようになり、識別精度が高い識別器２０を提供することができる。

【0061】

また第１訓練データセットＸとの多様性の類似度を計算してもよいが、上記実施形態では第１訓練データセットＸよりもデータ数が少ない代表データＸｒを用いて類似度が計算される。これにより、類似度の計算時間を短縮できる。

【0062】

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されない。

【0063】

例えば、生成器との競合によって訓練される識別器であれば、異常検出のための識別器２０の訓練に限らず、本発明を適用することができる。

【0064】

また評価部３４は、代表データＸｒ（又は第１訓練データセットＸ）と模倣データＧ（ｚ）の類似度をクラスｉごとに計算することができる。このクラスｉごとの類似度により、データ制御部３１は、どのクラスｉにおいて模倣データＧ（ｚ）が偏在するかを容易に特定できる。

【0065】

クラスｉごとに類似度が計算される場合、計算された類似度とその最大値との差は代表データＸｒ（又は第１訓練データセットＸ）と模倣データＧ（ｚ）の分布の差を表す。データ制御部３１は、その差が大きいほど比率Ｋｉも大きく調整することができる。これにより、次回の訓練時、模倣データＧ（ｚ）の多様性と第１訓練データセットＸの多様性の差が小さくなるように第２訓練データセットＸｅを再構成することができる。

【符号の説明】

【0066】

１０・・・データ処理装置、１２・・・訓練部、３１・・・データ制御部、３２・・・生成器、３３・・・更新部、３４・・・評価部、１３・・・記憶部

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版