特開2024-47369 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ソリューションズ東日本の特許一覧

特開2024-47369データオーバーサンプリング方法、データオーバーサンプリングシステムおよびデータオーバーサンプリングプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024047369

(43)【公開日】2024-04-05

(54)【発明の名称】データオーバーサンプリング方法、データオーバーサンプリングシステムおよびデータオーバーサンプリングプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240329BHJP

【ＦＩ】

G06N20/00

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2022152953

(22)【出願日】2022-09-26

(71)【出願人】

【識別番号】000233538

【氏名又は名称】株式会社日立ソリューションズ東日本

(74)【代理人】

【識別番号】110002572

【氏名又は名称】弁理士法人平木国際特許事務所

(72)【発明者】

【氏名】佐藤健

(72)【発明者】

【氏名】川島拓朗

(57)【要約】

【課題】オーバーサンプリングされたデータを用いた学習済みモデルによる推定の結果を改善できる、データオーバーサンプリング技術を提供する。
【解決手段】データオーバーサンプリング方法は、コンピュータが、２値要素からなるサイズＮの元データ配列をＭ件取得するステップと、コンピュータが、Ｍ件の前記元データ配列に基づきＭ行Ｎ列の元データ行列を生成するステップと、コンピュータが、前記元データ行列の転置行列と、前記元データ行列との積に基づき、Ｎ行Ｎ列の元データ特徴量行列を算出するステップと、コンピュータが、生成行列更新処理を１回以上実行するステップと、コンピュータが、更新された前記生成行列に基づき、前記目的関数の値を小さくするための解として、２値データからなるサイズＮの出力データ配列を生成する、生成ステップとを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

データオーバーサンプリング方法であって、
前記方法は、
コンピュータが、２値要素からなるサイズＮの元データ配列をＭ件取得するステップと、
コンピュータが、Ｍ件の前記元データ配列に基づきＭ行Ｎ列の元データ行列を生成するステップと、
コンピュータが、前記元データ行列の転置行列と、前記元データ行列との積に基づき、Ｎ行Ｎ列の元データ特徴量行列を算出するステップと、
コンピュータが、生成行列更新処理を１回以上実行するステップであって、前記生成行列更新処理は、
‐実数要素からなるＮ行Ｎ列の生成行列に基づき、所定の目的関数の値を小さくするための解として、２値データからなるサイズＮのサンプリングデータ配列をＳ件生成する、探索ステップと、
‐Ｓ件の前記サンプリングデータ配列に基づきＳ行Ｎ列のサンプリングデータ行列を生成するステップと、
‐前記サンプリングデータ行列の転置行列と、前記サンプリングデータ行列との積に基づき、Ｎ行Ｎ列のサンプリングデータ特徴量行列を算出するステップと、
‐前記元データ特徴量行列と前記サンプリングデータ特徴量行列との差に基づき、前記生成行列を更新するステップと、
を含む、生成行列更新処理を１回以上実行するステップと、
コンピュータが、更新された前記生成行列に基づき、前記目的関数の値を小さくするための解として、２値データからなるサイズＮの出力データ配列を生成する、生成ステップと、
を備える、データオーバーサンプリング方法。

【請求項2】

前記探索ステップおよび前記生成ステップは、アニーリング処理を用いて実行される、請求項１に記載の方法。

【請求項3】

コンピュータが、多値要素を含む置換前データ配列の各多値要素について、その値に応じて異なる位置の要素が１となるワンホットベクトルを生成するステップと、
コンピュータが、前記置換前データ配列において各多値要素をそれぞれ対応する前記ワンホットベクトルで置き換えることにより、前記元データ配列を生成するステップと、
コンピュータが、前記出力データ配列のうち前記ワンホットベクトルに対応する要素列において、値が１である要素の位置に応じて異なる置換用値を生成するステップと、
コンピュータが、前記出力データ配列において前記ワンホットベクトルを対応する前記置換用値で置き換えることにより、多値要素を含む置換後出力データ配列を生成するステップと、
をさらに備える、請求項１に記載の方法。

【請求項4】

請求項１～３のいずれか一項に記載の方法を実行する、データオーバーサンプリングシステム。

【請求項5】

請求項１～３のいずれか一項に記載の方法をコンピュータに実行させる、データオーバーサンプリングプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はデータオーバーサンプリング方法、データオーバーサンプリングシステムおよびデータオーバーサンプリングプログラムに関する。

【背景技術】

【0002】

既存データを用いた未知データの推定または予測のために、教師あり機械学習を用いることが周知である。教師あり機械学習では、学習データとして、正解ラベルが付されたデータを用いて学習を行う。

【0003】

教師あり機械学習において、学習データのラベルごとのデータ件数に不均衡がある場合に、学習が正しく行えない問題が存在する。このため、データ件数が少ないラベルのデータについて、元データと似た特徴を持つデータを増やす（オーバーサンプリング）することでこの問題を解決しようとする試みがなされている。

【0004】

オーバーサンプリングとは、不均衡データに対して、少数派のデータを増加させることでデータ数の偏りを補正する方法をいう。増加の方法には、複製や類似データの作成などがある。

【0005】

非特許文献１には、このような問題が記載されている。また、非特許文献２には、オーバーサンプリングの例として、ＳＭＯＴＥと呼ばれる手法が記載されている。

【0006】

非特許文献３にはアニーリング技術が説明されている。大規模な組合せ最適化問題を効率良く解く技術として、イジングモデルを利用したアニーリング技術が注目されている。アニーリング技術は、組合せ最適化問題のアルゴリズムにおいて、特定の計算問題に限定されず、汎用的に利用可能な近似アルゴリズムであり、厳密な最適解を求めることではなく、より良い解を現実的な計算時間で導出することを目的とする。

【0007】

イジングモデルとは、磁性体の振舞いを表す統計力学上のモデルであり、磁性体のスピン間の相互作用によりエネルギーが最小となるようにスピンの状態が更新され、最終的にエネルギーが最小となる性質がある。アニーリング技術では、２値変数の組合せ最適化問題をイジングモデルにマッピングし、エネルギー最小の状態を求めることによって、元の最適化問題の解を得る。イジングモデルは、制約なし２値変数２次形式最適化問題（ＱＵＢＯ）との相互変換が可能であり、対象とする最適化問題に応じてイジングモデルとＱＵＢＯによる定義を使い分けることが多い。このようなアニーリング技術を実現するデバイスをアニーリングマシンと呼ぶ。

【0008】

アニーリング技術による組合せ最適化計算はメタヒューリスティックな計算手法であり、探索結果にばらつきが生じる。この特性を利用し、近年アニーリング技術をデータサンプリングに利用する研究が注目されている。サンプリングマシンの利用方法としては、機械学習における学習データの不均衡問題の解決を目的とした少数データのオーバーサンプリングがある。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】Nathalie Japkowicz、「The class imbalance problem: Significance and strategies」、Proc.of the Int'l Conf. on Artificial Intelligence、２０００年

【非特許文献2】Nitesh V Chawla 他、「SMOTE: synthetic minority over-sampling technique」、Journal of artificial intelligence research 16、pp. 321-357、２００２年

【非特許文献3】T. Kadowaki, H. Nishimori、「Quantum annealing in the transverse Ising model」、PhysRevE, Vol.58, 5355-5363、１９９８年

【発明の概要】

【発明が解決しようとする課題】

【0010】

しかしながら、従来のオーバーサンプリング方法では、オーバーサンプリングされたデータを用いた学習済みモデルによる推定の結果に、改善の余地があるという課題があった。

【0011】

本発明はこのような課題を解決するためになされたものであり、オーバーサンプリングされたデータを用いた学習済みモデルによる推定の結果を改善できる、データオーバーサンプリング技術を提供することを目的とする。

【課題を解決するための手段】

【0012】

本発明に係るデータオーバーサンプリング方法の一例は、
コンピュータが、２値要素からなるサイズＮの元データ配列をＭ件取得するステップと、
コンピュータが、Ｍ件の前記元データ配列に基づきＭ行Ｎ列の元データ行列を生成するステップと、
コンピュータが、前記元データ行列の転置行列と、前記元データ行列との積に基づき、Ｎ行Ｎ列の元データ特徴量行列を算出するステップと、
コンピュータが、生成行列更新処理を１回以上実行するステップであって、前記生成行列更新処理は、
‐実数要素からなるＮ行Ｎ列の生成行列に基づき、所定の目的関数の値を小さくするための解として、２値データからなるサイズＮのサンプリングデータ配列をＳ件生成する、探索ステップと、
‐Ｓ件の前記サンプリングデータ配列に基づきＳ行Ｎ列のサンプリングデータ行列を生成するステップと、
‐前記サンプリングデータ行列の転置行列と、前記サンプリングデータ行列との積に基づき、Ｎ行Ｎ列のサンプリングデータ特徴量行列を算出するステップと、
‐前記元データ特徴量行列と前記サンプリングデータ特徴量行列との差に基づき、前記生成行列を更新するステップと、
を含む、生成行列更新処理を１回以上実行するステップと、
コンピュータが、更新された前記生成行列に基づき、前記目的関数の値を小さくするための解として、２値データからなるサイズＮの出力データ配列を生成する、生成ステップと、
を備える。

【0013】

一例において、前記探索ステップおよび前記生成ステップは、アニーリング処理を用いて実行される。
一例において、
コンピュータが、多値要素を含む置換前データ配列の各多値要素について、その値に応じて異なる位置の要素が１となるワンホットベクトルを生成するステップと、
コンピュータが、前記置換前データ配列において各多値要素をそれぞれ対応する前記ワンホットベクトルで置き換えることにより、前記元データ配列を生成するステップと、
コンピュータが、前記出力データ配列のうち前記ワンホットベクトルに対応する要素列において、値が１である要素の位置に応じて異なる置換用値を生成するステップと、
コンピュータが、前記出力データ配列において前記ワンホットベクトルを対応する前記置換用値で置き換えることにより、多値要素を含む置換後出力データ配列を生成するステップと、
をさらに備える。

【0014】

本発明に係るデータオーバーサンプリングシステムの一例は、上述の方法を実行する。

【0015】

本発明に係るデータオーバーサンプリングプログラムの一例は、上述の方法をコンピュータに実行させる。

【発明の効果】

【0016】

本発明によれば、オーバーサンプリングされたデータを用いた学習済みモデルによる推定の結果を改善できる。たとえば、オーバーサンプリング対象となる元データと同様の分布を持つデータを増やすことができるので、教師あり機械学習におけるデータ数不均衡問題を解決できる。

【図面の簡単な説明】

【0017】

【図1】実施形態１に係るデータオーバーサンプリングシステム１０の構成例。

【図2】実施形態１に係るデータオーバーサンプリングシステム１０の動作例を表すフローチャート。

【図3】元データ行列の例。

【図4】図３の元データ行列に基づいて得られる元データ特徴量行列の例。

【図5】図２のステップＳ５のより詳細な内容を表すフローチャート。

【図6】実施形態１に係るデータオーバーサンプリングシステム１０によるデータオーバーサンプリングの実行結果例。

【図7】実施形態１に係るデータオーバーサンプリングシステム１０によるデータオーバーサンプリングの別の実行結果例。

【図8】実施形態２に係るデータオーバーサンプリングシステムの動作例を表すフローチャート。

【図9】ステップＳ１０２の処理の具体例。

【図10】ステップＳ１０２の処理の別の具体例。

【図11】ステップＳ１０５の処理の具体例。

【図12】ステップＳ１０５の処理の別の具体例。

【図13】実施形態２の実行結果例において用いたデータの項目内容。

【図14】図１３のデータ配列を用いて、実施形態２に係る処理を行った場合の実行結果例。

【図15】実施形態２において利用可能な生成行列の初期値の例。

【発明を実施するための形態】

【0018】

本発明の一例は、アニーリングによって出力されるデータの分布が、オーバーサンプリング対象となった元データの分布に近くなるように、アニーリング処理のパラメータ（たとえばＱＵＢＯ行列）を決定する。

【0019】

十分な回数のパラメータ更新処理の後、アニーリングによって出力されるデータは、オーバーサンプリング対象のデータに近い分布を持つことになるため、オーバーサンプリングされたデータとして利用できる。

【0020】

以下、本発明の実施形態を添付図面に基づいて説明する。
［実施形態１］
図１は、実施形態１に係るデータオーバーサンプリングシステム１０の構成例を示す。データオーバーサンプリングシステム１０は、本明細書に記載されるデータオーバーサンプリング方法を実行することにより、データのオーバーサンプリングを行う。データオーバーサンプリングシステム１０は、たとえば１以上のコンピュータを用いて構成することができる。

【0021】

データオーバーサンプリングシステム１０は公知のコンピュータとしてのハードウェア構成を有し、たとえば演算手段１１および記憶手段１２を備える。演算手段１１はたとえばプロセッサを含み、記憶手段１２はたとえば半導体メモリ装置および磁気ディスク装置等の記憶媒体を含む。記憶媒体の一部または全部が、過渡的でない(non-transitory)記憶媒体であってもよい。

【0022】

また、コンピュータは入出力手段を備えてもよい。入出力手段は、たとえばキーボードおよびマウス等の入力装置と、ディスプレイおよびプリンタ等の出力装置と、ネットワークインタフェース等の通信装置とを含む。

【0023】

記憶手段１２はデータオーバーサンプリングプログラムを記憶してもよい。プロセッサがこのデータオーバーサンプリングプログラムを実行することにより、コンピュータは本実施形態において説明される機能を実行してもよい。すなわち、このデータオーバーサンプリングプログラムは、本明細書に記載されるデータオーバーサンプリング方法をコンピュータに実行させることにより、データオーバーサンプリングシステム１０を実現してもよい。

【0024】

図２に、実施形態１に係るデータオーバーサンプリングシステム１０の動作例を表すフローチャートを示す。このフローチャートは、データオーバーサンプリング方法の一例を表す。

【0025】

まずデータオーバーサンプリングシステム１０は、オーバーサンプリングの対象となるデータとして、２値要素からなるサイズＮの元データ配列をＭ件取得する（ステップＳ１）。元データ配列の各要素は、たとえば｛０，１｝である。

【0026】

次に、データオーバーサンプリングシステム１０は、このＭ件の元データ配列に基づき、Ｍ行Ｎ列の元データ行列を生成する（ステップＳ２）。たとえば各元データ配列を行ベクトルとし、各行ベクトルを結合することによって元データ行列を生成することができる。

【0027】

図３に、元データ行列の例を示す。この例では、元データ配列［１００１１］、元データ配列［００１０１］、元データ配列［１１０１０］、元データ配列［０１１００］、元データ配列［１１０００］、元データ配列［０００１１］という、サイズ５の元データ配列６件から、図示の元データ行列が生成されている。

【0028】

次に、データオーバーサンプリングシステム１０は、元データ行列の転置行列と、元データ行列との積に基づき、Ｎ行Ｎ列の行列を算出する（ステップＳ３）。この行列は、元データの特徴を表す行列であり、以下では元データ特徴量行列と呼ぶ。

【0029】

図４に、図３の元データ行列に基づいて得られる元データ特徴量行列の例を示す。この例は、元データ行列の転置行列と、元データ行列との積を算出し、さらに各要素をＭで除算したものである。

【0030】

元データ特徴量行列は元データ配列における要素の分布を表し、第ｉ行第ｊ列の要素は、元データ配列において、第ｉ番目の要素と第ｊ番目の要素とが共に１となる確率を表す。図４の例では、第１行第３列の要素および第３行第１列の要素が共に０となっているが、図３に示す６件の元データ配列からも、第１番目の要素と第３番目の要素が同時に１となっている元データ配列が存在しないことが確認できる。

【0031】

次に、データオーバーサンプリングシステム１０は、サンプリングデータ配列を生成するための行列（生成行列）の初期値を決定する（ステップＳ４）。生成行列は、実数要素からなるＮ行Ｎ列の行列である。初期値は当業者が適宜決定可能であるが、たとえば全要素の値を０とすることができる。なお、後続のステップＳ５をアニーリング処理によって行う場合は、この生成行列はアニーリング処理のパラメータとしてのＱＵＢＯ行列となる。

【0032】

次に、データオーバーサンプリングシステム１０は、所定の生成行列更新処理を１回以上実行する（ステップＳ５）。

【0033】

図５に、図２のステップＳ５のより詳細な内容を表すフローチャートを示す。生成行列更新処理において、まずデータオーバーサンプリングシステム１０は、２値データからなるサイズＮのサンプリングデータ配列をＳ件生成する（ステップＳ５１、探索ステップ）。サンプリングデータ配列は、元データ配列と同じ構造を有する。すなわち、サンプリングデータ配列は、２値データからなるサイズＮの配列であり、各要素はたとえば｛０，１｝である。

【0034】

サンプリングデータ配列は、所定の目的関数の値を小さくするための解として生成される。より具体的な例として、サンプリングデータ配列は、目的関数の値が最小となるような解として生成される。この解は、目的関数の値を厳密に最小とする厳密解であってもよいが、一般的には目的関数の値を近似的に最小とする近似解である。ステップＳ５１を含む生成行列更新処理は、たとえばアニーリング処理として実現することができる。

【0035】

目的関数の入力は生成行列を含み、出力はサンプリングデータ配列を含む。目的関数の内容は当業者が公知技術等に基づいて適宜決定可能である。具体例として、次のような目的関数Ｅ（Ｘ）を用いることができる。
Ｅ（Ｘ）＝Σ_ｉΣ_ｊＱ_ｉｊＸ_ｉＸ_ｊ
ただしＱは生成行列であり、Ｘはサンプリングデータ配列であり、ｉおよびｊは要素のインデックスである。

【0036】

生成行列更新処理をアニーリング処理によって実行する場合には、あるＱＵＢＯ行列Ｑの要素Ｑ_ｍｎは、サンプリングデータ配列Ｘの要素Ｘ_ｍおよびＸ_ｎが共に１となる確率に影響を与える。そのため、ＱＵＢＯ行列を調整することは、サンプリングデータ配列の分布を調整することに相当する。

【0037】

次に、データオーバーサンプリングシステム１０は、ステップＳ５１において生成されたＳ件のサンプリングデータ配列に基づき、Ｓ行Ｎ列のサンプリングデータ行列を生成する（ステップＳ５２）。たとえばステップＳ２と同様に、各サンプリングデータ配列を行ベクトルとし、各行ベクトルを結合することによってサンプリングデータ行列を生成することができる。

【0038】

次に、データオーバーサンプリングシステム１０は、サンプリングデータ行列の転置行列と、サンプリングデータ行列との積に基づき、Ｎ行Ｎ列の行列を算出する（ステップＳ５３）。処理の一例において、算出の際に行列の各要素をＳ（すなわち生成されたサンプリングデータ配列の件数）で除算する。この行列は、サンプリングデータの特徴を表す行列であり、以下ではサンプリングデータ特徴量行列と呼ぶ。サンプリングデータ特徴量行列の構造は、図４に示す元データ特徴量行列の例と同一とすることができる。

【0039】

サンプリングデータ特徴量行列はサンプリングデータ配列における要素の分布を表し、第ｉ行第ｊ列の要素は、サンプリングデータ配列において、第ｉ番目の要素と第ｊ番目の要素とが共に１となる確率を表す。すなわち、あるサンプリングデータ行列Ｐの要素Ｐ_ｍｎは、サンプリングデータ配列Ｙの要素Ｙ_ｍおよびＹ_ｎが共に１となる確率を表す。

【0040】

次に、データオーバーサンプリングシステム１０は、元データ特徴量行列とサンプリングデータ特徴量行列との差に基づき、生成行列を更新する（ステップＳ５４）。具体的な演算例は次式である。
Ｑ_ｋ＋１＝Ｑ_ｋ－η（Ｚｍａｔ－Ｘｍａｔ）
ただしＱ_ｋおよびＱ_ｋ＋１はそれぞれステップＳ５４のｋ回目およびｋ＋１回目の実行において更新された後の生成行列であり、ηは学習率（たとえば正の定数）であり、Ｚｍａｔは元データ特徴量行列であり、Ｘｍａｔはサンプリングデータ特徴量行列である。

【0041】

データオーバーサンプリングシステム１０は、ステップＳ５１～Ｓ５４を、所定の基準が満たされるまで（ただし少なくとも１回）、繰り返し実行する。基準の例として、ステップＳ５１～Ｓ５４は、ＺｍａｔとＸｍａｔとの差（損失関数）が所定の閾値より小さくなるまで繰り返し実行される。ＺｍａｔとＸｍａｔとの差は、それぞれの要素に基づき、たとえば平均二乗誤差（以下「ＭＳＥ」と略記する場合がある）によって表すことができる。また、基準の別の例として、ステップＳ５１～Ｓ５４を事前に定義される所定の回数だけ繰り返してもよい。このような処理により、損失関数の値が十分に小さくなるまで生成行列の更新処理を繰り返すことができる。このようにして、図２のステップＳ５が終了する。

【0042】

ステップＳ５の後、データオーバーサンプリングシステム１０は、更新された生成行列（たとえばステップＳ５終了時点の生成行列）に基づき、出力データ配列を生成して出力する（ステップＳ６、生成ステップ）。出力データ配列は、サンプリングデータ配列と同様に、所定の目的関数の値を小さくするための解として生成される。より具体的な例として、出力データ配列は、目的関数の値が最小となるような解として生成される。この解は、目的関数の値を厳密に最小とする厳密解であってもよいが、一般的には目的関数の値を近似的に最小とする近似解である。このステップＳ６における具体的な演算処理は、ステップＳ５１と同様とすることができる。

【0043】

出力データ配列は、元データ配列およびサンプリングデータ配列と同じ構造を有する。すなわち、出力データ配列は、２値データからなるサイズＮの配列であり、各要素はたとえば｛０，１｝である。出力データ配列は、１件以上出力される。

【0044】

このような処理により、元データ配列と同様の分布を持つ出力データ配列を生成することができるため、元データ配列のオーバーサンプリングが可能となる。このため、教師あり機械学習におけるデータ件数の不均衡問題を解決することができる。

【0045】

なお、本実施形態では解の探索にアニーリング処理が用いられ、とくにステップＳ５１（探索ステップ）およびＳ６（生成ステップ）はアニーリング処理を用いて実行される。変形例として、以下の条件１および条件２を満たす処理であれば、アニーリング処理に代えて任意の処理を用いることができる。
‐条件１：パラメータを表すＮ行Ｎ列の行列Ｑを入力とし、任意の目的関数Ｅ（Ｘ）が最小となる解Ｘを探索する。ただし、Ｑの各要素の値は実数とし、Ｘは｛０，１｝の２値データからなるＮ次元の配列である。
‐条件２：解Ｘの探索はヒューリスティックな探索である。なお、探索は必ずしも厳密解を得られるものに限らない。得られるのが近似解である場合には、結果にばらつきが生じる。

【0046】

以下、本実施形態に係るデータオーバーサンプリングシステム１０の性能評価として、アニーリング処理を用いた具体的な実行結果例を説明する。

【0047】

図６に、実施形態１に係るデータオーバーサンプリングシステム１０によるデータオーバーサンプリングの実行結果例を示す。図６（ａ）～（ｆ）の各マップは特徴量行列を表す。図６の各マップにおいて、グレーが濃いセルは、そのセルに対応する要素の値が大きいことを示す。

【0048】

図６（ａ）は元データ特徴量行列の例であり、図４の元データ特徴量行列すなわちＺｍａｔを表す。この行列が、アニーリング処理における正解となる。

【0049】

図６（ｂ）、（ｃ）、（ｄ）、（ｅ）、（ｆ）は、それぞれ生成行列更新処理（ステップＳ５）が１回、１００回、２００回、５００回、１０００回実行された時点でのサンプリングデータ特徴量行列の例であり、Ｘｍａｔを表す。生成行列更新処理の回数が増加するにつれ、分布が図６（ａ）のＺｍａｔに近づいているということがわかる。

【0050】

図６（ｆ）すなわち１０００回目の結果は、出力データ配列の分布を表す。図６（ａ）の正解と図６（ｆ）の結果とを比べると、差がほとんどないことがわかる。すなわち、この例では、生成行列更新処理を１０００回繰り返すことにより、元データ配列とほぼ同じ分布を有する出力データ配列を生成することができる。

【0051】

図７に、実施形態１に係るデータオーバーサンプリングシステム１０によるデータオーバーサンプリングの別の実行結果例を示す。この例は、周知のＭＮＩＳＴ画像を用いたものである。ＭＮＩＳＴ画像とは、手書き数字を表す画像に、その数字を表すラベルが関連付けられたものであり、数字０～９の各数字について１０００件のデータが存在している。本実施形態では、各画像の各画素を白または黒に２値化したデータを用いた。

【0052】

数字０～９のうち、数字０～８のデータは１０００件のままとし、数字９のデータのみを１００件に削減して不均衡データを生成した。合計９１００件の不均衡データを、周知の分類手法であるＬｉｇｈｔＧＢＭで分類し、その精度を評価した。なお精度は、正解率（Ａｃｃｕｒａｃｙ）、再現率（Ｒｅｃａｌｌ）、適合率（Ｐｒｅｃｉｓｉｏｎ）、Ｆ値、によって示している。このような精度の定義および算出方法は周知であるため説明は省略する。

【0053】

図７（ａ）は、不均衡データをそのまま用いて学習した場合のものであり、数字９についてのＦ値が０．７３８であり、数字０～８についてのＦ値より低くなっている。

【0054】

図７（ｂ）は、従来手法の例として、数字９のデータをランダムに複製することでオーバーサンプリングし、データ件数を１０００件としてから学習した場合のものである。数字９についてのＦ値が０．８２４に改善している。

【0055】

図７（ｃ）は、従来手法の別の例として、数字９のデータをＳＭＯＴＥでオーバーサンプリングし、データ件数を１０００件としてから学習した場合のものである。この例では、数字９の元データを２件ランダムに選択し、その中間点に新たなデータを生成するという処理を繰り返した。数字９についてのＦ値が０．８２７に改善している。

【0056】

図７（ｄ）は、数字９のデータを本実施形態によってオーバーサンプリングし、データ件数を１０００件としてから学習した場合のものである。数字９についてのＦ値が０．９０７に改善しており、とくに図７（ｂ）および（ｃ）の従来手法より高い値となっている。

【0057】

このように、本実施形態に係るデータオーバーサンプリング方法、データオーバーサンプリングシステムおよびデータオーバーサンプリングプログラムによれば、適切なオーバーサンプリングが行えるので、元データ配列におけるデータ件数の不均衡を適切に解消することができる。このため、より適切な学習を行うことができ、オーバーサンプリングされたデータを用いた学習済みモデルによる推定の結果を改善することができる。このようにして、教師あり機械学習におけるデータ数不均衡問題を解決できる。

【0058】

［実施形態２］
実施形態２は、実施形態１において、多値データを扱うことができるように変更を加えるものである。以下、実施形態２について説明するが、実施形態１と共通する部分については説明を省略する場合がある。

【0059】

図８に、実施形態２に係るデータオーバーサンプリングシステムの動作例を表すフローチャートを示す。このフローチャートは、データオーバーサンプリング方法の一例を表す。なお、図８のステップ１０４の処理は、図２（実施形態１）のステップＳ１～Ｓ６によって構成することができる。

【0060】

まずデータオーバーサンプリングシステムは、オーバーサンプリングの対象となるデータとして、多値要素を含む配列を取得する（ステップＳ１０１）。多値要素は、３値以上のデータであってもよいし、量的データであってもよい。この配列は、後述する置換処理の対象となる配列であり、以下では「置換前データ配列」と称する。

【0061】

次に、データオーバーサンプリングシステムは、置換前データ配列の各多値要素について、その値に応じて異なる位置の要素が１となるワンホットベクトルを生成する（ステップＳ１０２）。

【0062】

図９に、ステップＳ１０２の処理の具体例を示す。この例では、多値要素は３値のデータであり、たとえば要素が３つのカテゴリのいずれに対応するかを表すカテゴリ変数である。カテゴリ変数の値が０である場合には、最初の要素が１であるワンホットベクトル［１，０，０］が生成される。カテゴリ変数の値が１である場合には、２番目の要素が１であるワンホットベクトル［０，１，０］が生成される。カテゴリ変数の値が２である場合には、３番目の要素が１であるワンホットベクトル［０，０，１］が生成される。このようにして、多値要素に基づきワンホットベクトルが生成される。

【0063】

図１０に、ステップＳ１０２の処理の別の具体例を示す。この例では、多値要素は０以上１．５以下の量的データである。まず各要素が異なる区間のうちいずれに属するかが判定される。図１０の例では、第１区間「０以上０．５未満」、第２区間「０．５以上１未満」、第３区間「１以上（この場合には１．５以下）」、のいずれの区間に属するかが判定される。各区間は互いに重複せず、かつ量的データの全範囲をカバーするものとする。

【0064】

次に、判定の結果に応じてカテゴリ変数の値が決定される。たとえば量的変数の値が０．１である場合には、第１区間に属するので、カテゴリ変数の値は０となる。量的変数の値が０．７である場合には、第２区間に属するので、カテゴリ変数の値は１となる。量的変数の値が１．４である場合には、第３区間に属するので、カテゴリ変数の値は３となる。カテゴリ変数の値が決定された後の処理は、図９の例と同様である。

【0065】

ステップＳ１０２の後、データオーバーサンプリングシステムは、置換前データ配列において各多値要素をそれぞれ対応するワンホットベクトルで置き換えることにより、２値要素からなる新たなデータ配列を生成する（ステップＳ１０３）。ここで生成されるデータ配列は、実施形態１における元データ配列に相当する。

【0066】

次に、データオーバーサンプリングシステムは、ステップＳ１０３で生成されたデータ配列について、実施形態１と同様のデータオーバーサンプリング処理を実行する（ステップＳ１０４）。これによってオーバーサンプリングによる出力データ配列が生成される。

【0067】

次に、データオーバーサンプリングシステムは、出力データ配列のうち上述のワンホットベクトルに対応する要素列において、値が１である要素の位置に応じて異なる置換用値を生成する（ステップＳ１０５）。

【0068】

図１１に、ステップＳ１０５の処理の具体例を示す。この例では、置換前の多値要素は３値のデータ（カテゴリ変数）であり、すなわち１つのワンホットベクトルに３つの要素からなる要素列が対応しているとする。ワンホットベクトルの最初の要素が１であれば、置換用値となるカテゴリ変数の値は０となり、ワンホットベクトルの２番目の要素が１であれば、置換用値となるカテゴリ変数の値は１となり、ワンホットベクトルの３番目の要素が１であれば、置換用値となるカテゴリ変数の値は２となる。

【0069】

このステップＳ１０５の処理は、上述のステップＳ１０３とは逆の処理となる。出力データ配列のどの部分の要素列がワンホットベクトルに対応するか（すなわち、何番目の要素からいくつの連続する要素がワンホットベクトルを構成すべきか）は、上述のステップＳ１０３の処理内容に基づいて決定することができる。

【0070】

なお、該当する要素列がワンホットベクトルでない場合（たとえば２個以上の要素が１である場合）の処理は、当業者が適宜決定可能であり、たとえば任意の２値ベクトルをワンホットベクトルに変換する関数を事前に定義しておいてもよい。

【0071】

図１２に、ステップＳ１０５の処理の別の具体例を示す。この例では、置換前の多値要素は０以上１．５以下の量的データであり、ステップＳ１０３において１つの量的データが３次元のワンホットベクトルに置換されているとする。ワンホットベクトルの最初の要素が１であれば、カテゴリ変数の値は０となり、該当する区間は第１区間「０以上０．５未満」となる。ワンホットベクトルの２番目の要素が１であれば、カテゴリ変数の値は１となり、該当する区間は第１区間「０．５以上１未満」となる。ワンホットベクトルの３番目の要素が１であれば、カテゴリ変数の値は２となり、該当する区間は第１区間「１以上（この場合には１．５以下）」となる。

【0072】

そして、量的変数の置換用値として、該当する区間内の値を１つ生成する。区間内の値の生成は、たとえばその区間内でランダムに値を選択することにより実行される。例として、カテゴリ変数の値が１であれば、０以上０．５未満の置換用値がランダムで生成される（図１２の例では「０．４」が生成されている）。カテゴリ変数の値が２であれば、０．５以上１未満の置換用値がランダムで生成される（図１２の例では「０．７」が生成されている）。カテゴリ変数の値が３であれば、１以上１．５以下の置換用値がランダムで生成される（図１２の例では「１．３」が生成されている）。

【0073】

ステップＳ１０５の後、データオーバーサンプリングシステムは、出力データ配列においてワンホットベクトルを対応する置換用値で置き換えることにより、新たな配列を生成する（ステップＳ１０６）。ここで生成される配列は、多値要素（量的データであってもよい）を含む配列であり、以下では「置換後出力データ配列」と呼ぶ。

【0074】

置換後出力データ配列は、置換前データ配列における多値要素のそれぞれに対応して多値要素を含むものであり、置換前データ配列と同様の構造を有するということができる。このように、実施形態２に係るデータオーバーサンプリング方法、データオーバーサンプリングシステムおよびデータオーバーサンプリングプログラムによれば、多値要素を含むデータ配列についても、適切なオーバーサンプリングを行うことができる。

【0075】

以下、実施形態２に係るデータオーバーサンプリングシステムによるデータオーバーサンプリングの実行例を説明する。

【0076】

図１３に、実施形態２の実行結果例において用いたデータの項目内容を示す。このデータは、ｉｍｂａｌａｎｃｅｄ－ｌｅａｒｎによって提供されるワインの品質を表すデータセットである。データセットには、品質が低いワインのデータ配列が４７１５件、品質が高いワインのデータ配列が１８３件、合計４８９８件のデータ配列が含まれている。

【0077】

品質の高低は、図１３の最下行の項目ｑｕａｌｉｔｙで表される。ｑｕａｌｉｔｙは｛０，１｝の２値データであり、０である場合にはワインの品質が低いことを表し、１である場合にはワインの品質が高いことを表す。上述のように、ｑｕａｌｉｔｙが０であるデータ配列と、ｑｕａｌｉｔｙが１であるデータ配列との比率は、４７１５：１８３≒２６：１となり不均衡データとなっている。

【0078】

図１４に、図１３のデータ配列を用いて、実施形態２に係る処理を行った場合の実行結果例を示す。ｑｕａｌｉｔｙの値をラベルとし、他の変数の値からｑｕａｌｉｔｙを推定するための学習を行った。検証時の学習データとテストデータとの比率は約７：３とした。「不均衡状態」は、上述の不均衡データをそのまま用いて学習した場合のものであり、Ｆ値が０．２９３となった。

【0079】

「従来例：ランダム」、「従来例：ＳＭＯＴＥ」、「実施形態２」は、いずれも、ｑｕａｌｉｔｙが１であるデータをオーバーサンプリングして４７１５件とし、すなわちｑｕａｌｉｔｙが０であるデータと同数としてから学習した場合のものである。

【0080】

「従来例：ランダム」は、図７（ｂ）と同様にランダムに複製することによるオーバーサンプリングを行った場合のものである。この場合にはＦ値は０．３３８に改善された。「従来例：ＳＭＯＴＥ」は、図７（ｃ）と同様にＳＭＯＴＥによるオーバーサンプリングを行った場合のものである。この場合にはＦ値は０．３７３に改善された。

【0081】

「実施形態２」は、本実施形態によるオーバーサンプリングを行った場合のものである。この例では、量的データを表す変数はそれぞれ５０個の区間にあてはめ、すなわち各変数を５０次元のワンホットベクトルに変換した。変数は１１個あるので、オーバーサンプリングの対象となる元データ配列はサイズ５５０の配列となった。本実施形態による結果では、Ｆ値は０．４１９に改善されており、とくに、いずれの従来手法よりも高い値となっている。なお、再現率（Ｒｅｃａｌｌ）についても、いずれの従来手法よりも高い値となった。

【0082】

このように、本実施形態に係るデータオーバーサンプリング方法、データオーバーサンプリングシステムおよびデータオーバーサンプリングプログラムによれば、多値要素を含むデータについても適切なオーバーサンプリングを行うことができる。このようにして、教師あり機械学習におけるデータ数不均衡問題を解決できる。

【0083】

実施形態２において、元データ配列におけるワンホットベクトルに対応する要素の値が、出力データ配列においてワンホットベクトルとして出力されることをより確実にするため、生成行列の初期値として特定の行列を用いることができる。

【0084】

図１５は、実施形態２において利用可能な生成行列の初期値の例を示す。この例は、置換前データ配列が２つの変数からなり、各変数が３次元のワンホットベクトルによって表される場合の例である。元データ配列の次元数が６となるため、生成行列（ＱＵＢＯ行列）は６×６のサイズを有する。元データ配列および出力データ配列のうち、１番目～３番目の要素が一方の変数に対応し、４番目～６番目の要素が他方の変数に対応する。

【0085】

この例では、出力データ配列において、たとえば１番目～３番目の要素のうち複数が同時に１となっていると、ワンホットベクトルとしての条件を満たさない。すなわち、１番目～３番目の要素がワンホットベクトルを構成するためには、これらのうち複数が同時に１となっているような出力データ配列の生成を抑制する必要がある。４番目～６番目の要素についても同様である（以下同じ）。

【0086】

これを実現するために、出力データ配列の１番目～３番目の要素のうち複数が同時に１となっている場合に、目的関数Ｅ（Ｘ）の値が大きくなるような生成行列を用いることができる。生成行列にこのような性質を与える初期値の例を図１５に示す。

【0087】

この例では、出力データ配列（またはサンプリングデータ配列）の１番目～３番目の要素のうち複数が同時に１となっていると、目的関数Ｅ（Ｘ）の値が１００だけ増加して非常に大きくなるので、そのような配列の生成を抑制することができる。生成行列の初期値をこのような行列とすることにより、最終的な出力データ配列においても、ワンホットベクトルを適切に生成することができる。

【0088】

なお、図１５の例では行列の要素を０または１００としているが、値「１００」は正の値であれば他の値であってもよい。目的関数Ｅ（Ｘ）の評価に大きな影響を及ぼす値とすると好適である。

【0089】

このように、実施形態２において、生成行列の初期値は、元データ配列において１つのワンホットベクトルを構成する複数の要素のうち複数が同時に１となる場合に、目的関数の値を増加させるように設定することができる。

【0090】

当業者は、上述の各実施形態において、本発明の範囲内で、構成要素を任意に追加、変更または削除することができる。たとえばデータオーバーサンプリングシステム１０は、通信ネットワークを介して接続された複数のコンピュータによって構成することができる。

【符号の説明】

【0091】

１０…データオーバーサンプリングシステム
１１…演算手段
１２…記憶手段

【図1】