(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-21
(45)【発行日】2025-04-30
(54)【発明の名称】発明の名称 : 情報処理装置、情報処理方法、及び、プログラム
(51)【国際特許分類】
G06F 18/214 20230101AFI20250422BHJP
【FI】
G06F18/214
(21)【出願番号】P 2023554203
(86)(22)【出願日】2021-10-22
(86)【国際出願番号】 JP2021039076
(87)【国際公開番号】W WO2023067792
(87)【国際公開日】2023-04-27
【審査請求日】2024-04-16
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】畠山 優太
(72)【発明者】
【氏名】岡嶋 穣
【審査官】大倉 崚吾
(56)【参考文献】
【文献】特開2020-166397(JP,A)
【文献】国際公開第2021/100818(WO,A1)
【文献】特開2019-074945(JP,A)
【文献】米国特許出願公開第2021/0056417(US,A1)
【文献】三沢博章 ほか,「能動学習を活用したアノテーション効率化手法の開発」,電子情報通信学会2019年総合大会講演論文集 情報・システム2,一般社団法人電子情報通信学会,2019年03月05日,p.122
(58)【調査した分野】(Int.Cl.,DB名)
G06F 18/00-18/40
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
特徴量からなる実事例を取得する入力手段と、
前記実事例から複数の人工事例を生成する人工事例生成手段と、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する人工事例選択手段と、
選択された人工事例を出力する出力手段と、
を備え、
前記人工事例選択手段は、特徴量空間において近傍に存在する実事例が異なるように人工事例を選択する情報処理装置。
【請求項2】
前記人工事例生成手段は、入力された全ての実事例を用いて前記人工事例を生成する請求項1に記載の情報処理装置。
【請求項3】
前記人工事例生成手段は、入力された実事例からランダムに選択された複数の実事例を用いて前記人工事例を生成する請求項1に記載の情報処理装置。
【請求項4】
前記人工事例生成手段は、入力された複数の実事例の中から、機械学習モデルの予測が不確かとなる実事例を選択し、選択した実事例を用いて前記複数の人工事例を生成する請求項1に記載の情報処理装置。
【請求項5】
前記出力手段は、前記選択された人工事例にラベルを付与して出力する請求項1乃至4のいずれか一項に記載の情報処理装置。
【請求項6】
コンピュータにより実行される情報処理方法であって、
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する情報処理方法。
【請求項7】
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習に用いる訓練事例の作成に関する。
【背景技術】
【0002】
機械学習に用いる訓練事例の数が十分でない場合、人工的に生成した事例(以下、「人工事例」と呼ぶ。)を訓練事例として用いることがある。例えば、非特許文献1は、決定境界に近い実事例に類似した人工事例を生成する手法を開示している。なお、非特許文献2、3は、人工事例の生成方法を開示している。
【先行技術文献】
【特許文献】
【0003】
【文献】Ertekin (2013). Adaptive oversampling for imbalanced data classification. In Information Sciences and Systems 2013 - Proceedings of the 28th International Symposium on Computer and Information Sciences (ISCIS), pp. 261-269.
【文献】Bucilua, C., Caruana, R. and Niculescu-Mizil, A.: Model Compression, Proc. ACM SIGKDD, pp. 535-541 (2006).
【文献】Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. : SMOTE: Synthetic minority over-sampling technique, Journal of Artificial Intelligent Research, 16, 321-357 (2002).
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上記の手法では、生成された人工事例が必ずしも機械学習モデルの予測性能の向上に寄与するとは限らない。
【0005】
本開示の1つの目的は、機械学習モデルの予測性能の向上に寄与する人工事例を生成することが可能な情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本開示の一つの観点では、情報処理装置は、
特徴量からなる実事例を取得する入力手段と、
前記実事例から複数の人工事例を生成する人工事例生成手段と、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する人工事例選択手段と、
選択された人工事例を出力する出力手段と、
を備え、
前記人工事例選択手段は、特徴量空間において近傍に存在する実事例が異なるように複数の人工事例を選択する。
【0007】
本開示の他の観点では、コンピュータにより実行される情報処理方法は、
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する。
【0008】
本開示のさらに他の観点では、プログラムは、
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する処理をコンピュータに実行させる。
【発明の効果】
【0009】
本開示によれば、機械学習モデルの予測性能の向上に寄与する人工事例を生成することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】人工事例を生成する基本手法を模式的に説明する図である。
【
図2】人工事例を生成する実施形態の手法を模式的に説明する図である。
【
図3】基本手法と比較した本実施形態の効果の説明図である。
【
図4】第1実施形態に係る人工事例生成装置のハードウェア構成を示すブロック図である。
【
図5】第1実施形態の人工事例生成装置の機能構成を示すブロック図である。
【
図6】人工事例の選択方法の例を模式的に説明する図である。
【
図7】人工事例の選択方法の他の例を模式的に説明する図である。
【
図8】人工事例の選択方法の他の例を模式的に説明する図である。
【
図9】能動学習の一例であるQuery by committeeの概略説明図である。
【
図10】実事例の選択に能動学習を用いる方法を模式的に示す。
【
図11】人工事例生成処理のフローチャートである。
【
図12】第2実施形態の情報処理装置の機能構成を示すブロック図である。
【
図13】第2実施形態の情報処理装置による処理のフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本開示の好適な実施形態について説明する。
<原理説明>
以下、実施形態に係る手法の原理について説明する。
(基本手法)
まず、機械学習に用いる訓練事例の作成方法の一例を基本手法として説明する。機械学習においては、実際に観測された実事例だけでなく、実事例に似せて作った人工事例を訓練事例に追加することで、得られる機械学習モデルの精度が向上することがある。しかし、ランダムに人工事例を追加しても、機械学習モデルの精度を効率的に向上させることは難しい。そこで、基本手法では、機械学習モデルの予測が不確かな実事例、即ち、予測が難しい実事例を選択し、その実事例に類似する複数の人工事例を生成して訓練事例に加える。この作業を繰り返すことにより、訓練事例を増加させ、機械学習モデルの予測精度を向上させる。
【0012】
図1(A)は、基本手法を模式的に説明する図である。いま、機械学習モデルとしてサポートベクターマシン(SVM)を用い、2クラス分類を行うと仮定する。
図1(A)は、事例を特徴量空間上に配置した図である。図示のように、各実事例は、決定境界を用いてクラスC1とC2に分類される。ここで、特徴量空間上で決定境界に近い実事例は、予測が不確かな事例と考えることできる。
【0013】
基本手法は、まず、決定空間に近い実事例を取得し、取得した実事例に類似した人工事例を所定数(v個)生成する。
図1(A)の例では、予測が不確かな実事例として、決定境界に近い実事例80が取得され、実事例80に類似した人工事例80a~80cが生成されている。人工事例は、予測が不確かな実事例と、それに近い他の実事例を合成することにより生成される。例えば、人工事例は、以下の式を用いて生成することができる。
【0014】
【0015】
次に、基本手法は、生成されたv個の人工事例を訓練事例に加えてSVMを再構築する。そして、基本手法は、再構築されたSVMに基づいて予測が不確かな実事例を取得し、それに類似する人工事例を生成する。基本手法は、この作業を一定回数繰り返した後に、生成した人工事例を出力する。
【0016】
(基本手法の課題)
しかし、上記の基本手法で得られた人工事例が、必ずしも機械学習モデルの予測精度を向上させるとは限らない。これは、基本手法が主として以下の2つの課題を有するためである。
【0017】
第1の課題は、不確かな実事例から生成された人工事例が、同様に不確かであるとは限らないことである。
図1(B)は、基本手法を用いて人工事例を生成した例を示す。
図1(B)の例では、決定境界に近い実事例80を予測が不確かな実事例として採用し、この実事例80に類似する5つの人工事例が生成されている。このうち、人工事例80dは、決定境界に近く、実事例80と同様に不確かな事例に該当すると考えられる。しかし、人工事例80eなどは、特徴量空間上で決定境界から離れており、必ずしも不確かな事例とは言えないものとなっている。このような人工事例は、機械学習モデルの予測性能の向上に寄与しない。
【0018】
第2の課題は、同じ実事例から作成した複数の人工事例を訓練事例として用いると冗長になることである。基本手法によって同じ実事例から生成したv個の人工事例は互いに類似するので、人工事例の個数vが大きいほど、同じような人工事例ばかりが訓練事例に追加されることになり、予測性能の向上への寄与が少なくなる。また、似たような人工事例ばかりが追加されることにより、訓練事例の分布が元の実事例の分布から乖離し、予測精度に悪影響を与える可能性も考えられる。この点、人工事例の個数vを小さくすれば第2の課題を抑制することができるが、そうすると前述の第1の課題が大きくなってしまう。即ち、人工事例の個数vが大きければ、偶然良い人工事例が追加される可能性が高くなるが、個数vが小さいと、性能向上に寄与しない人工事例だけが追加される可能性がある。
【0019】
(実施形態の手法)
上記の課題に鑑み、実施形態の手法は以下のプロセスを実行する。
(プロセス1)何らかの方法で実事例を選択して複数の人工事例を生成する。
(プロセス2)生成された人工事例の中から、予測が不確かな人工事例を選択し、訓練事例として追加する。
【0020】
図2は、実施形態の手法を模式的に説明する図である。
図2は、
図1(A)、(B)と同様に、特徴量空間上に事例を配置した図である。
図2の例において、実施形態の手法は、実事例80を選択し、実事例80に基づいて5つの人工事例を生成する。次に、実施形態の手法は、生成された5つの人工事例の中から、決定境界から遠い人工事例(矩形81内の人工事例)を除外し、決定境界に近い人工事例80dのみを採用する。即ち、矩形81内の人工事例は、必ずしも予測が不確かとは言えないために除外され、決定境界に近い人工事例80dは予測が不確かな事例として採用される。
【0021】
この手法によれば、予測があまり不確かでない人工事例は訓練事例に追加されなくなり、実際に予測が不確かな人工事例だけが訓練事例に追加されるようになる。これにより、上記の課題1が解決される。また、予測があまり不確かでない人工事例を除外することにより、同じような人工事例ばかりが訓練事例に追加されることが無くなり、上記の課題2が解決される。なお、一般に人工事例は事例の合成により行われるため、人工事例の生成コストは低い。これに対し、訓練事例が増加することによる機械学習の計算コストは高い。よって、実施形態の手法のように、いったん大量に人工事例を作成し、良い事例だけを選択して訓練事例に追加する方が、機械学習の計算コストが減り、効率的となる。
【0022】
(実施形態の効果)
図3は、基本手法と比較した本実施形態の効果の説明図である。
図3(A)は、基本手法により生成された事例を示し、
図3(B)は、実施形態の手法により生成された事例を示す。基本手法では、予測が不確かな実事例を選択した後に、その事例から人工事例を複数生成することを繰り返す。このため、基本手法では、
図3(A)に示すように、特徴空間上の同じような場所に人工事例が過剰に生成される傾向がある。
【0023】
これに対し、実施形態の手法は、生成した人工事例から予測が不確かな人工事例を選択するので、
図3(B)に示すように、特徴量空間上の同じような場所に事例が過剰に生成されることなく、機械学習モデルの予測が不確かな場所に事例を追加することができる。よって、少ない実事例から、モデルの予測精度を向上させる人工事例を生成することが可能となる。また、その結果、元の実事例の分布を保ち、かつ、モデルの予測精度を効率的に向上させる人工事例の生成も可能となる。
【0024】
<第1実施形態>
次に、第1実施形態に係る人工事例生成装置100について説明する。人工事例生成装置100は、実事例に基づいて、訓練事例に追加すべき人工事例を生成する。
【0025】
[ハードウェア構成]
図4は、第1実施形態に係る人工事例生成装置のハードウェア構成を示すブロック図である。図示のように、人工事例生成装置100は、インタフェース(I/F)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15と、を備える。
【0026】
インタフェース11は、外部装置との間でデータの入出力を行う。具体的に、インタフェース11は、外部から実事例を取得する。
【0027】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより人工事例生成装置100の全体を制御する。なお、プロセッサ12は、GPU(Graphics Processing Unit)またはFPGA(Field-Programmable Gate Array)であってもよい。プロセッサ12は、後述する人工事例生成処理を実行する。
【0028】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0029】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、人工事例生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。人工事例生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。DB15は、インタフェース11を通じて入力された実事例や、実事例に基づいて生成された人工事例を記憶する。
【0030】
[機能構成]
図5は、第1実施形態の人工事例生成装置100の機能構成を示すブロック図である。人工事例生成装置100は、入力部21と、人工事例生成部22と、人工事例選択部23と、出力部24と、を備える。
【0031】
入力部21は、複数の実事例を取得し、人工事例生成部22へ出力する。人工事例生成部22は、入力された複数の実事例から、何らかの方法で実事例を選択する。実事例を選択する方法については後述する。そして、人工事例生成部22は、選択した実事例を用いて複数の人工事例を生成し、人工事例選択部23へ出力する。なお、人工事例生成部22が実行する処理は、前述のプロセス1に相当する。
【0032】
人工事例選択部23は、生成された複数の人工事例から、予測が不確かな人工事例を選択し、出力部24へ出力する。予測が不確かな人工事例の選択方法については後に詳しく説明する。なお、人工事例選択部23が実行する処理は、前述のプロセス2に対応する。そして、出力部24は、入力された人工事例を、機械学習モデルの訓練に使用する訓練事例に追加する。
【0033】
[人工事例選択部]
次に、人工事例選択部23について詳しく説明する。人工事例選択部23は、人工事例生成部22が生成した複数の人工事例から、訓練事例として追加すべき人工事例を選択する。
【0034】
(1)人工事例の選択方法
まず、人工事例選択部23による人工事例の選択方法について説明する。
(方法1)
方法1では、人工事例選択部23は、
図2を参照して説明したように、「予測が不確かな人工事例」を選択する。例えば、人工事例選択部23は、複数の人工事例のうち、決定境界に最も近い人工事例、又は、決定境界から所定距離以内の人工事例を選択する。
【0035】
(方法2)
方法2では、人工事例選択部23は、単に予測が不確かな人工事例を選択するのではなく、「予測が不確かであり、かつ、互いに類似しないような複数の人工事例」を選択する。これにより、類似した冗長な人工事例を選ばずに、互いに類似していない人工事例を追加できるため、学習の効率が向上し、前述の課題2がさらにうまく解決される。具体的に、方法2としては、以下の3つのいずれかの方法が用いられる。
【0036】
(方法2-1)
方法2-1では、人工事例選択部23は、人工事例同士の類似度を計算し、互いに類似したものにならないように人工事例を選択する。
図6は、方法2-1を模式的に説明する図である。まず、ステップS11で、入力部21は複数の実事例を取得する。次に、ステップS12で、人工事例生成部22は各実事例から複数の人工事例を生成する。次に、ステップS13で、人工事例選択部23は、生成された複数の人工事例について予測の不確かさを算出し、予測が不確かな人工事例、即ち、不確かさの高い人工事例を選択する。
【0037】
次に、ステップS14で、人工事例選択部23は、予測が不確かな複数の人工事例から、互いに類似したものにならないように、不確かさの高い人工事例を選択する。具体的には、人工事例選択部23は、人工事例同士の類似度を計算し、既に選んだ人工事例と類似度が高い人工事例を選ばないようにする。こうして、互いに類似していない人工事例が選択されていく。そして、ステップS15で、出力部24は、選択された人工事例を訓練事例に追加する。
【0038】
(方法2-2)
方法2-2では、人工事例選択部23は、取得する人工事例に一番近い実事例がそれぞれ一致しないように人工事例を選択する。
図7は、方法2-2を模式的に説明する図である。まず、ステップS21で、入力部21は複数の実事例を取得する。次に、ステップS22で、人工事例生成部22は各実事例から複数の人工事例を生成する。次に、ステップS23で、人工事例選択部23は、生成された複数の人工事例について予測の不確かさを算出し、予測が不確かな人工事例、即ち、不確かさの高い人工事例を選択する。
【0039】
次に、ステップS24で、人工事例選択部23は、予測が不確かな複数の人工事例から、距離が一番近い実事例が一致しないように、不確かさの高い人工事例を選択する。具体的には、人工事例選択部23は、不確かさの高い人工事例の各々について、特徴量空間上での距離が最も近い実事例(以下、「最近傍実事例」と呼ぶ。)を決定し、最近傍実事例がそれぞれ異なるように複数の人工事例を選択する。例えば、人工事例選択部23は、同一の実事例を最近傍実事例として持つ複数の人工事例から、1つずつの人工事例を選択する。こうして、互いに類似していない人工事例が選択される。そして、ステップS25で、出力部24は、選択された人工事例を訓練事例に追加する。
【0040】
この場合、人工事例選択部23は、人工事例と実事例の距離として、ユークリッド距離を用いてもよく、ユークリッド距離以外の距離を用いてもよく、コサイン類似度などの類似度を用いてもよい。
【0041】
また、人工事例選択部23は、上記のように最近傍実事例が一致しないように人工事例を選択する代わりに、距離が近い方から所定数(K個)の近傍実事例のうち、所定数(M個。但し、M≦K)が一致しないように人工事例を選択してもよい。
【0042】
(方法2-3)
方法2-3では、人工事例選択部23は、生成源となる実事例が一致しないように人工事例を選択する。具体的には、人工事例生成部22が実事例から複数の人工事例を生成すると、人工事例選択部23は、各人工事例に対して、生成源となる実事例をペアリングする。次に、人工事例選択部23は、各人工事例について不確かさを算出し、不確かさの高い順に人工事例を取得していく。この際、人工事例選択部23は、既に取得済みの人工事例と同じ実事例とペアリングされた人工事例、即ち、既に取得済みの人工事例と同じ実事例を生成源とする人工事例は取得しないようにする。これにより、同一の実事例を生成源とする複数の人工事例が同時に選択されることが無くなる。こうして、人工事例選択部23は、一定数の人工事例を取得する。そして、出力部24は、選択された人工事例を訓練事例に追加する。
【0043】
図8は、方法2-3を模式的に説明する図である。図示のように、実事例Aと実事例Bがあり、実事例Aから3つの人工事例82~84が生成されたとする。人工事例84は実事例Aより実事例Bに近い。よって、方法2-2を適用した場合には、実事例Aに最も近い人工事例83と、実事例Bに最も近い人工事例84が選択されることになる。これに対し、方法2-3では、人工事例84は、実事例Aより実事例Bに近いが、実事例Aを生成源とするため、実事例Aとペアリングされる。よって、実事例Aを生成源とする人工事例82~84のうち、不確かさが最も高いものが選択されることになる。
【0044】
(2)予測が不確かな事例の選択方法
次に、予測が不確かな事例の選択方法について詳しく説明する。本実施形態では、予測が不確かな事例を選択するための指標として能動学習を利用する。能動学習(active learning)とは、現在の機械学習モデルではうまく予測できない事例を見つけ、オラクルにラベルを付与してもらう手法である。オラクルがラベルを付与した事例を追加して再学習することで、機械学習モデルの精度を改善することができる。なお、オラクルは人間でも機械学習モデルでもよい。
【0045】
本実施形態では、人工事例選択部23は、能動学習で用いられる基準で評価した場合に予測が不確かであると判定される人工事例を、予測が不確かな人工事例として選択する。言い換えると、人工事例選択部23は、能動学習の手法で評価した場合にオラクルに対する問い合わせの対象となる人工事例(以下、「問合せ事例」とも呼ぶ。)を、予測が不確かな人工事例として選択する。以下、具体的な能動学習の手法毎に説明する。なお、下記の3つ以外の能動学習の手法を利用してもよい。
【0046】
(Query by committee)
能動学習の手法として、Query by committeeを用いることができる。
図9は、Query by committeeの概略説明図である。Query by committeeでは、訓練事例から複数のモデルを生成する。なお、モデルの種類は異なっていてもよい。複数のモデルによりcommitteeを構成し、訓練事例に対する各モデルの予測結果を取得する。そして、committeeに属する複数のモデルによる予測結果が割れる事例を問合せ事例とする。
【0047】
例えば、Query by committeeの一手法であるVote entropyを用いた場合、vote entropy値を用いて問合せ事例を決定することができる。Vote entropyでは、複数の分類器による投票結果のエントロピーが最大の事例(即ち、最も票が割れる事例)を問合せ事例とする。具体的には、以下の式で与えられる事例x^を問合せ事例とする。なお、本明細書では、便宜上、文字「x」の上に「^」を付したものを「x^」と記述する。
【0048】
【0049】
式(2)の括弧内がvote entropy値である。よって、Vote entropyを用いる場合、人工事例選択部23は、vote entropy値が一定値以上の人工事例を、予測が不確かな人工事例とすればよい。
【0050】
(Uncertanity sampling)
能動学習の別の手法として、Uncertanity samplingを用いることができる。具体的に、Uncertanity samplingにおけるLeast confidentを、予測の不確かさを示す指標として用いることができる。この場合、以下の式に示すように、「確率最大のラベル」の確率が最小の事例x^を問合せ事例とする。
【0051】
【数3】
よって、Least confidentを用いる場合、人工事例選択部23は、式(3)における括弧内の値V1が一定値以下の事例x^を、予測が不確かな人工事例とすればよい。
【0052】
また、Uncertanity samplingにおけるMargin samplingを、予測の不確かさを示す指標として用いることができる。この場合、以下の式に示すように、「1番目に確率の高いラベル」の確率と、「2番目に確率の高いラベル」の確率との差が最小となる事例x^を問合せ事例とする。
【0053】
【数4】
よって、Margin samplingを用いる場合、人工事例選択部23は、式(4)における括弧内の値V2が一定値以下の事例x^を、予測が不確かな人工事例とすればよい。
【0054】
[人工事例生成部]
次に、人工事例生成部22について詳しく説明する。
(1)実事例の選択方法
まず、人工事例の生成源となる実事例の選択方法について説明する。人工事例生成部22は、基本的に何らかの方法で実事例を選択すれば良い。従って、例えば人工事例生成部22は、全ての実事例を用いて人工事例を生成してもよく、全ての実事例からランダムに選択した実事例を用いて人工事例を生成してもよい。
【0055】
但し、人工事例選択部23は、生成された人工事例のうち、予測が不確かな人工事例を訓練事例に追加すべき人工事例として選択するので、人工事例の生成源となる実事例は、予測が不確かな人工事例が生成されやすい実事例であることが望ましい。この観点から、実事例の選択にも前述の能動学習を用いることができる。即ち、人工事例生成部22は、複数の実事例から、能動学習の手法を用いて予測が不確かな実事例を選択し、選択した実事例を用いて複数の人工事例を生成する。
【0056】
図10は、実事例の選択に能動学習を用いる方法を模式的に示す。まず、ステップS31において、入力部21が複数の実事例を取得する。次に、ステップS32において、人工事例生成部22は、予測が不確かな実事例を能動学習で選択する。この際、人工事例生成部22が複数の実事例から予測が不確かな実事例を選択する方法は、前述の人工事例選択部23が複数の人工事例から予測が不確かな人工事例を選択する方法と基本的に同様である。即ち、人工事例生成部22は、前述のいずれかの能動学習の手法を利用して、予測が不確かな実事例を選択する。これにより、
図10に示すように、実事例のいくつかは、人工事例の生成源として選択されないことがある。
【0057】
次に、ステップS33において、人工事例生成部22は、選択された実事例から人工事例を生成する。生成された人工事例は、人工事例選択部23へ出力される。そして、ステップS34において、人工事例選択部23は、入力された人工事例から、予測が不確かな人工事例を選択する。なお、この場合、人工事例生成部22が実事例を選択する際と、人工事例選択部23が予測が不確かな人工事例を選択する際の2回にわたり、能動学習の手法が利用されることになる。
【0058】
(2)人工事例の生成方法
次に、人工事例生成部22による人工事例の生成方法について説明する。人工事例生成部22は、生成源となる実事例と、他の実事例とを合成して人工事例を生成する。1つの方法では、人工事例生成部22は、前述の式(1)を用いて人工事例を生成することができる。また、人工事例生成部22は、非特許文献2に示すMUNGEや、非特許文献3に示すSMOTEなどの人工事例生成手法を用いることもできる。
【0059】
[人工事例生成処理]
次に、人工事例生成装置100による人工事例生成処理について説明する。
図11は、人工事例生成処理のフローチャートである。この処理は、
図4に示すプロセッサ12が、予め用意されたプログラムを実行し、
図5に示す各要素として動作することにより実現される。
【0060】
まず、入力部21は、実事例を取得する(ステップS41)。次に、人工事例生成部22は、取得した実事例に基づいて、人工事例を生成する(ステップS42)。この際、人工事例生成部22は、人工事例の生成源の実事例として、前述のように、全ての実事例を用いてもよく、ランダムに選択した実事例を用いてもよく、能動学習の手法により選択した予測が不確かな実事例を用いてもよい。また、人工事例生成部22は、人工事例の生成方法として、式(1)を用いてもよく、MUNGE又はSMOTEの手法を用いてもよい。人工事例生成部22は、生成した人工事例を人工事例選択部23へ出力する。
【0061】
次に、人工事例選択部23は、入力された人工事例から、予測が不確かな人工事例を選択する(ステップS43)。この際、人工事例選択部23は、前述のように方法1、方法2-1、方法2-2、方法2-3のいずれかの方法により人工事例を選択する。人工事例選択部23は、選択した人工事例を出力部24へ出力する。次に、出力部24は、入力された人工事例、即ち、人工事例選択部23により選択された人工事例を、訓練事例として出力する(ステップS44)。
【0062】
次に、人工事例生成装置100は、終了条件が具備されたか否かを判定する(ステップS45)。例えば、人工事例生成装置100は、必要な所定数の人工事例が得られた場合に、終了条件が具備されたと判定する。終了条件が具備されていない場合(ステップS45:No)、処理はステップS41へ戻り、ステップS41~S45が繰り返される。一方、終了条件が具備された場合(ステップS45:Yes)、処理は終了する。
【0063】
[人工事例に対するラベルの付与]
上記の実施形態では、人工事例生成装置100は、ラベルの無い人工事例を出力しているが、その代わりに、ラベルを付与した人工事例を出力してもよい。例えば、出力部24は、人工事例選択部23から入力された人工事例にラベルを付与し、ラベル付き人工事例を出力してもよい。この場合、出力部24は、入力された人工事例に対して、生成源となった実事例と同一のラベルを付与してもよい。もしくは、出力部24は、入力された人工事例に対して、予め用意した機械学習モデルが付与したラベルを付与してもよい。なお、人工事例に対して人間がラベルを付与し、ラベル付き人工事例として出力してもよい。
【0064】
<第2実施形態>
図12は、第2実施形態の情報処理装置の機能構成を示すブロック図である。情報処理装置70は、入力手段71と、人工事例生成手段72と、人工事例選択手段73と、出力手段74と、を備える。
【0065】
図13は、第2実施形態の情報処理装置70による処理のフローチャートである。まず、入力手段71は、特徴量からなる実事例を取得する(ステップS71)。次に、人工事例生成手段72は、実事例から複数の人工事例を生成する(ステップS72)。次に、人工事例選択手段73は、生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する(ステップS73)。そして、出力手段74は、選択された人工事例を出力する(ステップS74)。
【0066】
第2実施形態の情報処理装置70によれば、機械学習モデルの予測性能の向上に寄与する人工事例を生成することが可能となる。
【0067】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0068】
(付記1)
特徴量からなる実事例を取得する入力手段と、
前記実事例から複数の人工事例を生成する人工事例生成手段と、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する人工事例選択手段と、
選択された人工事例を出力する出力手段と、
を備える情報処理装置。
【0069】
(付記2)
前記人工事例選択手段は、選択される人工事例が互いに異なるように前記複数の人工事例を選択する付記1に記載の情報処理装置。
【0070】
(付記3)
前記人工事例選択手段は、特徴量空間において近傍に存在する実事例が異なるように前記複数の人工事例を選択する付記1又は2に記載の情報処理装置。
【0071】
(付記4)
前記人工事例選択手段は、各人工事例の生成源となる実事例が異なるように前記複数の人工事例を選択する付記1又は2に記載の情報処理装置。
【0072】
(付記5)
前記人工事例生成手段は、入力された全ての実事例を用いて前記人工事例を生成する付記1乃至4のいずれか一項に記載の情報処理装置。
【0073】
(付記6)
前記人工事例生成手段は、入力された実事例からランダムに選択された複数の実事例を用いて前記人工事例を生成する付記1乃至4のいずれか一項に記載の情報処理装置。
【0074】
(付記7)
前記人工事例生成手段は、入力された複数の実事例の中から、機械学習モデルの予測が不確かとなる実事例を選択し、選択した実事例を用いて前記複数の人工事例を生成する付記1乃至4のいずれか一項に記載の情報処理装置。
【0075】
(付記8)
前記出力手段は、前記選択された人工事例にラベルを付与して出力する付記1乃至7のいずれか一項に記載の情報処理装置。
【0076】
(付記9)
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択し、
選択された人工事例を出力する情報処理方法。
【0077】
(付記10)
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択し、
選択された人工事例を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0078】
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0079】
11 インタフェース
12 プロセッサ
13 メモリ
14 記録媒体
15 データベース(DB)
21 入力部
22 人工事例生成部
23 人工事例選択部
24 出力部
100 人工事例生成装置