特許7670156 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7670156発明の名称：情報処理装置、情報処理方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-21

(45)【発行日】2025-04-30

(54)【発明の名称】発明の名称：情報処理装置、情報処理方法、及び、プログラム

(51)【国際特許分類】

G06F 18/214 20230101AFI20250422BHJP

【ＦＩ】

G06F18/214

【請求項の数】 7

(21)【出願番号】P 2023554203

(86)(22)【出願日】2021-10-22

(86)【国際出願番号】 JP2021039076

(87)【国際公開番号】W WO2023067792

(87)【国際公開日】2023-04-27

【審査請求日】2024-04-16

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】畠山優太

(72)【発明者】

【氏名】岡嶋穣

【審査官】大倉崚吾

(56)【参考文献】

【文献】特開２０２０－１６６３９７（ＪＰ，Ａ）

【文献】国際公開第２０２１／１００８１８（ＷＯ，Ａ１）

【文献】特開２０１９－０７４９４５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／００５６４１７（ＵＳ，Ａ１）

【文献】三沢博章ほか，「能動学習を活用したアノテーション効率化手法の開発」，電子情報通信学会２０１９年総合大会講演論文集情報・システム２，一般社団法人電子情報通信学会，2019年03月05日，p.122

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

特徴量からなる実事例を取得する入力手段と、
前記実事例から複数の人工事例を生成する人工事例生成手段と、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する人工事例選択手段と、
選択された人工事例を出力する出力手段と、
を備え、
前記人工事例選択手段は、特徴量空間において近傍に存在する実事例が異なるように人工事例を選択する情報処理装置。

【請求項2】

前記人工事例生成手段は、入力された全ての実事例を用いて前記人工事例を生成する請求項１に記載の情報処理装置。

【請求項3】

前記人工事例生成手段は、入力された実事例からランダムに選択された複数の実事例を用いて前記人工事例を生成する請求項１に記載の情報処理装置。

【請求項4】

前記人工事例生成手段は、入力された複数の実事例の中から、機械学習モデルの予測が不確かとなる実事例を選択し、選択した実事例を用いて前記複数の人工事例を生成する請求項１に記載の情報処理装置。

【請求項5】

前記出力手段は、前記選択された人工事例にラベルを付与して出力する請求項１乃至４のいずれか一項に記載の情報処理装置。

【請求項6】

コンピュータにより実行される情報処理方法であって、
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する情報処理方法。

【請求項7】

特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する処理をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、機械学習に用いる訓練事例の作成に関する。

【背景技術】

【0002】

機械学習に用いる訓練事例の数が十分でない場合、人工的に生成した事例（以下、「人工事例」と呼ぶ。）を訓練事例として用いることがある。例えば、非特許文献１は、決定境界に近い実事例に類似した人工事例を生成する手法を開示している。なお、非特許文献２、３は、人工事例の生成方法を開示している。

【先行技術文献】

【特許文献】

【0003】

【文献】Ertekin (2013). Adaptive oversampling for imbalanced data classification. In Information Sciences and Systems 2013 - Proceedings of the 28th International Symposium on Computer and Information Sciences (ISCIS), pp. 261-269.

【文献】Bucilua, C., Caruana, R. and Niculescu-Mizil, A.: Model Compression, Proc. ACM SIGKDD, pp. 535-541 (2006).

【文献】Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P. : SMOTE: Synthetic minority over-sampling technique, Journal of Artificial Intelligent Research, 16, 321-357 (2002).

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、上記の手法では、生成された人工事例が必ずしも機械学習モデルの予測性能の向上に寄与するとは限らない。

【0005】

本開示の１つの目的は、機械学習モデルの予測性能の向上に寄与する人工事例を生成することが可能な情報処理装置を提供することにある。

【課題を解決するための手段】

【0006】

本開示の一つの観点では、情報処理装置は、
特徴量からなる実事例を取得する入力手段と、
前記実事例から複数の人工事例を生成する人工事例生成手段と、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する人工事例選択手段と、
選択された人工事例を出力する出力手段と、
を備え、
前記人工事例選択手段は、特徴量空間において近傍に存在する実事例が異なるように複数の人工事例を選択する。

【0007】

本開示の他の観点では、コンピュータにより実行される情報処理方法は、
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する。

【0008】

本開示のさらに他の観点では、プログラムは、
特徴量からなる実事例を取得し、
前記実事例から複数の人工事例を生成し、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を、特徴量空間において近傍に存在する実事例が異なるように選択し、
選択された人工事例を出力する処理をコンピュータに実行させる。

【発明の効果】

【0009】

本開示によれば、機械学習モデルの予測性能の向上に寄与する人工事例を生成することが可能となる。

【図面の簡単な説明】

【0010】

【図1】人工事例を生成する基本手法を模式的に説明する図である。

【図2】人工事例を生成する実施形態の手法を模式的に説明する図である。

【図3】基本手法と比較した本実施形態の効果の説明図である。

【図4】第１実施形態に係る人工事例生成装置のハードウェア構成を示すブロック図である。

【図5】第１実施形態の人工事例生成装置の機能構成を示すブロック図である。

【図6】人工事例の選択方法の例を模式的に説明する図である。

【図7】人工事例の選択方法の他の例を模式的に説明する図である。

【図8】人工事例の選択方法の他の例を模式的に説明する図である。

【図9】能動学習の一例であるQuery by committeeの概略説明図である。

【図10】実事例の選択に能動学習を用いる方法を模式的に示す。

【図11】人工事例生成処理のフローチャートである。

【図12】第２実施形態の情報処理装置の機能構成を示すブロック図である。

【図13】第２実施形態の情報処理装置による処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本開示の好適な実施形態について説明する。
＜原理説明＞
以下、実施形態に係る手法の原理について説明する。
（基本手法）
まず、機械学習に用いる訓練事例の作成方法の一例を基本手法として説明する。機械学習においては、実際に観測された実事例だけでなく、実事例に似せて作った人工事例を訓練事例に追加することで、得られる機械学習モデルの精度が向上することがある。しかし、ランダムに人工事例を追加しても、機械学習モデルの精度を効率的に向上させることは難しい。そこで、基本手法では、機械学習モデルの予測が不確かな実事例、即ち、予測が難しい実事例を選択し、その実事例に類似する複数の人工事例を生成して訓練事例に加える。この作業を繰り返すことにより、訓練事例を増加させ、機械学習モデルの予測精度を向上させる。

【0012】

図１（Ａ）は、基本手法を模式的に説明する図である。いま、機械学習モデルとしてサポートベクターマシン（ＳＶＭ）を用い、２クラス分類を行うと仮定する。図１（Ａ）は、事例を特徴量空間上に配置した図である。図示のように、各実事例は、決定境界を用いてクラスＣ１とＣ２に分類される。ここで、特徴量空間上で決定境界に近い実事例は、予測が不確かな事例と考えることできる。

【0013】

基本手法は、まず、決定空間に近い実事例を取得し、取得した実事例に類似した人工事例を所定数（ｖ個）生成する。図１（Ａ）の例では、予測が不確かな実事例として、決定境界に近い実事例８０が取得され、実事例８０に類似した人工事例８０ａ～８０ｃが生成されている。人工事例は、予測が不確かな実事例と、それに近い他の実事例を合成することにより生成される。例えば、人工事例は、以下の式を用いて生成することができる。

【0014】

【数1】

【0015】

次に、基本手法は、生成されたｖ個の人工事例を訓練事例に加えてＳＶＭを再構築する。そして、基本手法は、再構築されたＳＶＭに基づいて予測が不確かな実事例を取得し、それに類似する人工事例を生成する。基本手法は、この作業を一定回数繰り返した後に、生成した人工事例を出力する。

【0016】

（基本手法の課題）
しかし、上記の基本手法で得られた人工事例が、必ずしも機械学習モデルの予測精度を向上させるとは限らない。これは、基本手法が主として以下の２つの課題を有するためである。

【0017】

第１の課題は、不確かな実事例から生成された人工事例が、同様に不確かであるとは限らないことである。図１（Ｂ）は、基本手法を用いて人工事例を生成した例を示す。図１（Ｂ）の例では、決定境界に近い実事例８０を予測が不確かな実事例として採用し、この実事例８０に類似する５つの人工事例が生成されている。このうち、人工事例８０ｄは、決定境界に近く、実事例８０と同様に不確かな事例に該当すると考えられる。しかし、人工事例８０ｅなどは、特徴量空間上で決定境界から離れており、必ずしも不確かな事例とは言えないものとなっている。このような人工事例は、機械学習モデルの予測性能の向上に寄与しない。

【0018】

第２の課題は、同じ実事例から作成した複数の人工事例を訓練事例として用いると冗長になることである。基本手法によって同じ実事例から生成したｖ個の人工事例は互いに類似するので、人工事例の個数ｖが大きいほど、同じような人工事例ばかりが訓練事例に追加されることになり、予測性能の向上への寄与が少なくなる。また、似たような人工事例ばかりが追加されることにより、訓練事例の分布が元の実事例の分布から乖離し、予測精度に悪影響を与える可能性も考えられる。この点、人工事例の個数ｖを小さくすれば第２の課題を抑制することができるが、そうすると前述の第１の課題が大きくなってしまう。即ち、人工事例の個数ｖが大きければ、偶然良い人工事例が追加される可能性が高くなるが、個数ｖが小さいと、性能向上に寄与しない人工事例だけが追加される可能性がある。

【0019】

（実施形態の手法）
上記の課題に鑑み、実施形態の手法は以下のプロセスを実行する。
（プロセス１）何らかの方法で実事例を選択して複数の人工事例を生成する。
（プロセス２）生成された人工事例の中から、予測が不確かな人工事例を選択し、訓練事例として追加する。

【0020】

図２は、実施形態の手法を模式的に説明する図である。図２は、図１（Ａ）、（Ｂ）と同様に、特徴量空間上に事例を配置した図である。図２の例において、実施形態の手法は、実事例８０を選択し、実事例８０に基づいて５つの人工事例を生成する。次に、実施形態の手法は、生成された５つの人工事例の中から、決定境界から遠い人工事例（矩形８１内の人工事例）を除外し、決定境界に近い人工事例８０ｄのみを採用する。即ち、矩形８１内の人工事例は、必ずしも予測が不確かとは言えないために除外され、決定境界に近い人工事例８０ｄは予測が不確かな事例として採用される。

【0021】

この手法によれば、予測があまり不確かでない人工事例は訓練事例に追加されなくなり、実際に予測が不確かな人工事例だけが訓練事例に追加されるようになる。これにより、上記の課題１が解決される。また、予測があまり不確かでない人工事例を除外することにより、同じような人工事例ばかりが訓練事例に追加されることが無くなり、上記の課題２が解決される。なお、一般に人工事例は事例の合成により行われるため、人工事例の生成コストは低い。これに対し、訓練事例が増加することによる機械学習の計算コストは高い。よって、実施形態の手法のように、いったん大量に人工事例を作成し、良い事例だけを選択して訓練事例に追加する方が、機械学習の計算コストが減り、効率的となる。

【0022】

（実施形態の効果）
図３は、基本手法と比較した本実施形態の効果の説明図である。図３（Ａ）は、基本手法により生成された事例を示し、図３（Ｂ）は、実施形態の手法により生成された事例を示す。基本手法では、予測が不確かな実事例を選択した後に、その事例から人工事例を複数生成することを繰り返す。このため、基本手法では、図３（Ａ）に示すように、特徴空間上の同じような場所に人工事例が過剰に生成される傾向がある。

【0023】

これに対し、実施形態の手法は、生成した人工事例から予測が不確かな人工事例を選択するので、図３（Ｂ）に示すように、特徴量空間上の同じような場所に事例が過剰に生成されることなく、機械学習モデルの予測が不確かな場所に事例を追加することができる。よって、少ない実事例から、モデルの予測精度を向上させる人工事例を生成することが可能となる。また、その結果、元の実事例の分布を保ち、かつ、モデルの予測精度を効率的に向上させる人工事例の生成も可能となる。

【0024】

＜第１実施形態＞
次に、第１実施形態に係る人工事例生成装置１００について説明する。人工事例生成装置１００は、実事例に基づいて、訓練事例に追加すべき人工事例を生成する。

【0025】

［ハードウェア構成］
図４は、第１実施形態に係る人工事例生成装置のハードウェア構成を示すブロック図である。図示のように、人工事例生成装置１００は、インタフェース（Ｉ／Ｆ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５と、を備える。

【0026】

インタフェース１１は、外部装置との間でデータの入出力を行う。具体的に、インタフェース１１は、外部から実事例を取得する。

【0027】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより人工事例生成装置１００の全体を制御する。なお、プロセッサ１２は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）であってもよい。プロセッサ１２は、後述する人工事例生成処理を実行する。

【0028】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0029】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、人工事例生成装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。人工事例生成装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。ＤＢ１５は、インタフェース１１を通じて入力された実事例や、実事例に基づいて生成された人工事例を記憶する。

【0030】

［機能構成］
図５は、第１実施形態の人工事例生成装置１００の機能構成を示すブロック図である。人工事例生成装置１００は、入力部２１と、人工事例生成部２２と、人工事例選択部２３と、出力部２４と、を備える。

【0031】

入力部２１は、複数の実事例を取得し、人工事例生成部２２へ出力する。人工事例生成部２２は、入力された複数の実事例から、何らかの方法で実事例を選択する。実事例を選択する方法については後述する。そして、人工事例生成部２２は、選択した実事例を用いて複数の人工事例を生成し、人工事例選択部２３へ出力する。なお、人工事例生成部２２が実行する処理は、前述のプロセス１に相当する。

【0032】

人工事例選択部２３は、生成された複数の人工事例から、予測が不確かな人工事例を選択し、出力部２４へ出力する。予測が不確かな人工事例の選択方法については後に詳しく説明する。なお、人工事例選択部２３が実行する処理は、前述のプロセス２に対応する。そして、出力部２４は、入力された人工事例を、機械学習モデルの訓練に使用する訓練事例に追加する。

【0033】

［人工事例選択部］
次に、人工事例選択部２３について詳しく説明する。人工事例選択部２３は、人工事例生成部２２が生成した複数の人工事例から、訓練事例として追加すべき人工事例を選択する。

【0034】

（１）人工事例の選択方法
まず、人工事例選択部２３による人工事例の選択方法について説明する。
（方法１）
方法１では、人工事例選択部２３は、図２を参照して説明したように、「予測が不確かな人工事例」を選択する。例えば、人工事例選択部２３は、複数の人工事例のうち、決定境界に最も近い人工事例、又は、決定境界から所定距離以内の人工事例を選択する。

【0035】

（方法２）
方法２では、人工事例選択部２３は、単に予測が不確かな人工事例を選択するのではなく、「予測が不確かであり、かつ、互いに類似しないような複数の人工事例」を選択する。これにより、類似した冗長な人工事例を選ばずに、互いに類似していない人工事例を追加できるため、学習の効率が向上し、前述の課題２がさらにうまく解決される。具体的に、方法２としては、以下の３つのいずれかの方法が用いられる。

【0036】

（方法２－１）
方法２－１では、人工事例選択部２３は、人工事例同士の類似度を計算し、互いに類似したものにならないように人工事例を選択する。図６は、方法２－１を模式的に説明する図である。まず、ステップＳ１１で、入力部２１は複数の実事例を取得する。次に、ステップＳ１２で、人工事例生成部２２は各実事例から複数の人工事例を生成する。次に、ステップＳ１３で、人工事例選択部２３は、生成された複数の人工事例について予測の不確かさを算出し、予測が不確かな人工事例、即ち、不確かさの高い人工事例を選択する。

【0037】

次に、ステップＳ１４で、人工事例選択部２３は、予測が不確かな複数の人工事例から、互いに類似したものにならないように、不確かさの高い人工事例を選択する。具体的には、人工事例選択部２３は、人工事例同士の類似度を計算し、既に選んだ人工事例と類似度が高い人工事例を選ばないようにする。こうして、互いに類似していない人工事例が選択されていく。そして、ステップＳ１５で、出力部２４は、選択された人工事例を訓練事例に追加する。

【0038】

（方法２－２）
方法２－２では、人工事例選択部２３は、取得する人工事例に一番近い実事例がそれぞれ一致しないように人工事例を選択する。図７は、方法２－２を模式的に説明する図である。まず、ステップＳ２１で、入力部２１は複数の実事例を取得する。次に、ステップＳ２２で、人工事例生成部２２は各実事例から複数の人工事例を生成する。次に、ステップＳ２３で、人工事例選択部２３は、生成された複数の人工事例について予測の不確かさを算出し、予測が不確かな人工事例、即ち、不確かさの高い人工事例を選択する。

【0039】

次に、ステップＳ２４で、人工事例選択部２３は、予測が不確かな複数の人工事例から、距離が一番近い実事例が一致しないように、不確かさの高い人工事例を選択する。具体的には、人工事例選択部２３は、不確かさの高い人工事例の各々について、特徴量空間上での距離が最も近い実事例（以下、「最近傍実事例」と呼ぶ。）を決定し、最近傍実事例がそれぞれ異なるように複数の人工事例を選択する。例えば、人工事例選択部２３は、同一の実事例を最近傍実事例として持つ複数の人工事例から、１つずつの人工事例を選択する。こうして、互いに類似していない人工事例が選択される。そして、ステップＳ２５で、出力部２４は、選択された人工事例を訓練事例に追加する。

【0040】

この場合、人工事例選択部２３は、人工事例と実事例の距離として、ユークリッド距離を用いてもよく、ユークリッド距離以外の距離を用いてもよく、コサイン類似度などの類似度を用いてもよい。

【0041】

また、人工事例選択部２３は、上記のように最近傍実事例が一致しないように人工事例を選択する代わりに、距離が近い方から所定数（Ｋ個）の近傍実事例のうち、所定数（Ｍ個。但し、Ｍ≦Ｋ）が一致しないように人工事例を選択してもよい。

【0042】

（方法２－３）
方法２－３では、人工事例選択部２３は、生成源となる実事例が一致しないように人工事例を選択する。具体的には、人工事例生成部２２が実事例から複数の人工事例を生成すると、人工事例選択部２３は、各人工事例に対して、生成源となる実事例をペアリングする。次に、人工事例選択部２３は、各人工事例について不確かさを算出し、不確かさの高い順に人工事例を取得していく。この際、人工事例選択部２３は、既に取得済みの人工事例と同じ実事例とペアリングされた人工事例、即ち、既に取得済みの人工事例と同じ実事例を生成源とする人工事例は取得しないようにする。これにより、同一の実事例を生成源とする複数の人工事例が同時に選択されることが無くなる。こうして、人工事例選択部２３は、一定数の人工事例を取得する。そして、出力部２４は、選択された人工事例を訓練事例に追加する。

【0043】

図８は、方法２－３を模式的に説明する図である。図示のように、実事例Ａと実事例Ｂがあり、実事例Ａから３つの人工事例８２～８４が生成されたとする。人工事例８４は実事例Ａより実事例Ｂに近い。よって、方法２－２を適用した場合には、実事例Ａに最も近い人工事例８３と、実事例Ｂに最も近い人工事例８４が選択されることになる。これに対し、方法２－３では、人工事例８４は、実事例Ａより実事例Ｂに近いが、実事例Ａを生成源とするため、実事例Ａとペアリングされる。よって、実事例Ａを生成源とする人工事例８２～８４のうち、不確かさが最も高いものが選択されることになる。

【0044】

（２）予測が不確かな事例の選択方法
次に、予測が不確かな事例の選択方法について詳しく説明する。本実施形態では、予測が不確かな事例を選択するための指標として能動学習を利用する。能動学習（active learning）とは、現在の機械学習モデルではうまく予測できない事例を見つけ、オラクルにラベルを付与してもらう手法である。オラクルがラベルを付与した事例を追加して再学習することで、機械学習モデルの精度を改善することができる。なお、オラクルは人間でも機械学習モデルでもよい。

【0045】

本実施形態では、人工事例選択部２３は、能動学習で用いられる基準で評価した場合に予測が不確かであると判定される人工事例を、予測が不確かな人工事例として選択する。言い換えると、人工事例選択部２３は、能動学習の手法で評価した場合にオラクルに対する問い合わせの対象となる人工事例（以下、「問合せ事例」とも呼ぶ。）を、予測が不確かな人工事例として選択する。以下、具体的な能動学習の手法毎に説明する。なお、下記の３つ以外の能動学習の手法を利用してもよい。

【0046】

（Query by committee）
能動学習の手法として、Query by committeeを用いることができる。図９は、Query by committeeの概略説明図である。Query by committeeでは、訓練事例から複数のモデルを生成する。なお、モデルの種類は異なっていてもよい。複数のモデルによりcommitteeを構成し、訓練事例に対する各モデルの予測結果を取得する。そして、committeeに属する複数のモデルによる予測結果が割れる事例を問合せ事例とする。

【0047】

例えば、Query by committeeの一手法であるVote entropyを用いた場合、vote entropy値を用いて問合せ事例を決定することができる。Vote entropyでは、複数の分類器による投票結果のエントロピーが最大の事例（即ち、最も票が割れる事例）を問合せ事例とする。具体的には、以下の式で与えられる事例ｘ＾を問合せ事例とする。なお、本明細書では、便宜上、文字「ｘ」の上に「＾」を付したものを「ｘ＾」と記述する。

【0048】

【数2】

【0049】

式（２）の括弧内がvote entropy値である。よって、Vote entropyを用いる場合、人工事例選択部２３は、vote entropy値が一定値以上の人工事例を、予測が不確かな人工事例とすればよい。

【0050】

（Uncertanity sampling）
能動学習の別の手法として、Uncertanity samplingを用いることができる。具体的に、Uncertanity samplingにおけるLeast confidentを、予測の不確かさを示す指標として用いることができる。この場合、以下の式に示すように、「確率最大のラベル」の確率が最小の事例ｘ＾を問合せ事例とする。

【0051】

【数3】

よって、Least confidentを用いる場合、人工事例選択部２３は、式（３）における括弧内の値Ｖ１が一定値以下の事例ｘ＾を、予測が不確かな人工事例とすればよい。

【0052】

また、Uncertanity samplingにおけるMargin samplingを、予測の不確かさを示す指標として用いることができる。この場合、以下の式に示すように、「１番目に確率の高いラベル」の確率と、「２番目に確率の高いラベル」の確率との差が最小となる事例ｘ＾を問合せ事例とする。

【0053】

【数4】

よって、Margin samplingを用いる場合、人工事例選択部２３は、式（４）における括弧内の値Ｖ２が一定値以下の事例ｘ＾を、予測が不確かな人工事例とすればよい。

【0054】

［人工事例生成部］
次に、人工事例生成部２２について詳しく説明する。
（１）実事例の選択方法
まず、人工事例の生成源となる実事例の選択方法について説明する。人工事例生成部２２は、基本的に何らかの方法で実事例を選択すれば良い。従って、例えば人工事例生成部２２は、全ての実事例を用いて人工事例を生成してもよく、全ての実事例からランダムに選択した実事例を用いて人工事例を生成してもよい。

【0055】

但し、人工事例選択部２３は、生成された人工事例のうち、予測が不確かな人工事例を訓練事例に追加すべき人工事例として選択するので、人工事例の生成源となる実事例は、予測が不確かな人工事例が生成されやすい実事例であることが望ましい。この観点から、実事例の選択にも前述の能動学習を用いることができる。即ち、人工事例生成部２２は、複数の実事例から、能動学習の手法を用いて予測が不確かな実事例を選択し、選択した実事例を用いて複数の人工事例を生成する。

【0056】

図１０は、実事例の選択に能動学習を用いる方法を模式的に示す。まず、ステップＳ３１において、入力部２１が複数の実事例を取得する。次に、ステップＳ３２において、人工事例生成部２２は、予測が不確かな実事例を能動学習で選択する。この際、人工事例生成部２２が複数の実事例から予測が不確かな実事例を選択する方法は、前述の人工事例選択部２３が複数の人工事例から予測が不確かな人工事例を選択する方法と基本的に同様である。即ち、人工事例生成部２２は、前述のいずれかの能動学習の手法を利用して、予測が不確かな実事例を選択する。これにより、図１０に示すように、実事例のいくつかは、人工事例の生成源として選択されないことがある。

【0057】

次に、ステップＳ３３において、人工事例生成部２２は、選択された実事例から人工事例を生成する。生成された人工事例は、人工事例選択部２３へ出力される。そして、ステップＳ３４において、人工事例選択部２３は、入力された人工事例から、予測が不確かな人工事例を選択する。なお、この場合、人工事例生成部２２が実事例を選択する際と、人工事例選択部２３が予測が不確かな人工事例を選択する際の２回にわたり、能動学習の手法が利用されることになる。

【0058】

（２）人工事例の生成方法
次に、人工事例生成部２２による人工事例の生成方法について説明する。人工事例生成部２２は、生成源となる実事例と、他の実事例とを合成して人工事例を生成する。１つの方法では、人工事例生成部２２は、前述の式（１）を用いて人工事例を生成することができる。また、人工事例生成部２２は、非特許文献２に示すＭＵＮＧＥや、非特許文献３に示すＳＭＯＴＥなどの人工事例生成手法を用いることもできる。

【0059】

［人工事例生成処理］
次に、人工事例生成装置１００による人工事例生成処理について説明する。図１１は、人工事例生成処理のフローチャートである。この処理は、図４に示すプロセッサ１２が、予め用意されたプログラムを実行し、図５に示す各要素として動作することにより実現される。

【0060】

まず、入力部２１は、実事例を取得する（ステップＳ４１）。次に、人工事例生成部２２は、取得した実事例に基づいて、人工事例を生成する（ステップＳ４２）。この際、人工事例生成部２２は、人工事例の生成源の実事例として、前述のように、全ての実事例を用いてもよく、ランダムに選択した実事例を用いてもよく、能動学習の手法により選択した予測が不確かな実事例を用いてもよい。また、人工事例生成部２２は、人工事例の生成方法として、式（１）を用いてもよく、ＭＵＮＧＥ又はＳＭＯＴＥの手法を用いてもよい。人工事例生成部２２は、生成した人工事例を人工事例選択部２３へ出力する。

【0061】

次に、人工事例選択部２３は、入力された人工事例から、予測が不確かな人工事例を選択する（ステップＳ４３）。この際、人工事例選択部２３は、前述のように方法１、方法２－１、方法２－２、方法２－３のいずれかの方法により人工事例を選択する。人工事例選択部２３は、選択した人工事例を出力部２４へ出力する。次に、出力部２４は、入力された人工事例、即ち、人工事例選択部２３により選択された人工事例を、訓練事例として出力する（ステップＳ４４）。

【0062】

次に、人工事例生成装置１００は、終了条件が具備されたか否かを判定する（ステップＳ４５）。例えば、人工事例生成装置１００は、必要な所定数の人工事例が得られた場合に、終了条件が具備されたと判定する。終了条件が具備されていない場合（ステップＳ４５：Ｎｏ）、処理はステップＳ４１へ戻り、ステップＳ４１～Ｓ４５が繰り返される。一方、終了条件が具備された場合（ステップＳ４５：Ｙｅｓ）、処理は終了する。

【0063】

［人工事例に対するラベルの付与］
上記の実施形態では、人工事例生成装置１００は、ラベルの無い人工事例を出力しているが、その代わりに、ラベルを付与した人工事例を出力してもよい。例えば、出力部２４は、人工事例選択部２３から入力された人工事例にラベルを付与し、ラベル付き人工事例を出力してもよい。この場合、出力部２４は、入力された人工事例に対して、生成源となった実事例と同一のラベルを付与してもよい。もしくは、出力部２４は、入力された人工事例に対して、予め用意した機械学習モデルが付与したラベルを付与してもよい。なお、人工事例に対して人間がラベルを付与し、ラベル付き人工事例として出力してもよい。

【0064】

＜第２実施形態＞
図１２は、第２実施形態の情報処理装置の機能構成を示すブロック図である。情報処理装置７０は、入力手段７１と、人工事例生成手段７２と、人工事例選択手段７３と、出力手段７４と、を備える。

【0065】

図１３は、第２実施形態の情報処理装置７０による処理のフローチャートである。まず、入力手段７１は、特徴量からなる実事例を取得する（ステップＳ７１）。次に、人工事例生成手段７２は、実事例から複数の人工事例を生成する（ステップＳ７２）。次に、人工事例選択手段７３は、生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する（ステップＳ７３）。そして、出力手段７４は、選択された人工事例を出力する（ステップＳ７４）。

【0066】

第２実施形態の情報処理装置７０によれば、機械学習モデルの予測性能の向上に寄与する人工事例を生成することが可能となる。

【0067】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0068】

（付記１）
特徴量からなる実事例を取得する入力手段と、
前記実事例から複数の人工事例を生成する人工事例生成手段と、
生成された複数の人工事例から、機械学習モデルの予測が不確かとなる人工事例を選択する人工事例選択手段と、
選択された人工事例を出力する出力手段と、
を備える情報処理装置。

【0069】

（付記２）
前記人工事例選択手段は、選択される人工事例が互いに異なるように前記複数の人工事例を選択する付記１に記載の情報処理装置。

【0070】

（付記３）
前記人工事例選択手段は、特徴量空間において近傍に存在する実事例が異なるように前記複数の人工事例を選択する付記１又は２に記載の情報処理装置。

【0071】

（付記４）
前記人工事例選択手段は、各人工事例の生成源となる実事例が異なるように前記複数の人工事例を選択する付記１又は２に記載の情報処理装置。