特開2021-149838 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人　関西大学の特許一覧

特開2021-149838学習装置およびその学習方法、制御プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2021-149838(P2021-149838A)

(43)【公開日】2021年9月27日

(54)【発明の名称】学習装置およびその学習方法、制御プログラム

(51)【国際特許分類】

G06N 20/20 20190101AFI20210830BHJP

G06N 20/10 20190101ALI20210830BHJP

【ＦＩ】

G06N20/20

G06N20/10

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

【全頁数】18

(21)【出願番号】特願2020-51496(P2020-51496)

(22)【出願日】2020年3月23日

(71)【出願人】

【識別番号】399030060

【氏名又は名称】学校法人関西大学

(74)【代理人】

【識別番号】110000338

【氏名又は名称】特許業務法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】林勲

(72)【発明者】

【氏名】入江穂乃香

(57)【要約】

【課題】学習装置における予測の精度を向上させる。
【解決手段】機械学習を行う学習装置（１０）は、学習用データのセットの少なくとも一部を用いて学習する複数の学習器（２２）と、複数の学習器（２２）における或る学習器によって誤って推定された誤推定データのセットと、或る学習器によって正しく推定された正推定データのセットの少なくとも一部とに基づいて、仮想データのセットを生成する仮想データ生成部（２４）とを備える。複数の学習器（２２）における別の学習器は、仮想データ生成部（２４）が生成した仮想データのセットと、学習用データのセットの少なくとも一部とを用いて学習する。
【選択図】図１

【特許請求の範囲】

【請求項1】

機械学習を行う学習装置であって、
学習用データのセットの少なくとも一部を用いて学習する複数の学習部と、
該複数の学習部における或る学習部によって誤って推定された誤推定データのセットと、前記或る学習部によって正しく推定された正推定データのセットの少なくとも一部とに基づいて、仮想データのセットを生成する生成部とを備え、
前記複数の学習部における別の学習部は、前記生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習することを特徴とする学習装置。

【請求項2】

前記生成部は、前記誤推定データと、前記正推定データのセットのうち、該誤推定データとの多次元での座標上の距離が近い１または複数の前記正推定データとに基づいて、前記仮想データを生成することを特徴とする請求項１に記載の学習装置。

【請求項3】

前記複数の学習部は、前記学習用データのセットを複数のクラスに分類して、該複数のクラスの境界を推定するものであることを特徴とする請求項１に記載の学習装置。

【請求項4】

前記生成部は、前記誤推定データと、該誤推定データとは異なるクラスの前記正推定データであって、前記正推定データのセットのうち、前記誤推定データに多次元での座標上の距離が近い少なくとも２つの前記正推定データとに基づいて、前記仮想データを生成することを特徴とする請求項３に記載の学習装置。

【請求項5】

前記生成部は、前記誤推定データと、該誤推定データと同じクラスの前記正推定データであって、前記正推定データのセットのうち、前記誤推定データに多次元での座標上の距離が近い少なくとも２つの前記正推定データとに基づいて、前記仮想データを生成することを特徴とする請求項３に記載の学習装置。

【請求項6】

前記生成部は、前記仮想データの座標と前記少なくとも２つの前記正推定データの各座標との距離が、前記誤推定データの座標と前記少なくとも２つの前記正推定データの各座標との距離よりも短くなるように、前記仮想データを生成することを特徴とする請求項４または５に記載の学習装置。

【請求項7】

前記生成部は、前記仮想データの座標と前記少なくとも２つの前記正推定データの各座標との距離が、前記誤推定データの座標と前記少なくとも２つの前記正推定データの各座標との距離よりも長くなるように、前記仮想データを生成することを特徴とする請求項４または５に記載の学習装置。

【請求項8】

前記生成部は、
前記誤推定データと、該誤推定データと同じクラスである２つの前記正推定データとに基づき、前記仮想データの多次元での座標と２つの前記正推定データの多次元での各座標との第１距離が、前記誤推定データの多次元での座標と２つの前記正推定データの多次元での各座標との第２距離よりも長くなるように、前記仮想データを生成する第１生成部と、
前記誤推定データと、該誤推定データと異なるクラスである２つの前記正推定データとに基づき、第１距離が第２距離よりも長くなるように、前記仮想データを生成する第２生成部と、
前記誤推定データと、該誤推定データと異なるクラスである２つの前記正推定データとに基づいて、第１距離が第２距離よりも短くなるように、前記仮想データを生成する第３生成部とを備えており、
前記複数の学習部は、
学習用データのセットを用いて学習する第１学習部と、
第１学習部が推定した推定データを用いて第１生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習する第２学習部と、
第２学習部が推定した推定データを用いて第２生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習する第３学習部と、
第３学習部が推定した推定データを用いて第３生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習する第４学習部とを備えることを特徴とする請求項３に記載の学習装置。

【請求項9】

評価用データのそれぞれについて、各学習部によって推定された推定データのセットのうち、最多の推定データを予測したデータとして最終決定する最終決定部をさらに備えることを特徴とする請求項１から８までの何れか１項に記載の学習装置。

【請求項10】

請求項１から９までの何れか１項に記載の学習装置としてコンピュータを機能させるための制御プログラムであって、前記学習部および前記生成部としてコンピュータを機能させるための制御プログラム。

【請求項11】

機械学習を行う学習装置であって、学習用データのセットの少なくとも一部を用いて学習する複数の学習部を備える学習装置の学習方法であって、
前記複数の学習部における或る学習部によって誤って推定された誤推定データのセットと、前記或る学習部によって正しく推定された正推定データのセットの少なくとも一部とに基づいて、仮想データのセットを生成する生成ステップと、
前記生成ステップにて生成された仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて、前記複数の学習部における別の学習部に学習させる学習ステップとを含むことを特徴とする学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習を行う学習装置およびその学習方法、制御プログラムに関する。

【背景技術】

【0002】

機械学習における種々の学習方法の一例として、クラスタリングが挙げられる。該クラスタリングは、入力されたデータのセットを各クラスに分類して、該クラスの境界を推定するものである。

【0003】

また、近時では、複数のモデル（学習器）を統合的に組み合わせることにより、全体の推定精度を向上させるアンサンブル学習が注目されている。アンサンブル学習の一例として、非特許文献１・２には、ｐｄｉ（Possibility Data Interpolation）ブースティングが開示されている。該ｐｄｉブースティングでは、以下のステップ１〜４が実行される。

【0004】

ステップ１：学習用データのセットを用いて第１学習器が学習し、上記学習用データのそれぞれについて、第ｉ学習器によって推定されたクラスと実際のクラスとの正誤を識別する。

【0005】

ステップ２：第１学習器によって誤識別された学習用データのセットに基づき、確率密度関数を用いて仮想データのセットを生成する。次に、上記学習用データのセットと上記仮想データのセットとを用いて第２学習器が学習し、上記学習用データのそれぞれについて、第２学習器によって推定されたクラスと実際のクラスとの正誤を識別する。

【0006】

ステップ３：以下、他の学習器についても上記ステップ２を繰り返す。この繰り返しは、上記ステップ２における正の識別率が閾値以上となるか、或いは、所定の繰返し回数に達するまで続行される。

【0007】

ステップ４：最後に、学習された複数の学習器のそれぞれに対し、上記学習用データとは異なる評価用データのセットを入力する。そして、上記複数の学習器にて推定されたクラスのうち、最多のクラスを、上記ｐｄｉブースティングによって予測されたクラスとして最終的に決定する。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０１９−１５９８３６号公報

【非特許文献】

【0009】

【非特許文献1】林、他１名、「脳コンピュータインタフェースのためのpdi-Boostingの提案」、第２６回ファジィシステムシンポジウム講演論文集、日本知能情報ファジィ学会、２０１０年９月、ｐｐ．２８８−２９１

【非特許文献2】林、他１名、「ファジィデータ補間によるブースティングアルゴリズムの提案と脳コンピュータインタフェースへの応用」、知能と情報、日本知能情報ファジィ学会、２０１６年、第２８巻、第１号、ｐｐ．５０１−５１０

【非特許文献3】入江、他１名、「正誤バーチャルデータの発生によるpdi-Baggingの特性評価」、第２９回インテリジェント・システム・シンポジウム講演論文集，日本知能情報ファジィ学会、２０１９年９月、Ｎｏ．Ａ３―３

【発明の概要】

【発明が解決しようとする課題】

【0010】

上記機械学習のさらなる実用化のため、上記予測の精度をさらに向上させることが望まれている。

【0011】

本発明の一態様は、上記予測の精度を向上できる学習装置などを提供することを目的とする。

【課題を解決するための手段】

【0012】

上記の課題を解決するために、本発明の一態様に係る学習装置は、機械学習を行う学習装置であって、学習用データのセットの少なくとも一部を用いて学習する複数の学習部と、該複数の学習部における或る学習部によって誤って推定された誤推定データのセットと、前記或る学習部によって正しく推定された正推定データのセットの少なくとも一部とに基づいて、仮想データのセットを生成する生成部とを備え、前記複数の学習部における別の学習部は、前記生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習することを特徴としている。

【0013】

上記の構成によると、或る学習部による誤推定データのセットと、前記或る学習部による正推定データのセットの少なくとも一部とに基づいて、仮想データのセットが生成される。そして、生成された仮想データのセットと、学習用データのセットの少なくとも一部とを利用して、別の学習部が学習する。これにより、誤って推定されたデータのセットのみに基づいて仮想データを生成する場合に比べて、前記別の学習部による推定の精度を向上することができる。その結果、学習装置の予測の精度を向上することができる。

【0014】

また、本態様に係る学習装置では、前記生成部は、前記誤推定データと、前記正推定データのセットのうち、該誤推定データとの多次元での座標上の距離が近い１または複数の前記正推定データとに基づいて、前記仮想データを生成することが好ましい。この場合、前記誤推定データと、該誤推定データに前記座標上の距離が遠い１または複数の前記正推定データとに基づいて、前記仮想データを生成する場合に比べて、前記別の学習部による推定の精度をさらに向上することができる。その結果、学習装置の予測の精度をさらに向上することができる。

【0015】

また、本態様に係る学習装置では、前記複数の学習部は、前記学習用データのセットを複数のクラスに分類して、該複数のクラスの境界を推定するものであってもよい。

【0016】

また、本態様に係る学習装置では、前記生成部は、前記誤推定データと、該誤推定データとは異なるクラスの前記正推定データであって、前記正推定データのセットのうち、前記誤推定データに多次元での座標上の距離が近い少なくとも２つの前記正推定データとに基づいて、前記仮想データを生成してもよい。或いは、本態様に係る学習装置では、前記生成部は、前記誤推定データと、該誤推定データと同じクラスの前記正推定データであって、前記正推定データのセットのうち、前記誤推定データに多次元での座標上の距離が近い少なくとも２つの前記正推定データとに基づいて、前記仮想データを生成してもよい。

【0017】

また、本態様に係る学習装置では、前記生成部は、前記仮想データの座標と前記少なくとも２つの前記正推定データの各座標との距離が、前記誤推定データの座標と前記少なくとも２つの前記正推定データの各座標との距離よりも短くなるように、前記仮想データを生成してもよい。或いは、本態様に係る学習装置では、前記生成部は、前記仮想データの座標と前記少なくとも２つの前記正推定データの各座標との距離が、前記誤推定データの座標と前記少なくとも２つの前記正推定データの各座標との距離よりも長くなるように、前記仮想データを生成してもよい。

【0018】

また、本態様に係る学習装置では、前記生成部は、前記誤推定データと、該誤推定データと同じクラスである２つの前記正推定データとに基づき、前記仮想データの多次元での座標と２つの前記正推定データの多次元での各座標との第１距離が、前記誤推定データの多次元での座標と２つの前記正推定データの多次元での各座標との第２距離よりも長くなるように、前記仮想データを生成する第１生成部と、前記誤推定データと、該誤推定データと異なるクラスである２つの前記正推定データとに基づき、第１距離が第２距離よりも長くなるように、前記仮想データを生成する第２生成部と、前記誤推定データと、該誤推定データと異なるクラスである２つの前記正推定データとに基づいて、第１距離が第２距離よりも短くなるように、前記仮想データを生成する第３生成部とを備えており、前記複数の学習部は、学習用データのセットを用いて学習する第１学習部と、第１学習部が推定した推定データを用いて第１生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習する第２学習部と、第２学習部が推定した推定データを用いて第２生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習する第３学習部と、第３学習部が推定した推定データを用いて第３生成部が生成した仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて学習する第４学習部とを備えてもよい。

【0019】

このように、複数の学習部が、それぞれ、異なる複数の方法により生成された仮想データのセットを利用することにより、学習装置の予測の精度をさらに向上することができる。

【0020】

また、本態様に係る学習装置では、評価用データのそれぞれについて、各学習部によって推定された推定データのセットのうち、最多の推定データを予測したデータとして最終決定する最終決定部をさらに備えてもよい。

【0021】

本発明の他の態様に係る学習方法は、機械学習を行う学習装置であって、学習用データのセットの少なくとも一部を用いて学習する複数の学習部を備える学習装置の学習方法であって、前記複数の学習部における或る学習部によって誤って推定された誤推定データのセットと、前記或る学習部によって正しく推定された正推定データのセットの少なくとも一部とに基づいて、仮想データのセットを生成する生成ステップと、前記生成ステップにて生成された仮想データのセットと、前記学習用データのセットの少なくとも一部とを用いて、前記複数の学習部における別の学習部に学習させる学習ステップとを含むことを特徴としている。

【0022】

上記の方法によれば、上述の学習装置と同様の効果を奏することができる。

【0023】

本発明の各態様に係る学習装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記学習装置が備える各部（ソフトウェア要素）として動作させることにより前記学習装置をコンピュータにて実現させる学習装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

【発明の効果】

【0024】

本発明の一態様によれば、上記予測の精度をさらに向上できるという効果を奏する。

【図面の簡単な説明】

【0025】

【図1】本発明の一実施形態に係る学習装置の概略構成を示すブロック図である。

【図2】上記学習装置における学習処理の流れを示すフローチャートである。

【図3】上記学習装置にて処理されるデータの流れの具体例を示すブロック図である。

【図4】上記学習装置の一実施例にて作成される仮想データの位置を示すグラフである。

【図5】上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図6】上記学習装置の別の実施例にて作成される仮想データの位置を示すグラフである。

【図7】上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図8】上記学習装置のさらに別の実施例にて作成される仮想データの位置を示すグラフである。

【図9】上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図10】上記学習装置のさらに別の実施例にて作成される仮想データの位置を示すグラフである。

【図11】上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図12】上記学習装置のさらに別の実施例にて作成される仮想データの位置を示すグラフである。

【図13】上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図14】上記学習装置のさらに別の実施例にて作成される仮想データの位置を示すグラフである。

【図15】上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図16】上記学習装置のさらに別の実施例にて作成される仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【図17】上記学習装置の他の実施例にて作成される仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。

【発明を実施するための形態】

【0026】

以下、本発明の実施の形態について、詳細に説明する。なお、説明の便宜上、各実施形態に示した部材と同一の機能を有する部材については、同一の符号を付記し、適宜その説明を省略する。

【0027】

〔実施形態１〕
本発明の一実施形態について、図１および図２を参照して説明する。

【0028】

（学習装置の概要）
図１は、本実施形態に係る学習装置の概略構成を示すブロック図である。学習装置１０は、機械学習のうち、クラスタリングを行うものである。しかしながら、学習装置１０は、任意の機械学習を行うことができる。

【0029】

図１に示すように、学習装置１０は、制御部１１、記憶部１２、および通信部１３を備える構成である。制御部１１は、学習装置１０の各種構成の動作を統括的に制御するものであり、例えばＣＰＵ（Central Processing Unit）及びメモリを含むコンピュータによって構成される。そして、各種構成の動作制御は、制御プログラムをコンピュータに実行させることによって行われる。記憶部１２は、情報を記録するものであり、ハードディスク、フラッシュメモリ等の記憶デバイスによって構成される。通信部１３は、インターネット等の通信ネットワークを介して情報の送受信を行うものである。

【0030】

次に、制御部１１および記憶部１２の詳細について説明する。制御部１１は、データ取得部２１、学習器群２２、結果取得部２３、仮想データ生成部２４（生成部）、および最終決定部２５を備える構成である。また、記憶部１２は、評価用データ記憶部３１、学習用データ記憶部３２、および仮想データ記憶部３３を備える構成である。

【0031】

データ取得部２１は、学習装置１０が学習し予測するために必要なデータのセットを、通信部１３を介して取得するものである。１つのデータは、複数種類の属性値（特徴量）を含んでいる。データ取得部２１は、取得したデータのセットを、評価用データＣＨＤのセットおよび学習用データＴＲＤのセットに分割し、それぞれ評価用データ記憶部３１および学習用データ記憶部３２に記憶する。

【0032】

学習器群２２は、機械学習を行うｎ個の学習器（学習部）を備えている（ｎは２以上の整数）。学習を行う場合、第１学習器２２ａは、学習用データ記憶部３２からの学習用データＴＲＤのセットを用いて学習を行い、推定したクラスのセットを結果として出力する。他の学習器２２ｂは、学習用データ記憶部３２からの学習用データＴＲＤのセットの一部と、仮想データ記憶部３３からの仮想データＶＤのセットとを用いて学習を行い、推定したクラスのセットを結果として出力する。

【0033】

また、予測を行う場合、学習された全ての学習器２２ａ・２２ｂは、評価用データ記憶部３１からの評価用データＣＨＤのセットからクラスを推定し、推定したクラスのセットを結果として出力する。

【0034】

結果取得部２３は、学習器群２２の各学習器２２ａ・２２ｂによって推定されたクラスのセットを取得するものである。結果取得部２３は、推定されたクラスのセットを、学習を行う場合には仮想データ生成部２４に送出する一方、予測を行う場合には、最終決定部２５に送出する。

【0035】

仮想データ生成部２４は、学習用データ記憶部３２からの学習用データＴＲＤのセットと、結果取得部２３からの推定したクラスのセットとを用いて、仮想データＶＤのセットを生成するものである。仮想データ生成部２４は、生成した仮想データを仮想データ記憶部３３に記憶する。なお、仮想データの生成の詳細については、後述の実施例にて説明する。

【0036】

具体的には、仮想データ生成部２４は、まず、学習用データＴＲＤのそれぞれについて、学習用データＴＲＤに含まれる実際のクラスと、上記推定されたクラスとを比較して、クラスの正誤を識別する。次に、誤って推定された学習用データＴＲＤ（誤推定データ）と、正しく推定された学習用データＴＲＤ（正推定データ）の少なくとも一部とに基づいて、仮想データＶＤのセットを生成し、生成した仮想データを仮想データ記憶部３３に記憶する。

【0037】

最終決定部２５は、評価用データＣＨＤのそれぞれについて、各学習器２２ａ・２２ｂによって推定されたクラスのセットのうち、最多のクラスを予測したクラスとして最終決定する。最終決定部２５は、評価用データＣＨＤのセットに対し予測したクラスのセットを、通信部１３を介して外部の装置に送信する。

【0038】

（学習処理）
図２は、上記構成の学習装置１０における学習処理の流れを示すフローチャートである。図２に示すように、まず、変数ｉを１に初期化し（Ｓ１０）、第ｉ学習器（第１学習器２２ａ、或る学習器）は、学習用データ記憶部３２からの学習用データＴＲＤのセットを用いて学習を行う（Ｓ１１）。

【0039】

次に、仮想データ生成部２４は、学習用データＴＲＤのそれぞれについて、第ｉ学習器が推定したクラスと実際のクラスとを比較して、クラスの正誤を判定する（Ｓ１２）。次に、正しく推定された割合が閾値以上である場合（Ｓ１３にてＹＥＳ）、上記学習処理を終了する。

【0040】

一方、正しく推定された割合が閾値未満である場合（Ｓ１３にてＮＯ）、仮想データ生成部２４は、誤推定データを含む多次元での座標（空間）上の領域を第（ｉ＋１）低推定領域として設定する（Ｓ１４）。次に、仮想データ生成部２４は、第（ｉ＋１）低推定領域内に位置する誤推定データおよび正推定データのセットに基づいて、仮想データＶＤのセットを生成して仮想データ記憶部３３に記憶する（Ｓ１５）。

【0041】

次に、第（ｉ＋１）低推定領域内に位置する誤推定データおよび正推定データのセットと、上記仮想データＶＤのセットとを用いて、第（ｉ＋１）学習器（他の学習器２２ｂ）が学習を行う（Ｓ１６）。

【0042】

次に、変数ｉを１だけ増分する（Ｓ１７）。変数ｉが所定回数以下である場合（Ｓ１８にてＮＯ）、ステップＳ１２に戻って上記動作を繰り返す。そして、変数ｉが所定回数を超えた場合（Ｓ１８にてＹＥＳ）、上記学習処理を終了する。

【0043】

従って、本実施形態の学習装置１０では、第（ｉ＋１）低推定領域内に位置する誤推定データおよび正推定データのセット（第ｉ学習器による誤推定データのセット、および、第ｉ学習器による正推定データのセットの少なくとも一部）に基づいて、仮想データＶＤのセットが生成される。そして、生成された仮想データＶＤのセットと、第（ｉ＋１）低推定領域内に位置する誤推定データおよび正推定データのセット（学習用データＴＲＤのセットの少なくとも一部）とを利用して、第（ｉ＋１）学習器が学習する。これにより、誤って推定されたデータのセットのみに基づいて仮想データを生成する場合に比べて、第（ｉ＋１）学習器による推定の精度を向上することができる。その結果、学習装置１０の予測の精度を向上することができる。

【0044】

〔実施例１〕
図３は、上記構成の学習装置１０にて処理されるデータの流れの具体例を示すブロック図である。図３の例では、学習器２２ａ・２２ｂとして４つの学習器Ｍ１〜Ｍ４が利用されており、また、図２に示すステップＳ１８における所定回数が４である。

【0045】

まず、データ取得部２１は、外部の装置から通信部１３を介して取得したデータのセットを、第１学習用データＴＲＤ１のセットと評価用データＣＨＤのセットとに分割する。第１学習用データＴＲＤ１のセットを用いて第１学習器Ｍ１（２２ａ）が学習する。第１学習器Ｍ１が推定したクラスとその正誤のセットとを第１結果データＲＳＤ１のセットとして結果取得部２３が取得する。

【0046】

次に、第１結果データＲＳＤ１のセットを用いて、誤推定データのセットを含む多次元での座標上の領域を第２低推定領域として仮想データ生成部２４が設定する。第２低推定領域内に位置する誤推定データおよび正推定データのセット（推定データのセット）に基づいて、仮想データ生成部２４が第２仮想データＶＤ２のセットを生成する。第２低推定領域内に位置する推定データのセットが第２学習用データＴＲＤ２のセットとなる。次に、第２学習用データＴＲＤ２のセットと第２仮想データＶＤ２のセットとを用いて、第２学習器Ｍ２（２２ｂ）が学習する。第２学習器Ｍ２が推定したクラスとその正誤のセットとを第２結果データＲＳＤ２のセットとして結果取得部２３が取得する。

【0047】

次に、第２結果データＲＳＤ２のセットを用いて、誤推定データのセットを含む多次元での座標上の領域を第３低推定領域として仮想データ生成部２４が設定する。第３低推定領域内に位置する推定データのセットに基づいて、仮想データ生成部２４が第３仮想データＶＤ３のセットを生成する。第３低推定領域内に位置する推定データのセットが第３学習用データＴＲＤ３のセットとなる。次に、第３学習用データＴＲＤ３のセットと第３仮想データＶＤ３のセットとを用いて、第３学習器Ｍ３（２２ｂ）が学習する。第３学習器Ｍ３が推定したクラスとその正誤のセットとを第３結果データＲＳＤ３のセットとして結果取得部２３が取得する。

【0048】

次に、第３結果データＲＳＤ３のセットを用いて、誤推定データのセットを含む多次元での座標上の領域を第４低推定領域として仮想データ生成部２４が設定する。第４低推定領域内に位置する推定データのセットに基づいて、仮想データ生成部２４が第４仮想データＶＤ４のセットを生成する。第４低推定領域内に位置する推定データのセットが第４学習用データＴＲＤ４のセットとなる。そして、第４学習用データＴＲＤ４のセットと第４仮想データＶＤ４のセットとを用いて、第４学習器Ｍ４（２２ｂ）が学習する。

【0049】

全ての学習器Ｍ１〜Ｍ４の学習が完了したので、評価用データＣＨＤのセットが学習器Ｍ１〜Ｍ４のそれぞれに入力される。学習器Ｍ１〜Ｍ４が推定したクラスのセットを、それぞれ結果データＲＳＤ１１〜ＲＳＤ１４のセットとして結果取得部２３が取得する。そして、最終決定部２５は、評価用データＣＨＤのそれぞれについて、結果データＲＳＤ１１〜ＲＳＤ１４のうち最多のものを予測データＲＳＤＴとして最終決定する。最終決定部２５は、評価用データＣＨＤのセットに対応する予測データＲＳＤＴのセットを、通信部１３を介して外部の装置に送信する。

【0050】

〔実施例２〕
仮想データ生成部２４が生成する仮想データの一例について、図４〜図１５を参照して説明する。なお、本実施例では、学習用データに含まれる属性の数を２つとしている。これにより、学習用データの位置は２次元の座標で表されることになる。さらに、学習器によって推定される境界は２次元のグラフ上で曲線（境界線）として表されることになる。また、本実施例では、学習器により学習用データが２つのクラスＡ・Ｂに分類され、クラスＡ・Ｂの境界線ＢＤが推定されるとしている。

【0051】

（実施例２−１）
図４は、本実施例にて作成される仮想データの位置を示すグラフである。また、図５は、上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。図４および図５では、クラスＡ・Ｂの学習用データを○・×でそれぞれ示している。また、誤推定データにはハッチングを付しており、仮想データは一点鎖線で示されている。なお、図４および図５にて使用される学習用データは異なるものである。

【0052】

図４に示すように、或る学習器により境界線ＢＤが推定されたとする。この場合、学習用データＮＧＤ１０が誤推定されたことになる。

【0053】

そこで、本実施例では、まず、誤推定データＮＧＤ１０と同じクラスであり、かつ、誤推定データＮＧＤ１０に最も近い２つの正推定データＯＫＤ１０・１１の位置を特定する。次に、決定した２つの正推定データＯＫＤ１０・１１の中点ＭＰＤ１０から誤推定データＮＧＤ１０の位置までの線分を誤推定データＮＧＤ１０の位置の外側に外分する外分点に、誤推定データＮＧＤ１０と同じクラスである仮想データＶＤ１０を生成する。この場合、仮想データＶＤ１０の位置と正推定データＯＫＤ１０・１１の位置との各距離（第１距離）は、仮想データＶＤ１０の位置と誤推定データＮＧＤ１０の位置との距離（第２距離）よりも長くなる。

【0054】

また、図５に示すように、或る学習器により境界線ＢＤが推定されたとする。この場合、学習用データＮＧＤ１１〜１４が誤推定されたことになる。

【0055】

そこで、本実施例では、図４の場合と同様にして、仮想データＶＤ１１〜ＶＤ１４を生成する。次に、生成した仮想データＶＤ１１〜ＶＤ１４と、図５に示す学習用データとを用いて、上記或る学習器とは別の学習器を学習させる。すなわち、図５に示す全領域を低推定領域とし、該低推定領域に含まれる学習用データおよび仮想データＶＤ１１〜ＶＤ１４を用いて上記別の学習器を学習させることになる。

【0056】

その結果、該別の学習器により境界線ＢＤ１が推定される。図５を参照すると、境界線ＢＤ１は、境界線ＢＤに比べて誤推定データＮＧＤ１１〜１４の側に変形していることが理解できる。従って、仮想データＶＤ１１〜ＶＤ１４を利用することにより、推定の精度が向上したことが理解できる。なお、外分比は、境界線をどの程度変化させる必要があるかに応じて適宜設定される。

【0057】

なお、図５の例では、仮想データＶＤ１１・ＶＤ１２は、データが疎である領域（データの密度が他よりも低い領域）に配置されている。これにより、学習データ（前回の誤推定データ）ＮＧＤ１１・ＮＧＤ１２付近の境界線ＢＤ１をより正確に推定できると考えられる。また、図５の例では、クラスＡの学習データの数よりもクラスＢの学習データの数の方が少ない。そこで、クラスＢの仮想データＶＤ１３・ＶＤ１４が配置されている。これにより、境界線ＢＤ１の推定精度が向上すると考えられる。

【0058】

（実施例２−２）
図６は、本実施例にて作成される仮想データの位置を示すグラフである。また、図７は、上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。本実施例は、図４および図５に示す実施例に比べて、２つの正推定データＯＫＤ１０・１１の中点から誤推定データＮＧＤ１０の位置までの線分を、２つの正推定データＯＫＤ１０・１１の位置を結ぶ線分ＬＮ１１に対し、誤推定データＮＧＤ１０の位置を通る垂線に変更している点が異なり、その他は同様である。図７を参照すると、本実施例においても、境界線ＢＤ１は、境界線ＢＤに比べて誤推定データＮＧＤ１１〜１４の側に変形していることが理解できる。従って、仮想データＶＤ１１〜ＶＤ１４を利用することにより、推定の精度が向上したことが理解できる。

【0059】

（実施例２−３）
図８は、本実施例にて作成される仮想データの位置を示すグラフである。また、図９は、上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。なお、図８に示す正推定データ、誤推定データ、および境界線ＢＤは、それぞれ、図４に示す正推定データ、誤推定データ、および境界線ＢＤと同様である。また、図９に示す正推定データ、誤推定データ、および境界線ＢＤは、それぞれ、図５に示す正推定データ、誤推定データ、および境界線ＢＤと同様である。

【0060】

図８に示すように、或る学習器により境界線ＢＤが推定されたとする。この場合、学習用データＮＧＤ１０が誤推定されたことになる。

【0061】

そこで、本実施例では、図８に示すように、まず、誤推定データＮＧＤ１０と異なるクラスであり、かつ、誤推定データＮＧＤ１０に最も近い２つの正推定データＯＫＤ２０・２１の位置を特定する。次に、決定した２つの正推定データＯＫＤ２０・２１の中点ＭＰＤ２０から誤推定データＮＧＤ１０の位置までの線分を誤推定データＮＧＤ１０の位置の外側に外分する外分点に、誤推定データＮＧＤ１０と同じクラスである仮想データＶＤ２０を生成する。この場合、仮想データＶＤ２０の位置と正推定データＯＫＤ２０・２１の位置との各距離（第１距離）は、仮想データＶＤ２０の位置と誤推定データＮＧＤ１０の位置との距離（第２距離）よりも長くなる。

【0062】

また、図９に示すように、或る学習器により境界線ＢＤが推定されたとする。この場合、学習用データＮＧＤ１１〜１４が誤推定されたことになる。

【0063】

そこで、本実施例では、図８の場合と同様にして、仮想データＶＤ２１〜ＶＤ２４を生成する。次に、生成した仮想データＶＤ２１〜ＶＤ２４と、図９に示す学習用データとを用いて、上記或る学習器とは別の学習器を学習させる。その結果、該別の学習器により境界線ＢＤ２が推定される。図９を参照すると、境界線ＢＤ２は、境界線ＢＤに比べて誤推定データＮＧＤ１１〜１４の側に変形していることが理解できる。従って、仮想データＶＤ２１〜ＶＤ２４を利用することにより、推定の精度が向上したことが理解できる。なお、外分比は、境界線をどの程度変化させる必要があるかに応じて適宜設定される。

【0064】

（実施例２−４）
図１０は、本実施例にて作成される仮想データの位置を示すグラフである。また、図１１は、上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。本実施例は、図８および図９に示す実施例に比べて、２つの正推定データＯＫＤ２０・２１の中点から誤推定データＮＧＤ１０の位置までの線分を、２つの正推定データＯＫＤ２０・２１の位置を結ぶ線分ＬＮ２１に対し、誤推定データＮＧＤ１０の位置を通る垂線に変更している点が異なり、その他は同様である。図１１を参照すると、本実施例においても、境界線ＢＤ２は、境界線ＢＤに比べて誤推定データＮＧＤ１１〜１４の側に変形していることが理解できる。従って、仮想データＶＤ１１〜ＶＤ１４を利用することにより、推定の精度が向上したことが理解できる。

【0065】

（実施例２−５）
図１２は、本実施例にて作成される仮想データの位置を示すグラフである。また、図１３は、上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。なお、図１２に示す正推定データ、誤推定データ、および境界線ＢＤは、それぞれ、図４に示す正推定データ、誤推定データ、および境界線ＢＤと同様である。また、図１３に示す正推定データ、誤推定データ、および境界線ＢＤは、それぞれ、図５に示す正推定データ、誤推定データ、および境界線ＢＤと同様である。

【0066】

図１２に示すように、或る学習器により境界線ＢＤが推定されたとする。この場合、学習用データＮＧＤ１０が誤推定されたことになる。

【0067】

そこで、本実施例では、図１２に示すように、まず、誤推定データＮＧＤ１０と異なるクラスであり、かつ、誤推定データＮＧＤ１０に最も近い２つの正推定データＯＫＤ３０・３１の位置を特定する。次に、決定した２つの正推定データＯＫＤ３０・３１の中点に、誤推定データＮＧＤ１０と異なるクラスである仮想データＶＤ３０を生成する。この場合、仮想データＶＤ３０の位置と正推定データＯＫＤ３０・３１の位置との各距離（第１距離）は、仮想データＶＤ３０の位置と誤推定データＮＧＤ１０の位置との距離（第２距離）よりも短くなる。

【0068】

また、図１３に示すように、或る学習器により境界線ＢＤが推定されたとする。この場合、学習用データＮＧＤ１１〜１４が誤推定されたことになる。

【0069】

そこで、本実施例では、図１２の場合と同様にして、仮想データＶＤ３１〜ＶＤ３４を生成する。次に、生成した仮想データＶＤ３１〜ＶＤ３４と、図１３に示す学習用データとを用いて、上記或る学習器とは別の学習器を学習させる。その結果、該別の学習器により境界線ＢＤ３が推定される。図１３を参照すると、境界線ＢＤ３は、境界線ＢＤに比べて誤推定データＮＧＤ１１〜１４の側に変形していることが理解できる。従って、仮想データＶＤ３１〜ＶＤ３４を利用することにより、推定の精度が向上したことが理解できる。

【0070】

（実施例２−６）
図１４は、本実施例にて作成される仮想データの位置を示すグラフである。また、図１５は、上記仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。本実施例は、図１２および図１３に示す実施例に比べて、２つの正推定データＯＫＤの中点を、２つの正推定データＯＫＤの位置を結ぶ線分に対し、誤推定データＮＧＤの位置を通る垂線の足に変更している点が異なり、その他は同様である。図１５を参照すると、本実施例においても、境界線ＢＤ３は、境界線ＢＤに比べて誤推定データＮＧＤ１１〜１４の側に変形していることが理解できる。従って、仮想データＶＤ３１〜ＶＤ３４を利用することにより、推定の精度が向上したことが理解できる。

【0071】

なお、図１２〜図１５に示す実施例では、誤推定データＮＧＤ１０と異なるクラスであり、かつ、誤推定データＮＧＤ１０に最も近い２つの正推定データＯＫＤ２０・２１の中点に、誤推定データＮＧＤ１０と異なるクラスである仮想データＶＤ３０を生成しているが、これに限定されるものではない。例えば、誤推定データＮＧＤ１０と同じクラスであり、かつ、誤推定データＮＧＤ１０に最も近い２つの正推定データＯＫＤ２０・２１の中点に、誤推定データＮＧＤ１０と同じクラスである仮想データＶＤ３０を生成してもよい。

【0072】

〔実施例３〕
仮想データ生成部２４が生成する仮想データの別の例について、図１６および図１７を参照して説明する。なお、本実施例では、図４〜図１５に示す実施例と同様に、学習用データに含まれる属性の数を２つとし、学習器により学習用データが２つのクラスＡ・Ｂに分類され、クラスＡ・Ｂの境界線ＢＤが推定されるとしている。

【0073】

（実施例３−１）
図１６は、本実施例にて作成される仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。本実施例では、図３に示す学習装置１０を利用している。また、仮想データ生成部２４は、仮想データを生成する方法として、図４および図５に示す実施例の方法と、図８および図９に示す実施例の方法と、図１２および図１３に示す実施例の方法とを組み合わせている。

【0074】

まず、図１６の左部に示すように、第１学習器２２ａ（第１学習部）により境界線ＢＤ１１０が推定されたとする。この場合、学習用データＮＧＤ１１０が誤推定されたことになる。

【0075】

次に、仮想データ生成部２４（第１生成部）は、図４および図５に示す実施例と同様の方法を用いて、第２仮想データＶＤ１２０を生成する。次に、生成した仮想データＶＤ１２０と、図１６の左側に示す学習用データとを用いて、第２学習器２２ｂ（第２学習部）を学習させる。その結果、第２学習器２２ｂにより境界線ＢＤ１２０が推定される。この場合、図１６の中央部に示すように、学習用データＮＧＤ１２０が誤推定されたことになる。

【0076】

次に、仮想データ生成部２４（第２生成部）は、図８および図９に示す実施例と同様の方法を用いて、第３仮想データＶＤ１３０を生成する。次に、生成した仮想データＶＤ１３０と、図１６の中央に示す学習用データとを用いて、第３学習器２２ｂ（第３学習部）を学習させる。その結果、第３学習器２２ｂにより境界線ＢＤ１３０が推定される。この場合、図１６の右部に示すように、学習用データＮＧＤ１３０が誤推定されたことになる。

【0077】

次に、仮想データ生成部２４（第３生成部）は、図１２および図１３に示す実施例と同様の方法を用いて、第４仮想データＶＤ１４０を生成する。次に、生成した仮想データＶＤ１４０と、図１６の右部に示す学習用データとを用いて、第４学習器２２ｂ（第４学習部）を学習させる。その結果、第４学習器２２ｂにより境界線ＢＤ１４０が推定される。この場合、全ての学習用データのクラスは、正しく推定されたことになる。

【0078】

従って、仮想データの異なる生成方法を適宜組み合わせることにより、学習装置１０の予測の精度をさらに向上することができる。

【0079】

なお、図１６を参照すると、図４および図５に示す実施例の方法に比べて、図８および図９に示す実施例の方法の方が、境界線の変化量が少ないことが理解できる。また、図８および図９に示す実施例の方法に比べて、図１２および図１３に示す実施例の方法の方が、境界線の変化量が少ないことが理解できる。従って、図１６に示すような順序で仮想データを生成することが望ましいことが理解できる。この場合、推定の精度をさらに向上させることができる。

【0080】

（実施例３−２）
図１７は、本実施例にて作成される仮想データの位置と、上記仮想データによる境界線の変化とを示すグラフである。本実施例では、図３に示す学習装置１０を利用している。また、仮想データ生成部２４は、仮想データを生成する方法として、図６および図７に示す実施例の方法と、図１０および図１１に示す実施例の方法と、図１４および図１５に示す実施例の方法とを組み合わせている。図１７を参照すると、本実施例においても、図１６に示す実施例と同様の効果を奏することが理解できる。

【0081】

〔付記事項〕
上記実施例では、誤推定データに最も近い２つの正推定データを利用して仮想データを作成しているが、これに限定されるものではない。例えば、誤推定データに最も近い３つ以上の正推定データを利用して仮想データを作成してもよい。また、該推定データから所定の距離に含まれる複数の正推定データを利用して仮想データを作成してもよい。

【0082】

また、多次元での座標において、学習データが計測不可能である領域に仮想データを作成してもよい。この場合、推定の精度をさらに向上させることができる。

【0083】

また、上記実施例では、学習用データに含まれる属性の数を２つとしているが、これに限定されるものではない。上記属性の数がｋ個である場合（ｋは２以上の整数）学習用データの位置はｋ次元の座標で表されることになる。

【0084】

また、仮想データ生成部２４が生成した仮想データを、少なくとも１つの学習器に利用されればよく、その他の学習器には、非特許文献１〜３に記載されているような仮想データを利用してもよい。

【0085】

〔ソフトウェアによる実現例〕
学習装置１０の制御ブロック（特にデータ取得部２１、学習器群２２、結果取得部２３、仮想データ生成部２４、および最終決定部２５）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。

【0086】

後者の場合、学習装置１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば１つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばＣＰＵ（Central Processing Unit）を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ＲＯＭ（Read Only Memory）等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するＲＡＭ（Random Access Memory）などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

【0087】

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【符号の説明】

【0088】

１０学習装置
１１制御部
１２記憶部
１３通信部
２１データ取得部
２２学習器群
２２ａ第１学習器（学習部）
２２ｂ他の学習器（学習部）
２３結果取得部
２４仮想データ生成部（生成部）
２５最終決定部
３１評価用データ記憶部
３２学習用データ記憶部
３３仮想データ記憶部

【図1】