(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-11
(45)【発行日】2024-03-19
(54)【発明の名称】生成プログラム、生成方法および情報処理装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20240312BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2022560625
(86)(22)【出願日】2020-11-09
(86)【国際出願番号】 JP2020041750
(87)【国際公開番号】W WO2022097302
(87)【国際公開日】2022-05-12
【審査請求日】2023-02-20
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】河東 孝
(72)【発明者】
【氏名】上村 健人
(72)【発明者】
【氏名】安富 優
(72)【発明者】
【氏名】早瀬 友裕
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2017-076287(JP,A)
【文献】米国特許出願公開第2016/0078359(US,A1)
【文献】中国特許出願公開第111625667(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
複数の
ラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習し、
ドメインが異なる複数のラベル付きデータ
を学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの
前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、
処理を実行させることを特徴とする生成プログラム。
【請求項2】
前記学習する処理は、前記複数の
ラベル無しデータセットそれぞれから複数のデータを取得し、前記複数のデータのうち、前記同一のドメインに含まれるデータ間の距離が小さくなり、前記異なるドメイン間のデータの距離が大きくなる特徴空間を学習する、ことを特徴とする請求項1に記載の生成プログラム。
【請求項3】
前記学習する処理は、前記同一のドメインに含まれるデータ間の距離が小さくなり、前記異なるドメイン間のデータの距離が大きくなる前記特徴空間を生成するように、入力データから特徴量を生成する生成モデルの機械学習を実行し、
前記生成する処理は、学習済みの生成モデルを用いて、ドメインが異なる前記複数のラベル付きデータそれぞれの特徴量を生成し、前記学習済みの特徴空間において前記複数のラベル付きデータそれぞれの特徴量のうち、前記所定の範囲内に含まれるラベル付きデータを統合することにより、前記ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。
【請求項4】
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間から任意の点を選択し、前記任意の点から所定距離内にある所定個のラベル付きデータを統合した前記ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。
【請求項5】
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間から任意の複数の点を選択し、前記複数の点それぞれについて、選択された点から所定距離内にある所定個のラベル付きデータを取得して統合することで、前記複数の点それぞれに対応する各ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。
【請求項6】
第1のドメインに対応するラベル無しデータセットの各対象データを、前記学習済みの特徴空間に射影する、処理を前記コンピュータに実行させ、
前記生成する処理は、前記複数のラベル付きデータが射影された前記学習済みの特徴空間において前記各対象データから所定の距離内にあるラベル付きデータを統合することで、前記第1のドメインの疑似ドメインに対応する前記ラベル付きデータセットを生成する、ことを特徴とする請求項1に記載の生成プログラム。
【請求項7】
前記学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、重複空間が閾値以下で、前記学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を選択し、
選択された前記ラベル付きデータセットの集合を用いて、分類モデルの精度に関連する分析を実行する、処理を前記コンピュータに実行させることを特徴とする請求項1に記載の生成プログラム。
【請求項8】
前記学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、第1のデータセットに基づき生成されたラベル付きデータセットを選択し、
前記第1のデータセットと、選択された前記ラベル付きデータセットとを用いて、分類モデルの精度に関連する分析を実行する、処理を前記コンピュータに実行させることを特徴とする請求項1に記載の生成プログラム。
【請求項9】
コンピュータが、
複数の
ラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習し、
ドメインが異なる複数のラベル付きデータ
を学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの
前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、
処理を実行することを特徴とする生成方法。
【請求項10】
複数の
ラベル無しデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する機械学習部と、
ドメインが異なる複数のラベル付きデータ
を学習済みの前記特徴空間に射影し、前記特徴空間に射影された複数のラベル付きデータのうち、学習済みの
前記特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する生成部と、
を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生成プログラム、生成方法および情報処理装置に関する。
【背景技術】
【0002】
深層学習(DL:Deep Learning)や機械学習などでは、ラベル付きデータを用いた教師有学習、ラベル無しデータを用いた教師無学習、ラベル付きデータとラベル無しデータの両方を用いた半教師有り学習が利用されている。一般的に、ラベル無しデータは、収集コストが比較的少なく収集しやすいが、ラベル有りデータは、十分なデータ量を収集するには膨大な時間とコストがかかる。
【0003】
近年では、ラベル無しデータから、人手によりラベルを付与してラベル付きデータを生成することや、データ変換器やシミュレータ等を用いてラベル付きデータを生成することが知られている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記技術では、データの生成段階や生成手法により、生成されたラベル付きデータと現実のデータとの乖離が発生し、ラベル付きデータの品質が劣化することがある。
【0006】
一つの側面では、品質がよいラベル付きデータセットを拡充することができる生成プログラム、生成方法および情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
第1の案では、生成プログラムは、コンピュータに、複数のデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する処理を実行させる。生成プログラムは、コンピュータに、複数のラベル付きデータのうち、学習済みの特徴空間における所定の範囲内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する、処理を実行させる。
【発明の効果】
【0008】
一実施形態によれば、品質がよいラベル付きデータセットを拡充することができる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、データセットの分析を説明する図である。
【
図2】
図2は、ラベル付けの参考技術を説明する図である。
【
図3】
図3は、ラベル付けの参考技術を説明する図である。
【
図4】
図4は、実施例1にかかる情報処理装置の処理を説明する図である。
【
図5】
図5は、実施例1にかかる情報処理装置の機能構成を示す機能ブロック図である。
【
図6】
図6は、ラベル付きデータセットの一例を説明する図である。
【
図7】
図7は、ラベル無しデータセットの一例を説明する図である。
【
図8】
図8は、特徴生成モデルの機械学習を説明する図である。
【
図9】
図9は、特徴生成モデル17の機械学習の繰返しを説明する図である。
【
図11】
図11は、ラベル付きデータセットの生成手法1を説明する図である。
【
図12】
図12は、ラベル付きデータセットの生成手法2を説明する図である。
【
図13】
図13は、ラベル付きデータセットの生成手法3を説明する図である。
【
図14】
図14は、ラベル付きデータセットの生成手法3を説明する図である。
【
図15】
図15は、ラベル付きデータセットの生成手法3を説明する図である。
【発明を実施するための形態】
【0010】
以下に、本発明にかかる生成プログラム、生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【実施例1】
【0011】
[情報処理装置の説明]
近年、深層学習などの各種機械学習において、データの分布(性質)の異なる複数のデータセット(複数のドメインのデータセット)に対する分類モデルの精度等の性質を分析したい要望がある。例えば、機械学習(訓練)に使用可能なラベル付きデータセットとはデータの分布(性質)の異なるデータセットへモデルを適用する場合に、適用先の精度をあらかじめ推定(評価)したいという要望が存在する。
【0012】
このような場合、例えば、ラベル付きデータからなる複数のドメインのデータセットを収集し、データセット間の分布差等の指標と分類モデルに対する精度等の推定対象を測定し、それらの関係を分析することで、推定対象を推定することが行われている。
【0013】
図1は、データセットの分析を説明する図である。
図1に示すように、情報処理装置10は、ドメインAのラベル付きデータセット、ドメインBのラベル付きデータセット、ドメインCのラベル付きデータセットそれぞれを、対象の分類モデルに入力して、分類モデルの分類精度を測定する。なお、ラベル付きデータセットとは、正解情報であるラベルが付与されているラベル付きのデータの集合である。また、精度は、分類モデルによる分類精度であり、全データにおいて分類か成功した割合などを採用することができる。
【0014】
また、情報処理装置10は、ドメインAのラベル付きデータセット、ドメインBのラベル付きデータセット、ドメインCのラベル付きデータセットそれぞれ対して、データの分布を測定し、各分布差を算出する。なお、分布とは、特徴量を生成する別のモデルなどを用いることで得られる各データの特徴量の分布や各データの特徴量の分散、実データから得られる情報(例えば、画像の大きさ、色、形、向きなど)の分布や分散などを採用することができる。
【0015】
そして、情報処理装置10は、既存のラベル付きデータセットから分類モデルの精度の指標を生成する。例えば、ドメインAについて指標を生成する例を説明する。情報処理装置10は、ドメインAに対する精度Aと分布A、ドメインBに対する精度B(精度B<精度A)と分布Bとを用いて、分布差A1(分布A-分布B)と精度差A1(精度A-精度B)を算出する。同様に、情報処理装置10は、ドメインAに対する精度Aと分布A、ドメインCに対する精度C(精度A<精度C)と分布Cとを用いて、分布差A2(分布A-分布C)と精度差A2(精度C-精度A)を算出する。この結果、情報処理装置10は、ドメインAの精度と各分類差との関係に基づいて、ドメインAの分布からどのくらい差があれば、ドメインAの精度からどのくらい低下または向上するのかの指標を生成できる。
【0016】
このようにして、情報処理装置10は、ドメインA、ドメインB、ドメインCそれぞれについて、各ドメインを基準にした指標を生成する。
【0017】
別例としては、情報処理装置10は、精度と分布との2次元空間において、線形補間により指標を生成することもできる。例えば、情報処理装置10は、ドメインAの精度Aと分布A、ドメインBの精度Bと分布B、ドメインCの精度Cと分布Cについて、分布と指標との2次元空間上にプロットする。そして、情報処理装置10は、この3点を基準にして線形補間等の既存技術を用いて補間することで、分布から精度を推定する指標を生成することができる。
【0018】
その後、情報処理装置10は、ドメインDのラベル無しデータセットに分類モデルを適用する場合に、ドメインDのデータの分布Dを算出する。そして、情報処理装置10は、上述した分布から精度を推定する指標にしたがって、評価対象(精度の推定対象)であるドメインDの分布Dに対応する精度Dを推定することができる。
【0019】
また、情報処理装置10は、ドメインDがドメインBと関連すると既知である場合、ドメインDの分布DとドメインBの分布Bとを用いて分布差D1を算出する。そして、情報処理装置10は、分布差D1とドメインBの精度Bとを用いて、評価対象であるドメインDの分布Dに対応する精度Dを推定することができる。
【0020】
上述したように、情報処理装置10は、既存のラベル付きデータセットを用いることで、分類モデルを新たな環境に適用するときに、事前に精度の予測などを行うことができる。また、このようなラベル付きデータに対するドメイン間の分析を行う場合、複数のドメインに対するラベル付きデータ(ラベル付きドメイン)を収集する必要があり、既存のラベル付きデータセットが多いほど予測精度も向上する。
【0021】
しかし、ラベル無しデータは、収集コストが比較的少なく収集しやすいが、ラベル有りデータは、十分なデータ量を収集するには膨大な時間とコストがかかる。
【0022】
図2と
図3は、ラベル付けの参考技術を説明する図である。
図2に示すように、ラベル無しデータ(ラベル無しドメイン)に対して、人手によりラベルを付与することで、ラベル付きドメインを生成することが行われている。この手法では、人手が介入するためコストがかかる。また、
図3に示すように、ユーザがデータの性質等に応じて、データ変換器やシミュレータ等を設計することで、ラベル付きドメインを直接生成することが行われている。この手法では、人手による設計が必要であり、その設計に依存することから、生成されたラベル付きデータと現実のデータとの乖離が発生することがある。このように、少ないラベル付きドメインや品質の悪いラベル付きドメインでは高精度な分析ができない。
【0023】
そこで、実施例1では、複数のラベル付きドメインのデータを混合して新しいラベル付きドメイン(疑似ドメイン)を生成する。具体的には、情報処理装置10は、収集の容易なラベル無しドメインを使用して、混合方法を決定するためにドメインに対する特徴空間を生成する。
【0024】
図4は、実施例1にかかる情報処理装置10の処理を説明する図である。
図4に示すように、情報処理装置10は、ラベル無しデータからなる複数のデータセット(ラベル無しドメインに含まれる各データ)に対して、同一ドメインに含まれるデータ間の距離が小さく、異ドメイン間のデータの距離が大きくなる特徴空間を学習(距離学習)する。そして、情報処理装置10は、ラベル付きドメインA、ラベル付きドメインB、ラベル付きドメインCの各データを特徴空間に射影し、特徴空間内の部分空間に含まれるラベル付きデータを収集することで新たなラベル付きドメイン(疑似ドメインD)を生成する。なお、ラベル無しデータが不足する場合は、ラベル付きデータの一部をラベル無しデータとして使用してもよい。
【0025】
このようにして、情報処理装置10は、実データを用いて新たなドメインのラベル付きデータセットを生成することができるので、品質がよいラベル付きデータセットを拡充することができる。この結果、情報処理装置10は、ドメイン間の関係分析に使用するラベル付きデータセットを拡充することができ、分析精度を向上させることもできる。
【0026】
[機能構成]
図5は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。
図5に示すように、情報処理装置10は、通信部11、表示部12、記憶部13、制御部20を有する。
【0027】
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、管理者端末から、訓練データ、分析対象、各種指示などを受信する。また、通信部11は、管理者端末に、分析結果などを送信する。
【0028】
表示部12は、各種情報を表示する処理部であり、例えばディスプレイやタッチパネルなどにより実現される。例えば、表示部12は、後述する疑似ドメインや分析結果などを表示する。
【0029】
記憶部13は、各種データや制御部20が実行するプログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部13は、ラベル付きデータセット14、ラベル無しデータセット15、新規データセット16、特徴生成モデル17を記憶する。
【0030】
ラベル付きデータセット14は、ラベル付きデータから構成されるデータセットを複数記憶する。
図6は、ラベル付きデータセット14の一例を説明する図である。
図6に示すように、ラベル付きデータセット14は、「ドメイン、データセット、ラベル、データ」を対応付けて記憶する。「ドメイン」は、データセットが属するドメインであり、「データセット」は、ドメインに属するデータセットであり、「ラベル」は、正解情報であり、「データ」は、データセットに属するデータである。
【0031】
図6の例では、ドメインAにはデータセットA1が属しており、データセットA1には、ラベルXとデータYとが対応付けられた教師データが存在することが示されている。また、ドメインCにはデータセットC1が属していることが示されている。なお、ドメインAに属するデータセットAのラベル付きデータを、ラベル付きドメインAのデータと表記することがあり、ドメインAに属するラベル付きのデータセットAを、ラベル付きドメインAと表記することがある。
【0032】
ラベル無しデータセット15は、ラベル無しデータから構成されるデータセットを複数記憶する。
図7は、ラベル無しデータセット15の一例を説明する図である。
図7に示すように、ラベル付きデータセット14は、「ドメイン、データセット、データ」を対応付けて記憶する。「ドメイン」は、データセットが属するドメインであり、「データセット」は、ドメインに属するデータセットであり、「データ」は、データセットに属するデータである。
【0033】
図7の例では、ドメインBにはデータセットB1が属しており、データセットB1には、データPが含まれることが示されおり、ドメインCにはデータセットC1が属しており、データセットC2には、データCXが含まれることが示されている。また、ドメインDにはデータセットD2が属しており、データセットD2には、データDXが含まれることが示されている。つまり、ドメインCには、ラベル付きデータセットとラベル無しデータセットとが含まれている。なお、ドメインCに属するデータセットCのラベル無しデータを、ラベル無しドメインCのデータと表記することがあり、ドメインCに属するラベル無しのデータセットCを、ラベル無しドメインCと表記することがある。
【0034】
新規データセット16は、後述する制御部20によって生成されるデータセットである。つまり、疑似ドメインに対応する新規データセット16である。なお、詳細については、後述する。特徴生成モデル17は、入力データから特徴量を生成する機械学習モデルである。この特徴生成モデル17は、後述する制御部20によって生成される。なお、別の装置で生成された特徴生成モデル17を用いることもできる。
【0035】
制御部20は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部20は、機械学習部21、射影部22、疑似ドメイン生成部23、表示制御部24、分析部25を有する。なお、機械学習部21、射影部22、疑似ドメイン生成部23、表示制御部24、分析部25は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
【0036】
機械学習部21は、複数のラベル無しデータを用いた機械学習によって、特徴生成モデル17を生成する処理部である。すなわち、機械学習部21は、ラベル無しデータを用いた距離学習(メトリック学習)を実行して、特徴生成モデル17の特徴空間の学習(訓練)を実行し、学習済みの特徴生成モデル17を記憶部13に格納する。具体的には、機械学習部21は、複数のデータセットそれぞれに含まれるデータに対して、同一のドメインに含まれるデータ間の距離が小さくなり、異なるドメイン間のデータの距離が大きくなる特徴空間を学習する。なお、学習(訓練)には、ラベル有りデータを使用してもよいが、収集コストが少ないラベル無しデータを用いることが効果的である。
【0037】
図8は、特徴生成モデル17の機械学習を説明する図であり、
図9は、特徴生成モデル17の機械学習の繰返しを説明する図である。
図8に示すように、機械学習部21は、ドメインAのラベル付きデータセットからラベル付きデータxとラベル付きデータxpとを取得するとともに、ドメインBのラベル無しデータセットからラベル無しデータxnを取得する。続いて、機械学習部21は、ラベル付きデータx、ラベル付きデータxp、ラベル無しデータxnを特徴生成モデル17に入力し、それぞれの特徴量z、zp、znを生成する。
【0038】
その後、機械学習部21は、同じドメインから生成された特徴量zと特徴量zpとの距離が近くなるとともに、異なるドメインから生成された特徴量zと特徴量znとの距離が遠くなるように、特徴空間を学習する。例えば、機械学習部21は、triplet lossに関し、式(1)を用いて算出した損失関数Lが最小化するように学習する。なお、αは、予め設定する定数である。
【0039】
【0040】
また、
図9に示すように、機械学習部21は、ドメインBのラベル無しデータセットからラベル無しデータxとラベル無しデータxpとを取得するとともに、ドメインCのラベル無しデータセットからラベル無しデータxnを取得する。続いて、機械学習部21は、ラベル無しデータx、ラベル無しデータxp、ラベル無しデータxnを特徴生成モデル17に入力し、それぞれの特徴量z、zp、znを生成する。その後、機械学習部21は、同じドメインから生成された特徴量zと特徴量zpとの距離が近くなるとともに、異なるドメインから生成された特徴量zと特徴量znとの距離が遠くなるように、特徴空間を学習する。
【0041】
射影部22は、複数のラベル付きデータを学習済みの特徴空間に射影する処理部である。具体的には、射影部22は、特徴生成モデル17の機械学習に利用されたラベル付きデータセット14の各データを、学習済みの特徴生成モデル17に入力し、学習済みの特徴空間に射影する。
【0042】
図10は、特徴空間への射影を説明する図である。
図10に示すように、射影部22は、ラベル付きであるドメインAのデータセットAから各データAを取得して学習済みの特徴空間に射影し、ラベル付きであるドメインCのデータセットCから各データCを取得して学習済みの特徴空間に射影する。なお、
図10における特徴空間で、Aと表記されているのは、ドメインAに属するデータの特徴量であることを示し、Cと表記されているのは、ドメインCに属するデータの特徴量であることを示す。
【0043】
疑似ドメイン生成部23は、複数のラベル付きデータのうち、学習済みの特徴空間における所定の範囲(部分空間)内に含まれるラベル付きデータを統合することにより、ラベル付きデータセットを生成する処理部である。つまり、疑似ドメイン生成部23は、特徴空間上に射影された既知のドメインのラベル付きデータを組み合わせて、疑似的に生成した疑似ドメインのラベル付きデータセットを生成し、新規データセット16として記憶部13に格納する。
【0044】
(手法1)
疑似ドメイン生成部23は、特徴空間の部分空間内の一点から近いk個のラベル付きデータ(k近傍)を統合して、疑似ドメインの新規データセットを生成する。
図11は、ラベル付きデータセットの生成手法1を説明する図である。
図11に示すように、疑似ドメイン生成部23は、射影部22によるラベル付きデータの射影後、特徴空間から任意の点として特徴量A5を選択する。そして、疑似ドメイン生成部23は、特徴量A5から所定距離内にある特徴量A6と特徴量C7を特定する。
【0045】
その後、疑似ドメイン生成部23は、特定された特徴量A5と特徴量A6に対応するデータをドメインAの既存のラベル付きデータセットから取得し、特定された特徴量C7に対応するデータをドメインCの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部23は、任意の点(A5)がドメインAに属するデータであることから、取得した各データを含む疑似ドメインA´のラベル付きデータセットを生成する。
【0046】
(手法2)
疑似ドメイン生成部23は、特徴空間から任意の複数の点を選択し、複数の点それぞれについて、選択された点から所定距離内にある所定個のラベル付きデータを取得して統合することで、複数の点それぞれに対応する各ラベル付きデータセットを生成する。
図12は、ラベル付きデータセットの生成手法2を説明する図である。
図12に示すように、疑似ドメイン生成部23は、射影部22によるラベル付きデータの射影後、特徴空間から任意の点として特徴量A50と特徴量C60とを選択する。
【0047】
そして、疑似ドメイン生成部23は、特徴量A50から所定距離内にある特徴量A51と特徴量C52を特定する。その後、疑似ドメイン生成部23は、特定された特徴量A51と特徴量C52に対応する各データを、ドメインAの既存のラベル付きデータセットとドメインCの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部23は、任意の点(A50)がドメインAに属するデータであることから、取得した各データを含む疑似ドメインA´のラベル付きデータセットを生成する。
【0048】
同様に、疑似ドメイン生成部23は、特徴量C60から所定距離内にある特徴量A61と特徴量C62を特定する。その後、疑似ドメイン生成部23は、特定された特徴量A61と特徴量C62に対応する各データを、ドメインAの既存のラベル付きデータセットとドメインCの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部23は、任意の点(C60)がドメインCに属するデータであることから、取得した各データを含む疑似ドメインC´のラベル付きデータセットを生成する。
【0049】
(手法3)
疑似ドメイン生成部23は、分類モデルへの適用対象である第1のドメインに対応するラベル無しデータセットの各対象データを、学習済みの特徴空間に射影し、学習済みの特徴空間において各対象データから所定の距離内にあるラベル付きデータを統合することで、第1のドメインの疑似ドメインに対応するラベル付きデータセットを生成する。
【0050】
図13、
図14、
図15は、ラベル付きデータセットの生成手法3を説明する図である。
図13に示すように、射影部22によるラベル付きデータの射影後、疑似ドメイン生成部23または射影部22は、評価対象であるラベル無しのドメインDのデータセットDから各データDを取得して学習済みの特徴空間に射影する。なお、
図13では、一例として、3つのデータDを射影した例を示している。
【0051】
続いて、
図14に示すように、疑似ドメイン生成部23は、射影したデータDの特徴量D70から所定距離内にある特徴量A71と特徴量C72を特定し、射影したデータDの特徴量D80から所定距離内にある特徴量A81と特徴量A82を特定し、射影したデータDの特徴量D90から所定距離内にある特徴量C91を特定する。
【0052】
その後、
図15に示すように、疑似ドメイン生成部23は、特定された特徴量A71、A81、A82に対応する各データを、ドメインAの既存のラベル付きデータセットから取得する。また、疑似ドメイン生成部23は、特定された特徴量C72、C91に対応する各データを、ドメインCの既存のラベル付きデータセットから取得する。そして、疑似ドメイン生成部23は、適用対象がドメインDであることから、取得した各データを含む疑似ドメインD´のラベル付きデータセットを生成する。
【0053】
図5に戻り、表示制御部24は、各種情報を表示部12に表示出力する処理部である。例えば、表示制御部24は、疑似ドメイン生成部23により生成された新規データセット16を表示部12に表示出力する。また、表示制御部24は、後述する分析部25により実行された分析結果を表示部12に表示出力する。
【0054】
分析部25は、評価対象のデータセットを評価するために、
図1で説明した分析処理を実行して、既存のデータセットの分析を実行する処理部である。具体的には、分析部25は、複数のラベル付きデータセットを用いて、各データセットの精度や分布差などを算出する。また、分析部25は、ラベル付きデータセットに対応する精度や分布差を用いて、評価対象であるラベル無しデータセットを分類モデルに適用する前に、当該ラベル無しデータセットに対する精度を評価(推定)する。
【0055】
例えば、分析部25は、学習済みの特徴空間を用いて生成された複数のラベル付きデータセット(疑似ドメイン)のうち、重複空間が閾値以下で、学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を分析対象に選択する。
図16は、分析対象の選択例を説明する図である。
図16に示すように、疑似ドメインとして、ドメインA、B、C、D、Eの各データセットが生成されたとする。
【0056】
この場合、分析部25は、特徴空間上で、ドメインAがドメインDとEの2つに重複しており、ドメインBがドメインEの1つに重複しており、ドメインCがドメインDの1つに重複していること特定する。同様に、分析部25は、ドメインDがドメインA、C、Eの3つに重複しており、ドメインEがドメインA、B、Dの3つに重複していることを特定する。
【0057】
この結果、分析部25は、重複数が閾値(2)以下であるドメインA、ドメインB、ドメインCを分析対象に選択する。このとき、分析部25は、特徴空間の被覆率を考慮することもできる。例えば、分析部25は、ドメインAの部分空間で中心となる中心点と中心点から最も離れた端点とを特定し、中心点から端点までの距離を半径とする円の面積により、ドメインAの部分空間の面積を算出する。
【0058】
このようにして、分析部25は、分析候補であるドメインA、ドメインB、ドメインCの各面積を算出し、各面積を合計した合計面積を算出する。そして、分析部25は、合計面積が閾値以上であれば、分析候補をそのまま分析対象に選択し、合計面積が閾値未満であれば、他のドメインをさらに選択することもできる。一方、分析部25は、特徴空間の面積が算出可能な場合や既知の場合には、「被覆率=(合計面積/特徴空間の面積)×100」を算出し、被覆率が閾値以上であれば、分析候補をそのまま分析対象に選択し、被覆率が閾値未満であれば、他のドメインをさらに選択することもできる。
【0059】
また、分析部25は、学習済みの特徴空間を用いて生成された複数のラベル付きデータセットのうち、評価対象である第1のデータセットに基づき生成されたラベル付きデータセットを分析対象に選択することもできる。例えば、
図15の場合、分析部25は、ドメインDが評価対象である場合、ドメインDの各データを射影して生成された疑似ドメインD´を分析対象に選択する。このとき、分析部25は、疑似ドメインD´に含まれる任意のドメインDのデータを削除したり、疑似ドメインD´に含まれない任意の他ドメインのデータを追加したりすることもできる。なお、分析対象は、1つである必要はなく、複数選択することもできる。
【0060】
[処理の流れ]
図17は、処理の流れを示すフローチャートである。ここでは、上記手法3を例にして説明する。
【0061】
図17に示すように、機械学習部21は、処理開始が指示されると(S101:Yes)、複数のドメインの各ラベル無しデータを特徴生成モデル17に入力する(S102)。そして、機械学習部21は、同一ドメインに属するデータ間の距離が小さく、異なるドメインのデータ間の距離が大きくなる距離空間を学習する(S103)。
【0062】
距離空間の学習が完了後、射影部22は、1つ以上のラベル付きデータセットの各ラベル付きデータを特徴生成モデル17に入力して、特徴量を特徴空間へ射影する(S104)。そして、疑似ドメイン生成部23は、評価対象であるドメインのラベル無しデータを特徴生成モデル17に入力して、特徴量を特徴空間へ射影する(S105)。
【0063】
そして、疑似ドメイン生成部23は、学習済みの距離空間において、推定対象ドメインのラベル無しデータの近傍にあるラベル付きデータを疑似ドメインとして収集し(S106)、疑似ドメインのデータセットとして出力する(S107)。
【0064】
[効果]
上述したように、情報処理装置10は、実データから実ドメインに類似する新たなドメインのラベル付きデータを生成することができる。この結果、情報処理装置10は、品質のよいラベル付きデータを用いた分析処理を実行することができ、分析の精度や分析の効率を向上させることができる。
【0065】
また、情報処理装置10は、高コストな人間の介入を行わずに、入手が容易なラベル無しデータから実データに即したドメインのラベル付きデータを生成することができるので、コストを削減しつつ、分析の精度や分析の効率を向上させることができる。また、情報処理装置10は、特徴生成モデル17の機械学習を実行することで特徴空間を学習するので、短時間かつ高精度を両立した特徴空間を生成することができる。
【0066】
また、情報処理装置10は、学習済みの特徴空間から任意の点を選択し、任意の点から所定距離内にある所定個のラベル付きデータを統合したラベル付きデータセットを生成することができるので、任意の点の選択手法により、ユーザニーズに適したラベル付きデータセットを生成することができる。また、情報処理装置10は、学習済みの特徴空間から任意の複数の点を選択し、複数のラベル付きデータセットを生成することができるので、分析対象のラベル付きデータセットを高速に複数生成することができる。
【0067】
また、情報処理装置10は、評価対象のドメインに対応するラベル無しデータセットの各対象データを学習済みの特徴空間に射影する。そして、情報処理装置10は、学習済みの特徴空間において各対象データから所定の距離内にあるラベル付きデータを統合することで、疑似ドメインに対応するラベル付きデータセットを生成することができる。この結果、情報処理装置10は、評価対象に類似するデータを用いて、精度の分析を実行することができるので、分析の信頼性を向上させることができる。
【0068】
また、情報処理装置10は、複数のラベル付きデータセットのうち、重複空間が閾値以下で、学習済みの特徴空間の被覆率が閾値以上となるラベル付きデータセットの集合を分析対象に選択することができる。この結果、情報処理装置10は、特徴空間全体を網羅した疑似ドメインを生成することができるので、分析精度も向上させることができる。
【実施例2】
【0069】
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
【0070】
[データや数値等]
上記実施例で用いたデータ例、数値例、閾値、表示例、特徴空間の次元数、ドメイン名、ドメイン数等は、あくまで一例であり、任意に変更することができる。また、訓練データとして画像データを用いた画像分類以外にも、音声や時系列データの分析などにも用いることができる。
【0071】
[分析処理]
上記実施例では、情報処理装置10が分析処理を実行する例を説明したが、これに限定されるものではなく、情報処理装置10以外の他の装置が、分析結果を用いて分析処理を実行することもできる。また、分析処理の内容も一例であり、公知の他の分析手法を採用することができる。
【0072】
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、機械学習部21は、機械学習部の一例であり、疑似ドメイン生成部23は、生成部の一例である。
【0073】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0074】
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0075】
[ハードウェア]
図18は、ハードウェア構成例を説明する図である。
図18に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、
図18に示した各部は、バス等で相互に接続される。
【0076】
通信装置10aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD10bは、
図5に示した機能を動作させるプログラムやDBを記憶する。
【0077】
プロセッサ10dは、
図5に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、
図5等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、機械学習部21、射影部22、疑似ドメイン生成部23、表示制御部24、分析部25等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、機械学習部21、射影部22、疑似ドメイン生成部23、表示制御部24、分析部25等と同様の処理を実行するプロセスを実行する。
【0078】
このように、情報処理装置10は、プログラムを読み出して実行することで生成方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
【0079】
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
【符号の説明】
【0080】
10 情報処理装置
11 通信部
12 表示部
13 記憶部
14 ラベル付きデータセット
15 ラベル無しデータセット
16 新規データセット
17 特徴生成モデル
20 制御部
21 機械学習部
22 射影部
23 疑似ドメイン生成部
24 表示制御部
25 分析部