IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧 ▶ ルノー エス.ア.エス.の特許一覧

特許7483431データ分類装置、データ分類方法、およびプログラム
<>
  • 特許-データ分類装置、データ分類方法、およびプログラム 図1
  • 特許-データ分類装置、データ分類方法、およびプログラム 図2
  • 特許-データ分類装置、データ分類方法、およびプログラム 図3
  • 特許-データ分類装置、データ分類方法、およびプログラム 図4
  • 特許-データ分類装置、データ分類方法、およびプログラム 図5
  • 特許-データ分類装置、データ分類方法、およびプログラム 図6
  • 特許-データ分類装置、データ分類方法、およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-07
(45)【発行日】2024-05-15
(54)【発明の名称】データ分類装置、データ分類方法、およびプログラム
(51)【国際特許分類】
   G06N 20/20 20190101AFI20240508BHJP
   G06N 20/00 20190101ALI20240508BHJP
【FI】
G06N20/20
G06N20/00 130
【請求項の数】 6
(21)【出願番号】P 2020049855
(22)【出願日】2020-03-19
(65)【公開番号】P2021149640
(43)【公開日】2021-09-27
【審査請求日】2022-11-08
(73)【特許権者】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(73)【特許権者】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】110002468
【氏名又は名称】弁理士法人後藤特許事務所
(72)【発明者】
【氏名】広瀬 悟
(72)【発明者】
【氏名】高木 徹
【審査官】山本 俊介
(56)【参考文献】
【文献】特開2004-054567(JP,A)
【文献】行縄直人ほか,二値分類器組み合わせの確率モデルに基づく多クラスパターン識別,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2005年03月23日,Vol.104,No.760,pp.165-170
【文献】輪島幸治ほか,潜在的ディリクレ配分法を用いたネガティブ要因分析,第6回データ工学と情報マネジメントに関するフォーラム(第12回日本データベース学会年次大会),日本,電子情報通信学会データ工学研究専門委員会,日本データベース学会,情報処理学会データベースシステム研究会,2014年05月03日,DEIM Forum 2014 A9-3
【文献】@TsutomuNakamura(Tsutomu Nakamura),ROC曲線とAUCを用いて2値分類機械学習モデルの性能を計測・チューニングする,Qiita [online],2019年05月05日,https://qiita.com/TsutomuNakamura/items/ef963381e5d2768791d4,[2023年10月10日検索]
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
所定製品の否定的評価に関する入力データを三つ以上の重要度に分類するデータ分類装置であって、
前記入力データを取得する取得部と、
前記入力データを前記重要度のいずれかに分類する分類部と、
前記分類部により分類された結果を出力する出力部と、を備え、
前記分類部は三つ以上の前記重要度相互排他的に二つのグループに別ける異なる順列の組み合わせ毎に対応して生成された複数の機械学習モデルと複数の前記機械学習モデルの出力値を合成する合成部と、を備え前記入力データを複数の前記機械学習モデルのそれぞれに入力することにより当該入力データを前記重要度のいずれかに分類するように構成され、
前記機械学習モデルは、前記入力データが入力された際に、前記二つのグループに分類された分類済み入力データを出力するように、教師データを用いた学習処理が施された学習済みモデルであって、前記入力データを前記二つのグループに分類する際の閾値を調整可能に構成され、ユーザにより調整された前記閾値に従って前記入力データを前記二つのグループに分類し、
前記合成部は、複数の前記機械学習モデルからそれぞれ出力される前記分類済み入力データを合成して、前記入力データを前記重要度のいずれかに分類する、
データ分類装置。
【請求項2】
請求項に記載のデータ分類装置であって、
前記機械学習モデルは、前記分類済み入力データをベクトル値として出力するように構成され、
前記合成部は、複数の前記機械学習モデルからそれぞれ出力される前記ベクトル値のベクトル和を算出し、当該ベクトル和に応じて前記入力データを前記重要度に分類する、
データ分類装置。
【請求項3】
請求項1または2に記載のデータ分類装置であって、
前記教師データは、
前記三つ以上の前記重要度のいずれに該当し、且つ、前記二つのグループのいずれに該当するか識別可能な教師ラベルが付与された前記入力データである、
データ分類装置。
【請求項4】
請求項に記載のデータ分類装置であって、
前記閾値を調整するための調整画像を出力する画像出力部をさらに備え、
前記調整画像は、
複数の前記機械学習モデルのそれぞれの分類性能に関する第1の情報と、
前記合成部の分類性能に関する第2の情報と、の少なくとも一方を表示する画像であって、
前記第1の情報および前記第2の情報は、前記ユーザによる前記閾値の調整具合に応じて変化する、
データ分類装置。
【請求項5】
複数の機械学習モデルを用いて、所定製品の否定的評価に関する入力データを三つ以上の重要度に分類するデータ分類方法であって、
前記入力データを取得する取得ステップと、
前記入力データを前記重要度のいずれかに分類する分類ステップと、
前記分類ステップで分類された結果を出力する出力ステップと、を含み、
前記機械学習モデルは、三つ以上の前記重要度相互排他的に二つのグループに別ける複数の異なる順列の組み合わせ毎に対応して生成され、前記入力データが入力された際に当該入力データを対応する前記組み合わせに係る前記二つのグループに分類して出力するように、教師データを用いた学習処理が施された学習済みモデルであって、前記入力データを前記二つのグループに分類する際の閾値を調整可能に構成され、ユーザにより調整された前記閾値に従って前記入力データを前記二つのグループに分類し、
前記分類ステップでは、
前記機械学習モデルのそれぞれに前記入力データを入力し、
複数の前記機械学習モデルからそれぞれ出力される前記二つのグループに分類された分類済み入力データを合成して、前記入力データを三つ以上の前記重要度のいずれかに分類する、
データ分類方法。
【請求項6】
数の機械学習モデルを用いて所定製品の否定的評価に関する入力データを三つ以上の重要度に分類する処理をコンピュータに実行させるデータ分類プログラムであって、
前記入力データを取得する取得ステップと、
前記入力データを前記重要度のいずれかに分類する分類ステップと、
前記分類ステップで分類された結果を出力する出力ステップと、実行させ、
前記機械学習モデルは、三つ以上の前記重要度相互排他的に二つのグループに別ける複数の異なる順列の組み合わせ毎に対応して生成され、前記入力データが入力された際に当該入力データを対応する前記組み合わせに係る前記二つのグループに分類して出力するように、教師データを用いた学習処理が施された学習済みモデルであって、前記入力データを前記二つのグループに分類する際の閾値を調整可能に構成され、ユーザにより調整された前記閾値に従って前記入力データを前記二つのグループに分類し、
前記分類ステップでは、
前記機械学習モデルのそれぞれに前記入力データを入力し、
複数の前記機械学習モデルからそれぞれ出力される前記二つのグループに分類された分類済み入力データを合成して、前記入力データを三つ以上の前記重要度のいずれかに分類する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分類装置、データ分類方法、およびプログラムに関する。
【背景技術】
【0002】
特許文献1には、機械学習モデルを用いてオブジェクトにスコアを提供する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2013-541085号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、所定のオブジェクトを複数の所定種別に分類する場合に、分類する各所定種別の重要度を変更したい場合がある。例えば、機械学習モデルを用いて所定のオブジェクトをA~Cの3つの種別に分類する際に、Aを見逃すことは許容しないが、B、Cを少々見逃すことは許容するといったように、分類時の各所定種別の重要度を調整したい場合がある。
【0005】
しかしながら、特許文献1に開示された技術では、二分木(バイナリツリー)とそのノードの確率を用いてオブジェクトにスコアを提供しているものの、分類時の各所定種別毎の重要度を調整することはできない。
【0006】
本発明は、機械学習モデルを用いて対象を複数の所定種別に分類する場合に、分類する所定種別毎の重要度を調整することができる技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一実施形態によるデータ分類装置は、所定製品の否定的評価に関する入力データを三つ以上の重要度に分類するデータ分類装置である。データ分類装置は、入力データを取得する取得部と、入力データを重要度のいずれかに分類する分類部と、分類部により分類された結果を出力する出力部と、を備える。分類部は、三つ以上の重要度相互排他的に二つのグループに別ける異なる順列の組み合わせ毎に対応して生成された複数の機械学習モデルと、複数の機械学習モデルの出力値を合成する合成部と、を備え、入力データを複数の前記機械学習モデルのそれぞれに入力することにより当該入力データを重要度のいずれかに分類するように構成される。機械学習モデルは、入力データが入力された際に、二つのグループに分類された分類済み入力データを出力するように、教師データを用いた学習処理が施された学習済みモデルであって、入力データを二つのグループに分類する際の閾値を調整可能に構成され、ユーザにより調整された閾値に従って入力データを二つのグループに分類する。そして、合成部は、複数の機械学習モデルからそれぞれ出力される分類済み入力データを合成して、入力データを重要度のいずれかに分類する。
【発明の効果】
【0008】
本発明によれば、入力データを三つ以上の所定種別に分類する場合に、当該所定種別を異なる組み合わせで二つのグループに別けるように構成された複数の機械学習モデルを用いて分類するので、例えば、機械学習モデル毎に分類時の閾値を変更する等することで、分類する所定種別の重要度を調整することが可能となる。
【図面の簡単な説明】
【0009】
図1図1は、一実施形態のデータ分類装置の概略構成図である。
図2図2は、機械学習モデル生成処理のフローを説明する図である。
図3図3は、データ分類処理のフローを説明する図である。
図4図4は、一実施形態の閾値調整機能を実現する表示画面例である。
図5図5は、一実施形態の合成アルゴリズムによる分類結果を示す表示画面例である。
図6図6は、変形例の閾値調整機能を実現する表示画面例である。
図7図7は、変形例の合成アルゴリズムによる分類結果を示す表示画面例である。
【発明を実施するための形態】
【0010】
[実施形態]
図1は、本発明の一実施形態に係るデータ分類装置10の構成例を示す概略構成図である。データ分類装置10は、所定製品の評価に関するデータを分類するように構成される。本実施形態において、ここでの所定製品は例えば車両である。本実施形態のデータ分類装置10は、例えば各地の自動車ディーラにて作成された、車両の特に品質に関する評価データを所定種別に分類するように構成される。また、ここでの所定種別は、例えば評価データの重要度である。
【0011】
図1に示すように、本実施形態のデータ分類装置10は、コントローラ1と、データベース2と、表示手段3と、を含んで構成される。
【0012】
コントローラ(コンピュータ)1は、2クラス分類データ生成部11、2クラス分類モデル生成部12、閾値調整部13、閾値調整・モデル性能表示部14、2クラス分類モデル合成部15、新規不満情報取得部16、データ変換部17、新規不満情報演算結果表示部18、及び合成アルゴリズム格納部19等の機能部を有する。コントローラ1が有する各機能部の詳細については後述する。
【0013】
コントローラ1は、例えば、中央演算装置(CPU)、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、および、入出力インタフェース(I/Oインタフェース)から構成される。また、コントローラ1が備えるROMには、前述の各機能部がそれぞれに有する各機能を実行するためのプログラムが格納されている。換言すれば、コントローラ1は、記憶媒体として備わるROMに格納された各種プログラムを実行することによって、2クラス分類データ生成部11、2クラス分類モデル生成部12、閾値調整部13等の各機能部の機能を実現するように構成される。ただし、各機能部のすべての機能は、必ずしもコントローラ1によって実現される必要はなく、機能部毎に適宜選択された複数のコントローラによって実現されるように構成されてもよい。
【0014】
データベース2は、車両の品質に関わる情報が格納されるデータベースである。データベース2は、自動車ディーラ等において過去に報告された不具合や品質等に関する不満等の否定的評価に係る情報(不満情報)が記憶される記憶媒体として構成される。本実施形態では、これらの不満情報がテキストデータとして記憶されている。なお、データベース2は、必ずしもデータ分類装置10の一要素として構成される必要はない。データベース2は、データ分類装置10の外部における任意の場所に設置されたサーバ(又は、インターネットのクラウド上に設けられたクラウドサーバ)に設けられてもよい。この場合には、コントローラ1は、不図示のネットワーク回線等を介して当該サーバにアクセスして、サーバに格納された上記のテキストデータを無線通信により適時に取得可能に構成されてよい。また、データベース2は、コントローラ1が備える記憶媒体として構成されてもよい。
【0015】
データベース2に記憶されているテキストデータ化された不満情報には、所定種別に従って分類されたランクデータが付与される。ここでの所定種別は、例えば製品の品質に関する影響度(重要度)の大小による区分であってよい。例えば本実施形態では、ランクAが付与された不満情報は製品の品質に対する影響が大きい、ランクBが付与された不満情報は品質に対する影響が中程度、ランクCが付与された不満情報は品質に対する影響が低いといった具合に、製品の品質への影響度の大きさに応じてランクA~Cに係る三つの所定種別が付与される。このようなランクデータはいわゆる教師ラベルとして、テキストデータ化された各不満情報にそれぞれ付与される。教師ラベルが付与されることにより、各不満情報の影響度を識別することができる。なお、製品が車両である場合には、例えば法規的な問題や安全性に直結するような不満情報に対して、製品の品質に関して影響度が高いことを示す教師ラベルが付与される傾向がある。
【0016】
以下では、コントローラ1が有する各機能部について説明する。
【0017】
2クラス分類データ生成部11(以下単に「データ生成部11」とも称する)は、教師ラベルが付与されることにより三つの所定種別(クラスA~C)に分類された不満情報を、2クラス分類データに生成し直す。そのために、データ生成部11は、まず、三つの所定種別を二つのクラス(グループ)に別ける複数の異なる組み合わせを設定する。また、ここでの組み合わせは順列な組み合わせとする。例えば、ランクA~Cの所定種別を二つのグループに別ける際の異なる順列の組み合わせとして、AB/C、および、A/BCが設定される。以下では、ABとCの組み合わせによる二つのグループをクラスAB/Cと称し、AとBCの組み合わせによる二つのグループをクラスA/BCと称する。なお、AC/Bは順列ではないので設定されない。
【0018】
そして、データ生成部11は、クラスAB/Cに分類された不満情報により構成される 機械学習用データ(以下、「機械学習用データA」と称する)と、クラスA/BCに分類された不満情報により構成される機械学習用データ(以下、「機械学習用データB」と称する)と、にかかる2種類の機械学習用データを生成する。具体的には、例えば、各不満情報がいずれのグループに所属するかを識別できるように、各不満情報に付与されたクラスA~Cのいずれかに係る教師ラベルの分割位置が変更されるか、もしくは当該所属を識別可能な新たな教師ラベルがさらに付与される。これにより、コントローラ1は、教師ラベルが付与された各不満情報が、ランクA~Cのいずれに該当するかを識別できるとともに、2クラス分類されたいずれのグループ(機械学習用データAにおけるABグループまたはCグループ、或いは、機械学習用データBにおけるAグループまたはBCグループ)に所属するかを識別することが可能となる。
【0019】
2クラス分類モデル生成部12(以下単に「モデル生成部12」とも称する)は、所定の入力データ(不満情報)を上述の二つのグループのいずれかに分類(2クラス分類)する機械学習アルゴリズム(機械学習モデル)を生成する。より具体的には、モデル生成部12は、データ生成部11が生成した2種類の機械学習用データにそれぞれ対応する機械学習モデルを二つ生成する。
【0020】
本実施形態のモデル生成部12は、機械学習用データAに対応する機械学習モデルAと、機械学習用データBに対応する機械学習モデルBとを生成する。より詳細には、モデル生成部12は、上述の教師ラベルが付された不満情報を入力とし、2クラス分類された不満情報(分類済み入力データ)を出力するように教師データに基づく機械学習(教師あり学習)が施された機械学習モデルAと機械学習モデルBとを生成する。機械学習モデルAおよび機械学習モデルBに適用される機械学習アルゴリズムとしては、例えば、SVM(サポートベクターマシン)、GLM(一般化線形回帰モデル)、決定木(Decision Tree)、ランダムフォレスト(random forest)、GBT(勾配ブーステッドツリー)、およびDL(ディープラーニング)等から適宜選択されてよい。また、必ずしもこれらに限らず、教師データを用いた機械学習(教師あり学習)が行えるアルゴリズムであれば、他の機械学習アルゴリズムが選択されてもよい。ただし、予測性能(分類性能)がより高いアルゴリズムが適用されることが望ましい。
【0021】
各機械学習アルゴリズムの予測性能は、各機械学習アルゴリズムを用いた場合における、予測精度(Accuracy)、見逃し率(Recall)、正解率(Precision)、および、ROC曲線(Receiver Operating Characteristic curve)のAUC(Area Under the Curve)等の評価項目の一つ、又は複数の組み合わせをそれぞれ算出することにより比較することができる。また、機械学習モデルAおよび機械学習モデルBは、必ずしも同じ機械学習アルゴリズムが適用される必要はなく、それぞれ異なる機械学習アルゴリズムが適用されてもよい。例えば本実施形態においても、機械学習モデルAと機械学習モデルBの予測性能が最も高い機械学習アルゴリズムが必ずしも同じになるとは限らない。入力データの内容および出力値の内容(分類内容)の少なくとも一方に違いがある限り、それらとの相性によってより適切な機械学習アルゴリズムは相違し得る。従って、本実施形態においても、機械学習モデルAと機械学習モデルBとに対して上述の各機械学習アルゴリズムを適用するとともにその予測性能を別個に評価したうえで、予測性能が最も高い機械学習アルゴリズムがそれぞれに適用されるのが望ましい。
【0022】
閾値調整部13は、複数の機械学習モデルが入力されるデータを上述の2クラスに分類する際の閾値を調整するために構成される。本実施形態の閾値調整部13は、ROC曲線のAUCおよび、交差検証(cross-validation)等の少なくとも一つを用いて機械学習モデルA、Bそれぞれの閾値を個別に調整するように構成されてよい。なお、当該閾値は、データ分類装置10の運用内容に応じて、ユーザの判断により適宜調整されてよい。当該閾値は、例えば、所定の入力データを2クラスに分類する際に、ランクA~Cの重要度に応じて求められる偽陽性率又は真陽性率を満足するように設定されてよい。
【0023】
閾値調整・モデル性能表示部14は、閾値調整部13による閾値調整をユーザが指示するためのユーザインターフェイス(UI)、或いは、閾値調整部13が行った閾値の調整内容および調整された閾値による予測性能等を表示する画像を表示手段3に表示するための機能部として構成される。表示手段3に表示される内容の詳細については図4を参照して後述する。
【0024】
2クラス分類モデル合成部15(以下単に「モデル合成部15」とも称する)は、複数の機械学習モデルの出力値を合成(結合)するために構成される。より具体的には、モデル合成部15は、モデル生成部12が生成した複数の機械学習モデルの出力値を入力とし、当該出力値に基づいて、三つ以上の所定種別(ランクA~C)に分類された所定の入力データ(不満情報)を出力するように構成される。モデル合成部15の詳細については後述する。
【0025】
合成アルゴリズム格納部19は、モデル生成部12で生成された複数の機械学習モデルとモデル合成部15とから構成される合成アルゴリズムが格納される記憶媒体として構成される。なお、上述の合成アルゴリズムが記憶された合成アルゴリズム格納部19は、入力データを三つ以上の所定種別に分類するデータ分類処理を実行する分類部として機能する。
【0026】
新規不満情報取得部16は、例えば自動車ディーラ等において報告された不具合や品質等に関する不満などの情報(不満情報)を取得する。本実施形態の新規不満情報取得部16は、前述のデータベース2に記憶された過去の不満情報ではなく、自動車ディーラ等において新規に報告された新しい不満情報をテキストデータとして取得する。なお、このような不満情報は、例えば、規定されたフォーマットに従って作成された品質報告書に記載された内容であって、自動車ディーラ等から収集される。
【0027】
データ変換部17は、新規不満情報取得部16が取得したテキストデータを機械学習アルゴリズムにより処理できるようにデータ変換する。本実施形態のデータ変換部17は、テキストデータをベクトルとして数値化する。ベクトル化された新規の不満情報は、合成アルゴリズム格納部19に格納された合成アルゴリズムに入力される。
【0028】
新規不満情報演算結果表示部18は、合成アルゴリズムによる処理結果を表示手段3に表示するための機能部として構成される。ここでの処理結果は、3クラス分類の結果であって、例えば、新規な不満情報に付与されたランクA~Cのいずれかである。新規不満情報演算結果表示部18が表示する表示内容の詳細については図5を参照して後述する。
【0029】
表示手段3は、ユーザに情報を表示する手段として構成される。本実施形態の表示手段3は、例えば液晶ディスプレイや有機ELディスプレイ等であってよい。また、表示手段3は、データ分類装置10のユーザインターフェイスとして機能するように、上述の閾値調整時等にユーザの指示の受け付けが可能な、いわゆるタッチパネルディスプレイであることが望ましい。
【0030】
以上が本実施形態のデータ分類装置10の構成である。以下では、データ分類装置10によるデータ分類方法の流れについて図2および図3を参照して説明する。まず先に、機械学習モデルAと機械学習モデルBとを生成するために実行される機械学習モデル生成処理について説明する。
【0031】
図2は、本実施形態のデータ分類装置10が実行する機械学習モデル生成処理を説明するフローチャートである。当該フローチャートで説明される処理は、上述の教師ラベルが付与された過去の不満情報(教師データ)を用いたいわゆる教師あり学習を実行するための処理である。また、ここで説明する機械学習モデル生成処理では、機械学習モデルAおよびBを生成するだけでなく、生成した機械学習モデルAおよびBを含む合成アルゴリズムも生成される。以下に説明するフローは、データ分類装置10が起動している間に、又は、データ分類装置10が起動している間であって且つユーザにより機械学習モデル生成処理を実行することを指示されて以降に、所定の間隔で常時実行されるようにコントローラ1にプログラムされている。
【0032】
ステップS10では、コントローラ1は、分類対象(入力データ)を三つ以上の所定種別に分類するか否か、すなわち、三種以上のマルチクラス分類を実行するか否かを判定する。上述したように、本実施形態における分類対象として例示したのは車両に関する不満情報であって、分類する所定種別はランクA~Cにかかる三つの品質ランクである。よって、コントローラ1は、分類対象の所定種別が三つ以上であると判定して続くステップS11の処理を実行する。他方、コントローラ1は、分類対象の所定種別が三つ未満(2クラス分類)の場合には、データ分類装置10による機械学習モデル生成処理は実行しないと判断して、機械学習モデル生成処理を終了する。なお、コントローラ1は、例えばユーザに上述のUI等を介して設定される所定種別の数に基づいて、当該所定種別の数が三つ以上か否かを確認するように構成されてよい。
【0033】
ステップS11では、コントローラ1は、教師データに基づいて順列の2クラス分類データを生成する。そのために、先ず、コントローラ1は、データベース2から、教師ラベルとして品質ランクが付与された不満情報(教師データ)を取得する。上述したように、不満情報には、重要度に応じてランクA~Cの3種類の順列のランクが付与されている。よって、コントローラ1(データ生成部11)は、ランクA~Cのいずれかの教師ラベルが付与された不満情報を二つのグループに別ける複数の異なる組み合わせを設定する。具体的には、データ生成部11は、クラスAB/Cに分類された機械学習用データAと、クラスA/BCに分類された機械学習用データBと、にかかる2種類の機械学習用データを生成する。2種類の機械学習用データが生成されると、続くステップS12の処理が実行される。なお、後述のモデル合成部15によって出力値が合成されることを考慮して、この2種類の機械学習用データは、教師ラベルにより識別される情報を除いて、同じデータ、且つ、同数のデータであることが望ましい。
【0034】
ステップS12では、コントローラ1(モデル生成部12)は、データ生成部11が生成した複数の機械学習用データのそれぞれに対応する複数の機械学習モデルを生成する。具体的には、モデル生成部12は、機械学習用データAに対応する機械学習モデルAと、機械学習用データBに対応する機械学習モデルBとを生成する。生成された機械学習モデルAおよび機械学習モデルBの詳細については上述した通りである。すなわち、本ステップにおいて生成される機械学習モデルAおよびBは、教師あり学習が可能な機械学習アルゴリズムが適用された学習モデルであって、データベース2に蓄積された教師データを用いた学習処理が施されることによって、適用された機械学習アルゴリズムを構成する各ノードのパラメータが最適化される。例えば、適用される機械学習アルゴリズムがニューラルネットワークを含む場合には、当該学習処理によってニューラルネットワークの隠れ層を構成する各ノードの重みづけ係数が最適化される。これにより、コントローラ1は、不満情報を入力とし、当該不満情報を順列の2クラスに分類した分類結果を出力するように、教師データを用いた学習処理が施された学習済みモデルとしての複数の異なる機械学習モデルを生成することができる。機械学習モデルAおよびBが生成されると、続くステップS13の処理が実行される。
【0035】
ステップS13では、コントローラ1(閾値調整部13)が、機械学習モデルAおよびBの閾値調整を行う。そのために、先ず、コントローラ1(閾値調整・モデル性能表示部14)は、表示手段3をユーザが閾値調整を行うためのユーザインターフェイスとして機能させるための画像を表示手段3に表示する。表示手段3に表示される画像例を図4に示す。
【0036】
図4は、データ分類装置10のユーザインターフェイス(以下「UI」と称する)の一例を説明する図である。太線の長方形枠内が表示手段3に表示される表示画面を示す。また、図中の両矢印(イ)の範囲に示される表示部分が、主にユーザが閾値調整をするために表示される画像である。図示するように、本実施形態のUIは、クラスA/BCに係る機械学習用データAを2クラス分類する機械学習モデルAを「A/BCモデル」とし、クラスAB/Cに係る機械学習用データBを2クラス分類する機械学習モデルBを「AB/Cモデル」として示し、これら機械学習モデルの閾値をユーザが別個に調整できるように構成されている。
【0037】
本実施形態における閾値調整は、表示画面の略中央に示すグラフをユーザが操作することによって行えるように構成されている。当該グラフ(以下「閾値調整用グラフ」とも称する)は、ROC曲線のグラフ描画であって、縦軸がTP(True Positive)、横軸がFP(False Negative)を表している。この表示画面は、ユーザが、例えば、閾値調整用グラフ中に水平な線で示されているTPを調整する線を上下に、又は、垂直な線で示されているFPを調整する線を左右に移動させることによってROC曲線上の閾値を調整することができるように構成されている。それ以外の方法として、例えば、予測精度や見逃し数のいずれかの数値を入力すると、それに対応する垂地、水平線がROC曲線状で移動するようにしてもよい。
【0038】
また、図示する表示画面では、ユーザによる閾値調整の度合いに応じて算出される予測性能が各閾値調整用グラフの右横に表示されている。図では、ユーザによる閾値調整の結果、機械学習モデルAの予測性能は、予測精度が90%、見逃し率が10%となることが示され、機械学習モデルBの予測性能は、予測精度が80%、見逃し率が20%となることが示されている。また、前述のように予測精度と見逃し率のいずれかに数値を入れると、その結果に応じてグラフの垂値、水平線の位置が変更されるとともに、入力されていない項目側の数値の結果が自動的に入力されるようになっている。なお、機械学習モデルAおよびBに学習処理を施す際における閾値は、必ずしも予測性能をできる限り高くするように調整される必要はない。ここでの閾値は、例えば過学習を避けること等を考慮して若干低めの予測性能を実現する閾値とする等、最終的に予測性能の高い学習済みモデルを生成できるように適宜調整されることが望ましい。
【0039】
このように、本実施形態のデータ分類装置10は、閾値調整機能によって複数の機械学習モデルの閾値を別個に調整することが可能となるように構成されている。これにより、データ分類装置10は、分類対象となる入力データを2クラスに分類する際において、当該2クラス分類の組み合わせ毎の予測性能を調整することができる。つまり、本実施形態のデータ分類装置10によれば、機械学習モデルAによるクラスA/BCの2クラス分類の予測性能が高くなるように閾値を調整することによって、重要度の最も高いクラスAの見逃し率を極力小さくするように設定することができる。また、同様に、機械学習モデルBによるクラスAB/Cの2クラス分類の閾値を調整することによって、クラスBがクラスCと誤認される可能性を極力小さくするように設定することができる。すなわち、本実施形態のデータ分類装置10は、機械学習モデルが2クラス分類する際の組み合わせに応じて予測性能を個別に調整することが可能であるため、各所定種別(クラスA~C)の見逃し率等を別個に調整することができる。
【0040】
このようにして機械学習モデルA、Bのそれぞれの閾値が調整されると、続くステップS14の処理が実行される。
【0041】
図2のステップS14では、コントローラ1(モデル合成部15)は、ステップS12で生成された複数の機械学習モデルの出力値(分類済み入力データ)を合成することによって、入力された不満情報の分類結果を算出する。本実施形態のモデル合成部15は、機械学習モデルAによるクラスA/BCの2クラス分類の結果と、機械学習モデルBによるクラスAB/Cの2クラス分類の結果とを合成する。なお、本実施形態の機械学習モデルAおよびBの出力はベクトル値とする。よって、本実施形態のモデル合成部15は、機械学習モデルAおよびBの出力値(ベクトル)を入力とし、これらベクトルの線形結合(線形和、ベクトル和)を算出することで合成するように構成される。モデル合成部15がベクトルの線形結合により各機械学習モデルの出力値を合成するように構成されることで、3つ以上の所定種別を分類する場合に、当該所定種別の数(N)がより大きくなり、当該数引く一個、すなわちN-1個の機械学習モデルが生成されたとしてもこれらの出力値を容易に合成することができる。
【0042】
また、機械学習モデルAおよびBと、機械学習モデルAおよびBの出力値を入力してこれら出力値を合成した値を出力するモデル合成部15とから構成される合成アルゴリズムは、合成アルゴリズム格納部に分類器として記憶される。
【0043】
図4の両矢印(ロ)で示す部分は、モデル合成部15によるモデル合成結果を説明する図である。図示するように、本実施形態のモデル合成部15による合成結果は、縦軸(Y軸)にクラスA/BCの分類結果、横軸(X軸)にクラスAB/Cの分類結果を示す2次元のグラフ(合成結果グラフ)に表される。ここでの合成結果グラフは、機械学習モデルAおよびBのそれぞれの閾値に応じて4象限に分割されている。図示するように、モデル合成部15の合成結果によれば、円いポイントで示すクラスAは全て左上の象限に含まれており、一切見逃されていないことが分かる。また、三角のポイントで示すクラスBは、Aに誤認されるものがある一方で、クラスCには一切誤認されていないことが分かる。なお、図4には示されていないが、クラスA、B、およびCのいずれにも該当しない不満情報は右上の象限に入ることになる。合成結果として右上の象限に入る不満情報があった場合には、これをノイズとして除去したり、信頼度の低い怪しいデータとしてラベルを付与したり、最も見逃したくないクラスAである可能性があるとしてクラスAのラベルを付与したりする等してよく、状況に応じて適宜対応することができる。
【0044】
また、図4に示す表示例にあるように、モデル合成部15の合成結果として、図4の両矢印(ロ)に示すような所定種別の見逃し優先順位が示されていてもよい。ここで示される優先順位は、機械学習モデルAおよびBの閾値調整に連動して変更されるようになっており、各閾値調整用グラフの横に表示された見逃し件数や、見逃し率が反映されてよい。
【0045】
このようにして、機械学習モデルAおよびB、並びに、機械学習モデルAおよびBと、モデル合成部15とから構成される合成アルゴリズムが生成されると、機械学習モデル生成処理は終了する。
【0046】
続いて、データ分類装置10によるデータ分類方法であって、機械学習モデル生成処理によって生成された合成アルゴリズムを用いて新規の不満情報を自動で分類するデータ分類処理について説明する。
【0047】
図3は、本実施形態のデータ分類装置10が実行するデータ分類処理を説明するフローチャートである。
【0048】
ステップS20では、コントローラ1(新規不満情報取得部16)は、クラスA~Cのいずれかに分類(3クラス分類)するための新規の不満情報をテキストデータで取得する取得ステップを実行する。当該不満情報には、学習処理に用いた不満情報には付与されていた教師ラベルが当然付与されていない。新規の不満情報のテキストデータが取得されると、続くステップS21の処理が実行される。
【0049】
ステップS21では、コントローラ1(データ変換部17)は、取得したテキストデータをベクトル値に変換する。より詳細には、データ変換部17は、取得したテキストデータに形態素解析、品詞分析、及び、複合語処理等の前処理を施すことによって、当該テキストデータをベクトル値に変換する。変換されたベクトル値は、例えば図5の両矢印(ハ)部分に示すように表される。
【0050】
図5は、新規不満情報演算結果表示部18により表示手段3に表示される画像を説明する図である。太線の長方形枠内が表示手段3に表示される表示画面例を示している。そして、図中の両矢印(ハ)には、テキストデータ例と、これがベクトル化された結果が示されている。図示するように、変換されたベクトル値は、例えば、単語(ナビ、画面、映らない等)とその単語の出現数とを組み合わせた値であってよい。ただし、変換されたベクトル値はこれに限らず、空間距離やクラスタ分析等の文章の意味を数値で理解可能なベクトル等であってもよい。或いは、上記テキストデータは必ずしもベクトル値に変換される必要はなく、機械学習モデルが処理可能な数値表現であることを前提に他の形式に変換されてもよい。テキストデータが適切な数値表現に変換されると、続くステップS22の処理が実行される。
【0051】
ステップS22では、コントローラ1(合成アルゴリズム)は、ベクトル値に変換された新規な不満情報を入力して、入力された不満情報がいずれのクラスであるかを演算し、当該不満情報が該当する所定種別(クラスA、B、又はC)を演算結果として出力する分類ステップを実行する。なお、ここでの演算時における機械学習モデルAおよびBのそれぞれの閾値は、上述のステップS13で調整された閾値が維持されていてもよいし、コントローラ1が起動してから遅くても当該ステップS22が実行される前に、表示手段3に表示されるUIを介してユーザに新たに設定された閾値であってもよい。演算結果が出力される出力ステップが実行されると、当該演算結果を表示するために続くステップS23の処理が実行される。
【0052】
ステップS23では、コントローラ1(新規不満情報演算結果表示部18)は、合成アルゴリズムによる演算結果を表示手段3に表示する。
【0053】
合成アルゴリズムによる演算結果は、図5の特に両矢印(二)の表示範囲に示されている。また、両矢印(二)の表示範囲における左側の領域には、入力された一の不満情報に対する機械学習モデルAおよびBの演算結果がそれぞれ表示されている。当該演算結果によれば、クラスA/BCに2クラス分類する機械学習モデルAは、当該不満情報はクラスBCに該当すると判定し(BC判定)、クラスAB/Cに2クラス分類する機械学習モデルBは、当該不満情報はクラスABに該当すると判定(AB判定)したことが分かる。
【0054】
この場合、モデル合成部15は、機械学習モデルAおよびBの演算結果を合成した結果、入力された不満情報は、機械学習モデルAおよびBに共通して含まれるクラスBであると判定する。また、図示していないが、機械学習モデルAおよびBの演算結果がA判定およびAB判定だった場合には、モデル合成部15は、入力された不満情報はクラスAであると判定する。また、機械学習モデルAおよびBの演算結果がBC判定およびC判定だった場合には、モデル合成部15は、入力された不満情報はクラスCであると判定する。一方で、機械学習モデルAおよびBの演算結果がA判定およびC判定だった場合、すなわち、これらを合成した場合に合成結果が図4に示す合成結果モデルの右上の象限に該当する場合には、上述したようにクラスAの見逃しを最小にするために一旦Aと判定する等されてよい。このようにして演算された合成アルゴリズムによる分類結果は、図中の両矢印(二)に示すように表示され、ユーザに報知される。
【0055】
ステップS24では、コントローラ1は、引き続き他の不満情報をマルチクラス分類するか否か判定する。当該判定は、例えば、UIを介して入力されるユーザの指示に応じて行われてもよい。この場合には、コントローラ1は、表示手段3に例えば「YES」「NO」のボタンを表示し、いずれのボタンが押下されるかによって他の不満情報をクラス分類するか否か判定してよい。他の不満情報をマルチクラス分類すると判定した場合には、コントローラ1は、再びステップS20の処理を実行する。他方、他の不満情報をマルチクラス分類しないと判定した場合には、続くステップS25の処理を実行する。なお、例えばステップS20で複数の不満情報が取得された場合には、コントローラ1は、当該不満情報を所定数又は全数分類するまで自動的に他の不満情報をマルチクラス分類し続けるように構成されてもよい。
【0056】
ステップS25では、コントローラ1は、ステップS23において分類された不満情報を教師データとしてデータベース2に追加するか否か判定する。当該判定は、例えば、UIを介して入力されるユーザの指示に応じて行われてもよい。この場合には、表示手段3に例えば「機械学習モデルAおよびBを更新するか?」といった問いを表示するとともに、「YES」「NO」のボタンを表示し、いずれのボタンが押下されるかによって不満情報を教師データとして追加するか否か判定してよい。ステップS23において分類された不満情報を教師データとして追加する、すなわち、機械学習モデルAおよびBを更新すると判定した場合は、続くステップS26の処理を実行する。他方、ステップS23において分類された不満情報を教師データとして追加しないと判定した場合には、コントローラ1は、データ分類処理を終了する。
【0057】
ステップS26では、コントローラ1は、分類結果が教師ラベルとして付与された新規の不満情報をデータベース2に格納する。なお、ここでの分類結果は、上述の合成アルゴリズムによる演算結果をそのまま利用してもよいし、当該結果が間違っている可能性、或いは、当該結果が合成結果グラフ(図3(ロ)参照)の右上の象限に該当した場合等を考慮して、ユーザが直接判別した分類結果であってもよい。新たな不満情報が教師データとしてデータベース2に追加され、当該教師データに基づく学習処理がさらに施されることによって、機械学習モデルAおよびB乃至これらを含む合成アルゴリズムの予測性能と予測効率をさらに向上させることができる。教師ラベルが新たに付与された不満情報がデータベース2に格納されると、コントローラ1は、データ分類処理を終了する。
【0058】
以上が本実施形態のデータ分類装置10が実行するようにプログラムされたデータ分類方法(機械学習モデル生成処理およびデータ分類処理)の詳細である。しかしながら、上述したデータ分類方法は、必ずしも一のデータ分類装置10が備えるコントローラ1が全て実行する必要はない。例えば、機械学習モデル生成処理を実行するコントローラ1を備えたデータ分類装置10と、データ分類処理を実行するコントローラ1を備えたデータ分類装置10とが別個に構成されてもよい。すなわち、本実施形態のデータ分類装置10は、必ずしも機械学習モデル生成処理を実行可能である必要はなく、少なくとも上述の機械学習モデル生成処理によって生成された機械学習モデルAおよびBとモデル合成部15とから構成される合成アルゴリズムを備え、上述のデータ分類処理を実行可能であればよい。
【0059】
なお、機械学習モデル生成処理およびデータ分類処理は、必ずしも図2および3で示すフローに従って実行される必要はない。例えば、引き続き他の不満情報をマルチクラス分類するか否か判定するステップS24や、新たな教師データをデータベース2に追加するか否か判定するステップS25の処理等、入力データを分類するために必須な工程以外は削除されてよい。
【0060】
また、例えば、図2のステップS10に続くステップにおいて、3種以上のマルチクラス分類の分類態様が順列なのか組み合わせなのかを判定するステップが挿入されてもよい。このようなステップが挿入された場合に、3種以上のマルチクラス分類の分類態様が順列である場合には、上述のステップS10の処理がYES判定だった場合と同様に続くステップS11の処理が実行されてよい。一方で、3種以上のマルチクラス分類の分類対応が組み合わせである場合には、機械学習モデル生成処理を終了してもよいし、組み合わせの3種以上のマルチクラス分類を行う機械学習モデルを公知の手法により生成してもよい。ただし、組み合わせの3種以上のマルチクラス分類を行う機械学習モデルを生成する場合には、ステップS11において三つ以上の所定種別を二つのクラス(グループ)に別ける際の組み合わせとして、三つ以上の所定種別を相互排他的に二つのグループに分類する全ての組み合わせを設定する。これにより、データ分類装置10は、3種以上の順列のマルチクラス分類を実行可能な合成アルゴリズムだけでなく、組み合わせのマルチクラス分類を実行可能な機械学習モデルも生成することができる。また、合成アルゴリズムに加えて、ここで生成された組み合わせのマルチクラス分類が可能な機械学習モデルも記憶することによって、順列および組み合わせの3種以上のマルチクラス分類が可能なデータ分類装置10を構成することができる。
【0061】
[変形例]
ここで、以下に変形例として、所定の入力データを四つの所定種別に分類する4クラス分類を実行する場合のデータ分類装置10について説明する。以下、変形例について、既に説明した図2および図3に示すフローチャートを参照しながら、上記実施形態との相違点を説明する。
【0062】
本変形例のデータ分類装置10は、所定の入力データを四つの所定種別に分類する。したがって、本変形例のデータベース2には、四つの所定種別としてランクA~Dが教師ラベルとして付与された不満情報が教師データとして記憶される。
【0063】
本変形例のステップS11では、コントローラ1(データ生成部11)は、ランクA~Dのいずれかの教師ラベルがそれぞれ付与された不満情報を二つの順列なグループに別ける複数の異なる組み合わせを設定する。より具体的には、データ生成部11は、クラスA/BCDに分類された機械学習用データAと、クラスAB/CDに分類された機械学習用データBと、クラスABC/Dに分類された第1機械学習用データCとにかかる3種類の機械学習用データを生成する。
【0064】
ステップS12では、コントローラ1(モデル生成部12)は、機械学習用データAに対応する機械学習モデルAと、機械学習用データBに対応する機械学習モデルBと、第1機械学習用データCに対応する機械学習モデルCとに係る2クラス分類モデルを生成する。すなわち、本実施形態では、所定の入力データを四つの所定種別に分類(4クラス分類)するために、入力データを二つのグループに分類(2クラス分類)する機械学習モデルを三つ生成する。機械学習モデルA~Cの具体的な構成およびそれぞれに対する学習処理の手法は、第1実施形態において上述した構成および手法と同様でよい。
【0065】
そして、ステップS14では、コントローラ1(モデル合成部15)は、ステップS12で生成された複数の機械学習モデル(機械学習モデルA~C)の出力値を上記実施形態と同様に合成することによって、入力された不満情報の分類結果を算出する。また、機械学習モデルA~Cと、これらの出力値を合成するモデル合成部15とから構成される合成アルゴリズムは、合成アルゴリズム格納部19に記憶される。
【0066】
図6は、本変形例のデータ分類装置10のユーザインターフェイス(以下「UI」と称する)の一例を説明する図である。太線の長方形枠内が表示手段3に表示される表示画面を示す。また、図中の両矢印(イ)の範囲に示される表示部分が、主にユーザが閾値調整をするために表示される画像である。図示するように、本実施形態のUIは、クラスA/BCDに係る機械学習用データAを分類する機械学習モデルAを「A/BCDモデル」とし、クラスAB/CDに係る機械学習用データBを分類する機械学習モデルBを「AB/CDモデル」とし、クラスABC/Dに係る機械学習用データCを分類する機械学習モデルCを「ABC/Dモデル」として示し、これらの閾値をユーザが別個に調整できるように構成される。
【0067】
本変形例における閾値調整も、上記実施形態と同様に表示画面の略中央に示す閾値調整用グラフをユーザが操作することによって行えるように構成されている。また、ユーザに閾値調整に応じて算出される予測性能についても上記実施形態と同様に各閾値調整用グラフの右横に表示されている。図では、ユーザによる閾値調整の結果、機械学習モデルAの予測性能は、予測精度が80%、見逃し率が20%となることが示され、機械学習モデルBの予測性能は、予測精度が90%、見逃し率が10%となることが示され、機械学習モデルCの予測性能は、予測精度が70%、見逃し率が30%となることが示されている。すなわち、本実施形態では、クラスB以上(特にクラスA)の見逃しが最小となるように閾値調整された例が示されている。また、上述したように、予測精度、見逃し率のいずれかを入力することによって、もう一方の数値及びROC曲線上の垂値、水平線の位置が自動的に変更されるようになっていてもよい。
【0068】
そして、図6の両矢印(ロ)で示す表示領域には、本実施形態のモデル合成部15によるモデル合成結果(合成結果グラフ)が示されている。図示するように、本実施形態のモデル合成部15による合成結果は、例えばX軸にクラスABC/Dの分類結果、Y軸にクラスA/BCDの分類結果、Z軸にクラスAB/CDの分類結果を示す3次元空間に表される。また、モデル合成部15の合成結果として、上記実施形態と同様に、図6の両矢印(ロ)に示すような所定種別の見逃し優先順位が示されていてもよい。ここで示される優先順位も、機械学習モデルA~Cそれぞれの閾値調整に連動して変更されるようになっている。
【0069】
このように、本変形例のデータ分類装置10によれば、入力データを四つ以上の所定種別に分類する場合においても、複数の2クラス分類の機械学習モデルを生成し、これらの出力値を合成することによって、入力データを四つ以上の所定種別に精度良く分類することが可能となる。また、本実施形態の合成アルゴリズムも上記実施形態と同様に2クラス分類可能な複数の学習済みモデルとモデル合成部15とから構成され、これを備えたデータ分類装置10は、新規の入力データを順列な4クラスに分類することができる。
【0070】
以上、一実施形態および変形例のデータ分類装置10は、入力データを三つ以上の所定種別に分類するデータ分類装置10であって、入力データを取得する取得部(新規不満情報取得部)と、入力データを所定種別に分類する分類部(合成アルゴリズム)と、分類部により分類された結果を出力する出力部(新規不満情報演算結果表示部18)と、を備える。分類部19は、三つ以上の所定種別を二つのグループに別ける異なる組み合わせ毎に対応して生成された複数の機械学習モデル(機械学習モデルA~C)と、複数の機械学習モデル(A~C)の出力値を合成する合成部(モデル合成部15)と、を備え、入力データを複数の機械学習モデル(A~C)のそれぞれに入力することにより当該入力データを所定種別に分類するように構成される。機械学習モデル(A~C)は、入力データが入力された際に、二つのグループに分類された分類済み入力データを出力するように、教師データを用いた学習処理が施された学習済みモデルである。そして、合成部(モデル合成部15)は、複数の機械学習モデルからそれぞれ出力される分類済み入力データを合成して、入力データを所定種別に分類する。
【0071】
これにより、3種以上のマルチクラス分類を、2クラス分類が可能な複数の機械学習モデルを用いて行うことができるので、機械学習モデル毎に2クラス分類時の閾値を変更する等することで、分類時における所定種別の重要度に応じて、見逃し率等の分類性能を調整することが可能となる。また、分けられた二つのグループの組み合わせに対応して複数の機械学習モデルを用いることができるので、入力データ等に応じて機械学習モデル毎に最適な機械学習アルゴリズムを適用することが可能となり、分類性能をより向上させることができる。
【0072】
また、一実施形態のデータ分類装置10によれば、複数の異なる組み合わせは、三つ以上の所定種別を相互排他的に二つのグループに分類する全ての組み合わせである。これにより、順列な3種以上のマルチクラス分類だけでなく、組み合わせの3種以上のマルチクラス分類にも対応することができる。
【0073】
また、一実施形態のデータ分類装置10によれば、機械学習モデルは、分類済み入力データをベクトル値として出力するように構成され、合成部(モデル合成部15)は、複数の機械学習モデルからそれぞれ出力されるベクトル値のベクトル和を算出し、当該ベクトル和に応じて入力データを所定種別に分類する。これにより、3つ以上の所定種別を分類する場合に当該所定種別の数(N)がより大きくなり、N-1個の機械学習モデルが生成されたとしても、モデル合成部15は、これらの出力値を容易に合成することができる。
【0074】
また、一実施形態のデータ分類装置10によれば、入力データは、所定製品の評価に関するテキストデータであり、所定種別は、所定製品に対する否定的評価の重要度である。この場合の重要度は、否定的評価の度合いを意味し、否定的評価の度合いが高いほど重要度が高くなる深刻度と言い換えることもできる。これにより、従来は人が行っていた所定製品に対する否定的評価のランク付けを、機械学習モデルを用いて自動的に行うことが可能となる。また、否定的な評価を読み続けることによる精神的な悪影響が懸念されていたが、このような懸念を解消することもできる。
【0075】
また、一実施形態のデータ分類装置10によれば、教師データは、三つ以上の所定種別のいずれに該当し、且つ、二つのグループのいずれに該当するか識別可能な教師ラベルが付与された入力データである。これにより、3種以上のマルチクラス分類を行う合成アルゴリズムを構成する2クラス分類を行う機械学習モデルに対する学習処理を効率的に行うことができる。
【0076】
また、一実施形態のデータ分類装置10によれば、複数の機械学習モデルが入力データを二つのグループに分類する際の閾値を個別に調整する閾値調整部13をさらに備え、機械学習モデルは、ユーザにより調整された閾値に従って入力データを二つのグループに分類する。これにより、複数の機械学習モデルそれぞれの分類性能を個別に最適化できるので、複数の機械学習モデルを含む合成アルゴリズムの分類性能をより向上させることができる。
【0077】
また、一実施形態のデータ分類装置10によれば、閾値を調整するための調整画像を出力する画像出力部(閾値調整・モデル性能表示部14)をさらに備え、調整画像は、複数の機械学習モデルのそれぞれの分類性能に関する第1の情報(両矢印(イ)の画像領域)と、モデル合成部15の分類性能に関する第2の情報(両矢印(ロ)の画像領域)と、の少なくとも一方を表示する画像であって、第1の情報および第2の情報は、ユーザによる閾値の調整具合に応じて変化する。例えば表示手段3を介してこのようなUIが提供されることにより、ユーザが所望の分類性能を備える合成アルゴリズムを間便かつ直感的に生成することができる。
【0078】
以上、本発明の実施形態、及びその変形例について説明したが、上記実施形態及び変形例は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。また、上記実施形態、及びその変形例は、適宜組み合わせ可能である。
【0079】
例えば、図4から図7に示す表示画面は一例であって、図示する内容に制限されるものではなく、適宜変更されてよい。例えば、図4に、交差検証(cross-validation)の結果である混合行列(コンフュージョンマトリクス)をさらに表示してもよいし、図5の表示内容からベクトル値を削除してもよい。また、図4から図7に示す表示画面は必ずしも一画面に全て表示されることを意図していない。図示する表示画面は、情報量に応じて適宜切り替え可能に構成されてもよい。
【符号の説明】
【0080】
10…データ分類装置
16…新規情報取得部(取得部)
18…新規不満情報演算結果表示部(出力部)
19…合成アルゴリズム格納部(分類部)
図1
図2
図3
図4
図5
図6
図7