(58)【調査した分野】(Int.Cl.,DB名)
複数の分類器各々による所定データセットの分類結果を統合し、当該データセットの特徴量と分類結果たるラベルとの対応関係を規定した学習データを格納する記憶装置と、
前記学習データを記憶装置から読み出し、当該学習データにおけるラベル無しのデータセット各々について、当該特徴量と、前記分類器各々による前記分類結果から学習した統合分類器が出力する分類確率とに基づき、1つのデータセットに対して複数ラベルが未分類とされる確率たる同時未分類率と、1つのデータセットに対して複数ラベルが分類される確率たる同時分類確率とを算定する処理、前記同時未分類率と前記同時分類確率との乗算値をラベルごとに集計して推薦スコアを算定する処理、および、分類器を追加作成するべきラベルとして前記推薦スコアの高い順にラベルを特定し、当該ラベルの推薦情報を所定装置に出力する処理、を実行する演算装置と、
を含むことを特徴とするデータ分類システム。
複数の分類器各々による所定データセットの分類結果を統合し、当該データセットの特徴量と分類結果たるラベルとの対応関係を規定した学習データを格納する記憶装置を備えた情報処理システムが、
前記学習データを記憶装置から読み出し、当該学習データにおけるラベル無しのデータセット各々について、当該特徴量と、前記分類器各々による前記分類結果から学習した統合分類器が出力する分類確率とに基づき、1つのデータセットに対して複数ラベルが未分類とされる確率たる同時未分類率と、1つのデータセットに対して複数ラベルが分類される確率たる同時分類確率とを算定する処理と、
前記同時未分類率と前記同時分類確率との乗算値をラベルごとに集計して推薦スコアを算定する処理と、
分類器を追加作成するべきラベルとして前記推薦スコアの高い順にラベルを特定し、当該ラベルの推薦情報を所定装置に出力する処理と、
を実行することを特徴とするデータ分類方法。
【発明を実施するための形態】
【0020】
−−−ネットワーク構成−−−
図1は本実施形態のデータ分類システム100を含むネットワーク構成図である。
図1に示すデータ分類システム100は、統合分類器における分類器の作成を効率的なものとし、当該統合分類器の分類精度を向上させる情報処理システムである。
【0021】
こうしたデータ分類システム100は、
図1のネットワーク構成で例示するように、ユーザ端末101から分類器(例:当該ユーザ端末101の操作者が生成したもの)を取得し、この分類器に基づき統合分類器303を作成する。このデータ分類システム100は
、上述の統合分類器303によるラベル無しデータ201の多ラベル分類を効率的なものとする効果を奏する。ラベル無しデータ201を分類する目的として、多ラベル分類器を作成するための学習データ203の作成がある。
【0022】
図1で示すデータ分類システム100は、一例として、学習データ生成サーバ102と、分類器作成推薦サーバ103とにより構成されたものを想定できる。ただし、本実施形態のデータ分類システム100の最小構成として、分類器作成推薦サーバ103のみなど、単体の装置に必要な機能を実装する形態を想定するとしても良い。
【0023】
また、本実施形態のデータ分類システム100は、
図1に示すごとく、適宜なネットワーク406を介して、ユーザ端末101、ラベル無しデータ管理サーバ104、および、文書群管理サーバ105、など外部装置と通信可能であり、ラベル無しデータ201や文書群情報206を適宜取得し読み込み可能であるものとする。
【0024】
こうした本実施形態のデータ分類システム100を運用する組織としては、例えば、或る工場における生産効率の分析や不良品数の低減を行う事業体を想定できる。
【0025】
この事業体が管理する工場では、当該工場に設置したセンサーや工作機械などから生じる多様なIoTデータのそれぞれに対して、データ作成者が記述した説明文(例:溶接の失敗原因分析データです)がラベル無しデータ201として大量に蓄積されているものとする。このラベル無しデータ201は、未だ統合分類器303による分類処理すなわちラベリングが施されていないデータセットである。
【0026】
上述のIoTデータの存在を知らないデータ分析者でも、当該IoTデータを発見し、当該IoTデータを用いた分析を実行するためには、大量に蓄積されたラベル無しデータ201をカテゴリごとに機械学習で自動分類することで、当該IoTデータをカテゴリによって絞り込み可能とすることが好ましい。
【0027】
しかしながら、多様なIoTデータに応じて、ラベル無しデータ201の特徴量は多様になり、また柔軟な絞りこみを実現するには多様なカテゴリを表現するラベルが必要となる。さらに、ひとつのIoTデータが複数のカテゴリに属する可能性を考慮すると、多ラベル分類器を作成するための学習データが必要である。
【0028】
よって、すでに述べたように、データ分類システム100の学習データ生成サーバ102では、ユーザ端末101から分類器の定義を受け取る分類器受取部301と、分類器302−1〜302−N(Nは任意の自然数)を含む分類器実行部302と、統合分類器303とが動作し、ラベル無しデータ201に対する上述の分類器302−1〜302−Nによる分類結果情報203を入力に統合分類器303を学習し、この統合分類器303によるラベル無しデータ201の分類結果として学習データ204を生成することになる。
【0029】
この統合分類器303と学習データ204は、具体的には、データ分類者が、非特許文献1に開示された手法に沿って、学習データ204の作成結果を目視確認しながら、分類器を追加作成していく作業を繰り返すことで作成できる。
【0030】
なお、ユーザ端末101は、データ分類システム100を利用するデータ分類者が操作する端末である。こうしたデータ分類者は、ユーザ端末101の表示を閲覧、またユーザ端末101を操作して、ラベル無しデータ201向けの分類器を新規に定義し、学習データ生成サーバ102へ送信する。
【0031】
一方、上述のデータ分類者による分類器の追加作成を効率的なものとするために、本実
施形態においては、分類器作成推薦サーバ103が分類器を追加作成するべきラベルの推薦情報を、当該データ分類者のユーザ端末101に通知する。
【0032】
本実施形態の分類器作成推薦サーバ103は、学習データ204を入力に未分類率情報205を計算する未分類率計算部304と、未分類率情報205を入力に同時未分類率情報206を計算する同時未分類率計算部305と、文書群管理サーバ105から文書群207を読み込んで同時分類確率情報208を計算する同時分類確率計算部306と、同時未分類率情報206と同時分類確率情報208を入力に推薦スコア情報209を計算する推薦スコア計算部307と、同時分類確率208から分類器を生成して学習データ生成サーバ102へ送付する分類器生成部308、および、上述の推薦スコア情報209をユーザ情報分類結果211に応じたユーザ端末101に宛てて通知する推薦実行部309からなる。
【0033】
上述のうち未分類率計算部304は、学習データ204を受け取ったら、当該学習データ204に含まれるデータセット(以下、データ)に対するラベルの分類確率を取得し、このラベル分類確率が所定の閾値内に収まる場合、当該データに対して当該ラベルが未分類とみなす。
【0034】
また、未分類率計算部304は、全ラベルの未分類データ数を計算し、ラベルごとに未分類数を分類対象データ数(学習データに含まれるデータ数)で除算することで、未分類率を計算し、これを未分類率情報205に保存することが好ましい。
【0035】
未分類率計算部304が計算した未分類率が、データ分類者が予め指定した所定の閾値をすべてのラベルについて下回る場合、統合分類器303によって十分な数のラベル無しデータ201を分類できており、分類器を追加する必要がない。そのため、この時点で分類器作成推薦サーバ103は処理を終了してよい。
【0036】
一方、上述の未分類率が、いずれかのラベルについて所定の閾値を下回る場合、未分類率計算部304は、未分類情報205を同時未分類率計算部305に送信する。
【0037】
他方、同時未分類率計算部305は、上述の未分類率情報205を受け取ったら、未分類率情報205において、例えば、i番目のラベル(ラベルiと同義、以下同様)とj番目のラベル(ラベルjと同義、以下同様)の両方が、未分類となるデータの割合として同時未分類率u
ijを計算し、この同時未分類率u
ijを同時未分類率情報206に保存することが好ましい。
【0038】
また、同時分類確率計算部306は、文書群管理サーバ105から文書群207を読み込み、i番目のラベルとj番目のラベルに含まれる単語の共起確率を計算し、当該計算結果を同時分類確率p
ijとして同時分類確率情報208に保存することが好ましい。この「単語の共起確率」は、具体的には、既知の手法(例:藤井雄太郎、吉村卓也、伊藤孝行、安藤哲志、”複数単語間の共起情報を用いた有害文書自動分類手法の提案”、第10回情報科学技術フォーラム、(FIT2011)講演論文集(2011))によって計算できる。
【0039】
また、本実施形態では、ラベル無しデータ201に一切のラベルが含まれていないことを想定して、同時分類確率p
ijを計算する方法を記載したが、実際にはラベル無しデータ201に人手による少量のラベル分類結果が含まれている場合がある。このような場合には、このラベル分類結果から、あるいはこのラベル分類結果を併用して、同じデータが2つのラベルへ同時に分類される確率として同時分類確率を計算してもよい。
【0040】
なお、文書群管理サーバ105が保持する文書群207は、上述の事業体のデータ分析レポートなどの組織内文書や、インターネットで公開されている文書、また、ラベル無しデータ201の文書を含んでよい。
【0041】
また、分類器生成部308は、他の分類器によってi番目のラベルへ分類されたら、同時分類確率情報208が示す同時分類確率p
ijの確率でj番目のラベルへ分類する分類器を自動作成し、この分類器を学習データ生成サーバ102の分類器受取部301へ送信する。具体的には、この分類器は、IF文によって自動作成できる。
【0042】
また、推薦スコア計算部307は、同時未分類率情報206から同時未分類率u
ijを読み込み、同時分類確率情報208から同時未分類確率p
ijを読み込み、i番目のラベルに対する推薦スコアをΣ
ju
ijp
ijとして計算し、この推薦スコアを推薦スコア情報209へ保存することが好ましい。
【0043】
また、推薦実行部309は、ユーザ端末101へ推薦スコア情報209を通知して表示させ、当該推薦スコア情報209の推薦スコアの値の大きいラベルを分類する分類器の追加作成をデータ分類者へ推薦する。一方、データ分類者は、当該推薦スコアの大きいラベルを正しく分類する分類器から追加作成する。ユーザ端末101は、上述のデータ分類者が追加作成した分類器を、学習データ生成サーバ102の分類器受取部301に配信する。こうして適宜な分類器が追加されることによって、統合分類器303として少数の分類器でより多数のデータを分類できるようになる。
【0044】
また、本実施形態における未分類率計算部304は、上述の未分類率の値がすでに計算されていた場合、分類器の追加作成による未分類率の値の変化量をラベルごとに計算し、当該変化量が所定の閾値以下である場合、当該ラベルへの分類器追加作成は有効ではないと判定する。また、未分類率計算部304は、この判定に基づき、当該ラベル名を推薦スコア計算部307へ送付し、推薦スコア計算時に所定の係数(0.8など)を乗算することで、当該ラベルの推薦スコアを低下させてもよい。
【0045】
なお、データ分類者が複数人存在し、ラベル無しデータ201の一部としてデータ分類者の説明文(所属やスキルなど)を含むユーザ情報文書群210(ラベル無しデータ管理サーバ104が保持)が利用可能な場合がある。 この場合、こうしたデータ分類者の説明文を統合分類器303によって他のラベル無しデータ201と同様に分類し、ユーザ情報分類結果211を得ることが可能である。
【0046】
また、推薦実行部309は、推薦対象のラベルと同一のラベルへ分類されているデータ分類者がユーザ情報分類結果211に含まれていた場合、このデータ分類者のユーザ端末101に宛てて当該ラベルに関する分類器の追加を依頼する情報を通知、すなわち推薦情報の出力を行うことによって、当該ラベルに関して知識のある分類者へ分類器の作成を依頼することが可能となる。
【0047】
なお、ラベル無しデータ201が多様な説明文の場合は、処理効率を向上すべく、ラベル無しデータ201と文書群207を合わせたデータ集合をK個のクラスタに分割し、当該クラスタごとに未分類率を計算するとしてもよい。データ集合をクラスタごとに分割する手法としては、具体的には、K−means法などを適用すればよい。
【0048】
上述のように未分類率をクラスタごとに計算した場合、同時未分類率計算部305は、後述する同時未分類率をクラスタごとに計算し、k番目のクラスタについての同時未分類率u
ijkを同時未分類率情報206に保存する。また、同時分類確率計算部306は、同時分類確率をクラスタごとに計算し、k番目のクラスタについての同時分類確率p
ij
kを計算し、同時分類確率情報208に保存する。その後、推薦スコア計算部307は、全クラスタについて推薦スコアの和をとる形でΣ
kΣ
ju
ijkp
ijkとして計算する。
【0049】
−−−ハードウェア構成−−−
また、本実施形態のデータ分類システム100を主として構成する分類器作成推薦サーバ103のハードウェア構成を
図2に示す。
【0050】
本実施形態の分類器作成推薦サーバ103は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される記憶装置401、RAMなど揮発性記憶素子で構成されるメモリ404、記憶装置401に保持されるプログラム402をメモリ404に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置403、および、ネットワーク406と接続して他装置(学習データ生成サーバ102、ユーザ端末101、文書群管理サーバ105など)との通信処理を担う通信装置405、を備える。
【0051】
なお、記憶装置401内には、本実施形態のデータ分類管理システム100を構成する分類器作成推薦サーバとして必要な機能を実装する為のプログラム402に加えて、未分類率情報205、同時未分類率情報206、同時分類確率情報208、推薦スコア情報209、および、ユーザ情報分類結果211、が記憶されている。これらの情報の詳細については後述する。
【0052】
また、上述の演算装置403がプログラム402を実行することで、未分類率計算部304、同時未分類率計算部305、同時分類確率計算部306、推薦スコア計算部307、分類器生成部308、および、推薦実行部309が実装される。これら機能部の働きの詳細についても後述する。
【0053】
−−−データ構造例−−−
続いて、本実施形態のデータ分類システム100を構成する、上述の分類器作成推薦サーバ103および学習データ生成サーバ102らが用いるデータ類について説明する。
【0054】
図3は、本実施形態におけるラベル無しデータ201の構成例を示す図である。このラベル無しデータ201は、ラベル無しデータを一意に識別するための数値、あるいは文字列であるデータID201aをキーに、ラベル無しデータの特徴量201bの値を対応付けたレコードの集合体となっている。
【0055】
このうち特徴量201bは、分類対象となるデータ、あるいは分類対象となるデータから作成したデータの特徴を示す値であり、文字列、数値など任意の形式を取る。
【0056】
続いて
図4に、本実施形態における分類器管理情報202の構成例を示す。本実施形態の分類器管理情報202は、分類器を一意に識別するための数値あるいは文字列である分類器ID202aをキーに、当該分類器を用いた分類を実行するための方法を示す分類器実行方法202b、および、分類器実行方法202bによって分類される対象のラベルを示す分類対象ラベル202c、を対応付けたレコードの集合体となっている。
【0057】
このうち分類対象ラベル202cは、分類器の性質に応じて複数の値をとっても良い。
上述の分類器管理情報202のレコードは、分類器受取部301を通じてユーザ端末101から分類者作成の値を取得、あるいは分類器作成部308によって自動生成されることによって蓄積されていく。
【0058】
続いて
図5に、本実施形態の分類結果情報203の構成例を示す。本実施形態の分類結果情報203は、ラベル無しデータ201におけるデータIDと同一の(すなわち同じラベル無しデータ201に関する分類結果であることを意味する)データID201aをキーに、当該ラベル無しデータ201の特徴量201b、N個(Nは自然数)の分類器のそれぞれによって計算された分類確率203−1〜203−N、の各値を対応付けたレコードの集合体となっている。
【0059】
このうち分類確率203−1〜203−Nは、それぞれの分類器で計算した、分類対象ラベル202c(分類器管理情報202で保持)にラベル無しデータ201の各レコードが分類される確率を示す値である。この値は、分類対象ラベル202cの値の数に応じて複数の確率値をとってもよい。
【0060】
続いて
図6に、本実施形態の学習データ204の構成例を示す。本実施形態の学習データ204は、データID201aをキーに、当該ラベル無しデータ201の特徴量201b、および、統合分類器203が計算した各ラベルへのラベル無しデータ201の分類確率204c、を対応付けたレコードの集合体となっている。このうち分類確率204cは、各ラベルへの分類確率を要素としたベクトルである。
【0061】
続いて
図7に、本実施形態の未分類率情報205の構成例を示す。本実施形態の未分類率情報205は、ラベル名205aをキーとして、分類対象データ数205b、未分類データ数205c、および、未分類率205d、の各値を対応付けたレコードの集合体となっている。
【0062】
このうち分類対象データ数205bは、学習データ204に含まれる全データのうち、ラベル名205aのラベルに分類するか判断するべきデータの数を示した数値である。
【0063】
また、未分類データ数205cは、分類対象データ数205bのうち、ラベル名205aのラベルに分類するか判断していない(未分類の)データの数を示した数値である。
【0064】
また、未分類データ数205cと未分類率205dは、未分類率計算部304によって計算される、未分類データ数205cを分類対象データ数205bで除算した数値であり、未分類なデータの割合を示した数値である。
【0065】
続いて
図8に、本実施形態の同時未分類率情報206の構成例を示す。本実施形態の同時未分類率情報206は、ラベルi206aと、ラベルj206bと、同時未分類率206c、の各値を対応付けたレコードの集合体となっている。
【0066】
このうち、ラベルi206aとラベルj206bは、ともにラベル名を示す文字列であり、同時未分類率情報206にはこれら2つのラベルの全組み合わせについてレコードを持っている。
【0067】
また、同時未分類率206cは、ラベルi206aおよびラベルj206bの各ラベルについて、どちらのラベルも未分類であるデータの割合を示す数値であり、同時未分類率計算部305によって計算される。
【0068】
なお、本実施形態ではすべての2つのラベル(ラベルiとラベルj)の組み合わせについて同時未分類率206cを計算するとしたが、3つ以上のラベル、例えばラベルiとラベルjとラベルkについてすべての組み合わせをとって同時未分類率206cを計算しても良い。
【0069】
続いて
図9に、本実施形態の文書群207の構成例を示す。本実施形態の文書群207は、文書ID207aと文書内容207bの各値を含むレコードの集合体となっている。
このうち文書ID207aは、当該文書を一意に識別するための数値あるいは文字列である。また、文書内容207bは、当該文書の内容を示す文字列である。
【0070】
すでに述べたように、この文書群207およびその文書内容207bは、上述の事業体のデータ分析レポートなどの組織内文書や、インターネットで公開されている文書や、またラベル無しデータの文書を含んでよい。
【0071】
続いて
図10に、本実施形態の同時分類確率208の構成例を示す。本実施形態の同時分類確率情報208は、ラベルi206aおよびラベルj206bをキーに、同時分類確率208cの値を対応付けたレコードの集合体となっている。
【0072】
このうち同時分類確率208cは、ラベルi206aおよびラベルj206bの各ラベルが同時に同じデータに分類される確率を示した数値であり、同時分類確率計算部306によって計算される値である。
【0073】
続いて
図11に、本実施形態の推薦スコア情報209の構成例を示す。本実施形態の推薦スコア情報209は、ラベル名209aをキーに、推薦スコア209bおよび推薦順位209cの各値を対応付けたレコードの集合体となっている。
このち推薦スコア209bは、ラベル名209aに記載のラベルについて推薦スコア計算部307が計算した推薦スコアの値である。
【0074】
また、推薦順位209cは、推薦スコア209bの値の大きい順に決定した分類器作成を推薦する順位であり、ユーザ端末101を通じて推薦順位209cの値が小さいラベルから順に分類器の作成が分類者へ推薦される。
【0075】
続いて
図12に、本実施形態のユーザ情報文書群210の構成例を示す。本実施形態のユーザ情報文書群210は、ユーザID210aをキーに、ユーザ情報文書210bおよびユーザ連絡先210cの各値を対応付けたレコードの集合体となっている。
このうちユーザID210aは、ユーザ情報文書210bを一意に識別するための数値、あるいは文字列である。
また、ユーザ情報文書210bは、ユーザの業務上の経験やスキルを表す文書であり、自然言語からなる不定形の文書あるいは整形済みの文字列データである。
【0076】
また、ユーザ連絡先210cは、ユーザ情報文書210bで説明されるユーザの連絡先を表した文字列あるいは数値であり、具体的には当該ユーザの電子メールアドレスや電話番号などで構成される。
【0077】
続いて
図13に、本実施形態のユーザ情報分類結果211の構成例を示す。本実施形態のユーザ情報分類結果211は、ユーザID210aをキーに、ユーザ連絡先210cおよびラベル211cの各値を対応付けたレコードの集合体となっている。
このうちラベル211cは、ユーザ情報文書群210を入力として、統合分類器303で分類した結果として統合分類器303から出力されたラベルである。
【0078】
−−−フロー例1−−−
以下、本実施形態におけるデータ分類方法の実際手順について図に基づいて説明する。以下で説明するデータ分類方法に対応する各種動作は、データ分類システム100を構成する学習データ生成サーバ102や分類器作成推薦サーバ103がそれぞれメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは以下に説明
される各種の動作をおこなうためのコードから構成されている。
図14は本実施形態における学習データ生成方法のフロー例1を示す図であり、具体的には、学習データ生成サーバ102の動作を示すフローチャートである。
このフローにおいて、学習データ生成サーバ102は、ユーザ端末101あるいは分類器作成推薦サーバ103からの分類器追加要求をうけて処理を開始する。
【0079】
この場合、学習データ生成サーバ102の分類器受取部301は、ユーザ端末101と分類器作成推薦サーバ103から追加対象の分類器の情報を受信し、当該分類器の情報を含むレコードを生成し、当該レコードを分類器管理情報202に保存する(S101)。
【0080】
上述のレコードにおける分類器の情報としては、既に
図4で説明したように、分類実行方法202b、分類対象ラベル202c、の各値を含んでいる。また、分類器ID202aの値は、レコード追加ごとに値をインクリメントして付与したものとなる。
【0081】
次に、学習データ生成サーバ102の分類器実行部302は、上述のS101で分類器管理情報202に新たに保存したレコードから分類器実行方法202bの値を読取り、当該値に記載の方法にしたがって当該分類器を実行してラベル無しデータ201の分類を行い、当該分類の結果を分類結果情報203に保存する(S102)。
【0082】
図5で例示した分類結果情報203のイメージであれば、203−1〜203−nの各分類器の列に追加対象の分類器(S101で分類器管理情報202に新たに追加されたもの)の項目が追加され、当該分類器による分類結果の値(例:データID“1”に関して、“0.80”)が、各ラベル無しデータ201のレコードに関して追加されることとなる。
【0083】
また、学習データ生成サーバ102は、上述の分類結果情報203から統合分類器303を学習する(S103)。この学習手法自体は、分類結果情報203における特徴量201bを入力とした場合の教師データを分類結果203−1〜203−nの各値として行うもので、既存のものを適宜採用すればよい。
【0084】
続いて、学習データ生成サーバ102は、上述のS103で学習した統合分類器303でラベル無しデータ201を分類し、当該分類の結果を学習データ204として保存し(S104)、処理を終了する(S104)。
【0085】
なお、このステップS104における学習データ生成サーバ102は、例えば、ラベル無しデータ201が含むデータ分類者の説明文(所属やスキルなど)に対し、統合分類器303によって他のラベル無しデータ201と同様に分類し、ユーザ情報分類結果211を得て格納するものとする。
【0086】
−−−フロー例2−−−
図15は本実施形態における分類器作成推薦方法のフロー例を示す図であり、具体的には、分類器追加推薦サーバ103の動作を示すフローチャートである。
【0087】
続いて、上述の学習データ生成サーバ102によって学習データ204が更新されたことを契機に、分類器作成推薦サーバ103が実行するフローについて説明する。
【0088】
この場合、分類器作成推薦サーバ102の未分類率計算部304は、学習データ生成サーバ102から学習データ204を取得し、この学習データ204に関して、ラベルごとに未分類率を計算し、この計算の結果を未分類率情報205に保存する(S201)。
【0089】
この場合の未分類率計算部304は、全ラベルそれぞれの未分類データ数すなわち未分類数を計算し、ラベルごとに未分類数を分類対象データ数(学習データに含まれるデータ数)で除算することで、未分類率を計算する。
【0090】
例えば、「ひび割れ」ラベルの未分類データ数すなわち未分類数は、学習データ204の各レコードに関して、その分類確率204cのベクトル値のうち、“ひび割れ”の値が所定基準値(例:0.6以下)のものを特定し、該当レコードの数、すなわち「ひび割れ」ラベルが未分類となったデータ数を「30」などカウントする。
【0091】
また、「ひび割れ」ラベルの未分類率は、上述の未分類数「30」を、分類対象データ数(学習データ204に含まれる全データ数。例えば、「100」)で除算することで、未分類率を「0.3」などと計算する。
【0092】
続いて、学習データ生成サーバ102は、S201で計算した未分類率の値が、データ分類者が予め指定した所定の閾値(例:0.2)をいずれかのラベルについて上回るか判定する(S202)。
【0093】
上述の判定の結果、未分類率の値が上述の閾値以上でなかった場合(S202:n)、すなわち、S201で計算した未分類率の値が、データ分類者が予め指定した所定の閾値をすべてのラベルについて下回る場合、統合分類器303によって十分な数のラベル無しデータ201を分類できており、分類器を追加する必要がないと特定し、以後の処理を終了する。
【0094】
一方、上述の判定の結果、未分類率の値が上述の閾値以上であった場合(S202:y)、すなわち上述の未分類率が、いずれかのラベルについて所定の閾値を下回る場合、未分類率計算部304は、未分類情報205を同時未分類率計算部305に送信し、同時未分類率計算部305で、同時未分類率u
ijの計算を実行させる(S203)。
【0095】
同時未分類率計算部305は、上述の未分類率情報205を受け取ったら、未分類率情報205において、例えば、i番目のラベル(ラベルiと同義、以下同様)とj番目のラベル(ラベルjと同義、以下同様)の両方が、未分類となるデータの割合として同時未分類率u
ijを計算し、この同時未分類率u
ijを同時未分類率情報206に格納するものとする。
【0096】
例えば、「ひび割れ」ラベルと「不良品」ラベルが、共に未分類となったデータを、学習データ204の各レコードの分類確率204cのベクトル値のうち、“ひび割れ”および“不良品”の各値がいずれも所定基準値(例:0.6以下)のものとして特定し、該当レコードの数、すなわち「ひび割れ」および「不良品」の両ラベルが未分類となったデータ数を「28」などカウントする。
【0097】
また、「ひび割れ」および「不良品」の両ラベルが同時に未分類率となって同時未分類率は、上述の未分類数「28」を、分類対象データ数(学習データ204に含まれる全データ数。例えば、「100」)で除算することで、「0.28」などと計算する。
【0098】
また、分類器作成推薦サーバ103の同時分類確率計算部306は、上述の判定の結果(S202:y)を受けて、文書群管理サーバ105から文書群207を読み込み、i番目のラベル(上述の例の場合、「ひび割れ」)とj番目のラベル(上述の例の場合、「不良品」)に含まれる単語(「ひび割れ」と「不良品」)の共起確率を計算し(S204)、当該計算結果を同時分類確率p
ijとして同時分類確率情報208に格納する。
なお、上述のS203およびS204の各処理は非同期に実行されるものとする。
【0099】
続いて、分類器作成推薦サーバ103の推薦スコア計算部307は、同時未分類率情報206から同時未分類率u
ijを読み込み、同時分類確率情報208から同時未分類確率p
ijを読み込み、すべてのラベルiに対する推薦スコアをΣ
ju
ijp
ijとして計算し(S205)、この推薦スコアを推薦スコア情報209へ格納する。
【0100】
例えば、ラベルiが「ひび割れ」、ラベルjが「不良品」の組み合わせに関して、同時未分類率情報206のレコードが示す同時未分類率206cの値「0.30」と、同時分類確率情報208が示す同時分類確率208cの値「0.8」とを乗算して「0.24」を得る計算を、ラベルiが「ひび割れ」である全組み合わせに関して実行し、その実行結果たる乗算値の集計し、推薦スコアを算定する。
【0101】
続いて、分類器作成推薦サーバ103の分類器生成部308は、上述の同時分類確率情報208が示す、ラベルiに関して同時分類確率p
ijの確率でj番目のラベルへ分類する分類器を自動作成し(S206)、この分類器を学習データ生成サーバ102の分類器受取部301へ送信する。
【0102】
また、推薦実行部309は、推薦スコア情報209に記載の推薦対象のラベルと同一のラベルに分類されたユーザがユーザ情報分類結果211に含まれていれば、そのユーザの連絡先に宛てて、分類器の追加作成を推薦する推薦情報(
図16の画面1000)を送信し(S207)、処理を終了する。
なお、上述のS206およびS207は非同期に実行されるものとする。
【0103】
上述のデータ分類者は、上述の推薦情報をユーザ端末101で閲覧し、当該推薦情報が示すラベル(スコアの大きいラベル)を正しく分類する分類器に関する作成作業を行うこととなる。ユーザ端末101は、上述のデータ分類者が追加作成した分類器を、学習データ生成サーバ102の分類器受取部301に配信する。こうして適宜な分類器が追加されることによって、統合分類器303として少数の分類器でより多数のデータを分類できるようになる。
【0104】
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、統合分類器における分類器の作成を効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0105】
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ分類システムにおいて、前記演算装置は、前記同時未分類率の算定に際し、前記学習データに含まれるラベルの分類確率が所定の閾値内に収まる場合、当該データセットに対して前記ラベルが未分類であると判定し、前記学習データにおいて所定のラベルiとラベルjの両方が未分類となるデータの割合として前記同時未分類率u
ijを算定し、前記同時分類確率の算定に際し、所定の文書群に含まれるラベルiおよびラベルjの各ラベル名に対応する単語の共起確率として前記同時分類確率p
ijを算定し、前記推薦スコアの算定に際し、ラベルiに関する前記推薦スコアをΣ
ju
ijp
ijとして算定するものである、としてもよい。
【0106】
これによれば、同時分類確率および同時分類確率の算定を効率的なものとし、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0107】
また本実施形態のデータ分類システムにおいて、前記演算装置は、前記推薦情報に基づ
いて所定ユーザが追加作成した分類器を入力装置より取得し、当該追加した分類器を前記複数の分類器に追加して分類器群を生成し、当該分類器群における各分類器の分類結果を統合した新たな学習データと、当該学習データにより学習した統合分類器とを再作成する処理を更に実行し、前記新たな学習データにおいて、ラベル無しのデータセット各々について、当該特徴量と、前記新たな学習データにより学習した統合分類器が出力した分類確率とに基づき、当該新たな学習データに含まれるラベルが未分類となるデータセットの割合として未分類率を計算し、前記未分類率が所定基準を下回るまで、前記推薦情報の出力と前記統合分類器および学習データの再作成と、前記未分類率の計算とを繰り返すものである、としてもよい。
【0108】
これによれば、各データセットに対するラベル付与を漏れなく効率的なものとし、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0109】
また本実施形態のデータ分類システムにおいて、前記演算装置は、前記分類器の追加に伴う前記新たな学習データおよび前記統合分類器の再作成の前後で、前記未分類率の値が同一あるいは増加した場合、前記推薦情報の対象としたラベルの推薦スコアに対し、ラベル間の推薦スコアの順位を低下させる所定係数を乗算する処理を更に実行するものである、としてもよい。
【0110】
これによれば、分類機追加による影響のうち悪影響を適宜に排除することが可能となり、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0111】
また本実施形態のデータ分類システムにおいて、前記演算装置は、前記推薦情報の対象として特定した所定のラベルiについて、前記同時分類確率を参照し、当該ラベルiとの同時分類確率が所定基準以上のラベルjを特定し、前記ラベルiが付与される場合に前記同時分類確率の確率で前記ラベルjに分類する分類器を自動生成して、前記自動生成した分類器を、前記複数の分類器に追加する処理を更に実行するものである、としてもよい。
【0112】
これによれば、共起確率が高いキーワードすなわちラベル同士の関係性を踏まえた、漏れの少ない分類器の自動生成が可能となり、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0113】
また本実施形態のデータ分類システムにおいて、前記演算装置は、前記同時分類確率の算定に際し、前記文書群に加え、前記学習データの特徴量に含まれる文と前記学習データに付与された複数のラベルとから前記同時分類確率を計算するものである、としてもよい。
【0114】
これによれば、予め用意した文書群(例:企業内の技術文書等)が無い場合であっても、既存の学習データに基づいて同時分類確率を算定することが可能となり、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0115】
また本実施形態のデータ分類システムにおいて、前記記憶装置は、前記分類器の追加作成の主体となりうるユーザ各々に関して、所定事象に関与している旨を示す記述、および連絡先の各情報を記述したユーザ情報文書群を更に格納しており、前記演算装置は、前記特定したラベルのラベル名に対応する単語を、前記ユーザ情報文書群に照合し、当該単語を前記記述に含むユーザを特定し、当該ユーザの前記連絡先に宛てて前記推薦情報の出力を行うものである、としてもよい。
【0116】
これによれば、類器作成を促すべき好適なユーザ宛てに上述の推薦情報を通知することが可能となり、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。
【0117】
また本実施形態のデータ分類システムにおいて、前記演算装置は、前記学習データに含まれるデータセットの特徴量および前記文書群の特徴量をクラスタリングし、前記同時未分類率の算定に際し、前記データセットのうち、所定のクラスタkに属するものについて、所定のラベルiおよびラベルjの両方が未分類となる割合として同時未分類率u
ijkを計算し、前記同時分類確率の算定に際し、前記文書群のうち、所定のクラスタkに属する文書群に含まれる、ラベルiおよびラベルjの各ラベル名に対応する単語の共起確率として同時分類確率p
ijkを計算し、前記推薦スコアの算定に際し、ラベルiに関する前記推薦スコアをΣ
kΣ
ju
ijkp
ijkとして計算するものである、としてもよい。
【0118】
これによれば、生産ラインの工程種類などといったクラスタごとに、追加すべきラベルに応じた分類器の推薦を行うことが可能となり、ひいては、統合分類器における分類器の作成をより効率的なものとし、当該統合分類器の分類精度を向上させることとなる。