(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-20
(45)【発行日】2023-12-28
(54)【発明の名称】割当装置及び割当方法
(51)【国際特許分類】
G06F 16/906 20190101AFI20231221BHJP
【FI】
G06F16/906
(21)【出願番号】P 2019158204
(22)【出願日】2019-08-30
【審査請求日】2022-08-04
(31)【優先権主張番号】P 2019035829
(32)【優先日】2019-02-28
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「CyborgCrowdにおける人と計算機の高度連携方式およびミドルウェア」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(72)【発明者】
【氏名】森嶋 厚行
(72)【発明者】
【氏名】若林 啓
(72)【発明者】
【氏名】小林 正樹
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2016-109495(JP,A)
【文献】特開2017-174329(JP,A)
【文献】石川 博,データマイニングと集合知 -基礎からWeb,ソーシャルメディアまで-,第1版,共立出版株式会社 南條 光章,2012年07月15日,p.98,ISBN:978-4-320-12311-3
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
第一クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第一クラスタに含まれる第一分類済タスク及び前記第一分類済タスクに付された第一回答を含む第一分類結果の少なくとも一つと、第二クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第二クラスタに含まれる第二分類済タスク及び前記第二分類済タスクに付された第二回答を含む第二分類結果の少なくとも一つとを比較して前記第二クラスタの信頼度を算出する信頼度算出部と、
前記信頼度が所定の閾値を超えている場合、前記第二クラスタを使用して前記タスクリストに含まれるタスクを分類する分類処理の担当として前記第二クラスタリング装置を割り当てるクラスタリング装置割当部と、
を備え
、
前記信頼度算出部は、算出した前記信頼度が所定の閾値を超えていない場合には、前記第一クラスタリング装置により新たに追加された分類結果をさらに含む前記第一分類結果に基づいて、前記第二クラスタの信頼度を再度算出し、
前記クラスタリング装置割当部は、前記信頼度算出部が再度算出した前記信頼度が前記所定の閾値を超えているか否かに基づいて、前記第二クラスタリング装置を割り当てるか否かを判定する
割当装置。
【請求項2】
前記クラスタリング装置割当部は、前記信頼度が前記所定の閾値以下であり、かつ、
前記第二クラスタに含まれる第二分類結果に統計的検定を適用した結果に基づいて実行される、
再度算出される前記第二クラスタの信頼度が前記所定の閾値を超える見込みがあるか否かの判定の結果、再度算出される前記信頼度が前記所定の閾値を超える見込みがないと判定
された場合、前記第二クラスタリング装置を前記分類処理の担当から外す処理を実行する、
請求項1に記載の割当装置。
【請求項3】
前記クラスタリング装置割当部は、前記信頼度が前記所定の閾値以下であり、かつ、
前記第二クラスタに含まれる第二分類結果に統計的検定を適用した結果に基づいて実行される、
再度算出される前記第二クラスタの信頼度が前記所定の閾値を超える見込みがあるか否かの判定の結果、再度算出される前記信頼度が前記所定の閾値を超える見込みがあると判定した場合、前記第二クラスタリング装置を前記分類処理の担当から外す処理を保留し、
前記信頼度算出部は、前記第二クラスタの信頼度を再度算出する、
請求項1又は請求項2に記載の割当装置。
【請求項4】
前記信頼度算出部は、前記第一分類結果に統計的検定を適用して得られた結果と、前記第二分類結果に統計的検定を適用して得られた結果とを比較して前記信頼度を算出する、
請求項1から請求項3のいずれか一つに記載の割当装置。
【請求項5】
前記信頼度算出部は、前記第二クラスタに含まれる前記第二分類結果を少なくとも一つの前記第一クラスタリング装置それぞれの前記第一クラスタに含まれる前記第一分類結果と比較して前記信頼度を算出する、
請求項1から請求項4のいずれか一つに記載の割当装置。
【請求項6】
割当装置が備えるコンピュータが、第一クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第一クラスタに含まれる第一分類済タスク及び前記第一分類済タスクに付された第一回答を含む第一分類結果の少なくとも一つと、第二クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第二クラスタに含まれる第二分類済タスク及び前記第二分類済タスクに付された第二回答を含む第二分類結果の少なくとも一つとを比較して前記第二クラスタの信頼度を算出する信頼度算出ステップと、
前記コンピュータが、前記信頼度が所定の閾値を超えているか否かを判定するステップと、
前記コンピュータが、前記信頼度が所定の閾値を超えていない場合、前記第一クラスタリング装置により新たに追加された分類結果をさらに含む前記第一分類結果に基づいて、前記第二クラスタの信頼度を再度算出するステップと、
前記コンピュータが、前記信頼度が所定の閾値を超えている場合、前記第二クラスタを使用して前記タスクリストに含まれるタスクを分類する分類処理の担当として前記第二クラスタリング装置を割り当てるクラスタリング装置割当ステップと、
を含む割当方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、割当装置及び割当方法に関する。
【背景技術】
【0002】
現在では、機械学習装置の一つであるクラスタリング装置に関する研究が活発に進められている。例えば、特許文献1には、クラスタリング用特徴抽出部と、分類部と、事前ドメイン決定部とを備えるクラスタリング装置が開示されている。クラスタリング用特徴抽出部は、転移学習を導入した機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成する。分類部は、クラスタリング用特徴抽出部により生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類する。事前ドメイン決定部は、分類部により第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、第1グループを機械学習に用いられる事前ドメインに決定し、転移候補特徴データの数が分類継続基準値よりも大きい場合、第1グループに分類された転移候補特徴データをさらに分類することを決定する。
【先行技術文献】
【特許文献】
【0003】
【0004】
しかし、上述したクラスタリング装置は、複数の事前ドメインの準備が完了するまでタスクを分類する処理の実行を開始することができないため、タスクの分類処理の完了が遅れてしまうことがある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
そこで、本発明は、タスクを分類する処理を早期に開始することができる割当装置及び割当方法を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の一態様は、第一クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第一クラスタに含まれる第一分類済タスク及び前記第一分類済タスクに付された第一回答を含む第一分類結果の少なくとも一つと、第二クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第二クラスタに含まれる第二分類済タスク及び前記第二分類済タスクに付された第二回答を含む第二分類結果の少なくとも一つとを比較して前記第二クラスタの信頼度を算出する信頼度算出部と、前記信頼度が所定の閾値を超えている場合、前記第二クラスタを使用して前記タスクリストに含まれるタスクを分類する分類処理の担当として前記第二クラスタリング装置を割り当てるクラスタリング装置割当部と、を備え、前記信頼度算出部は、算出した前記信頼度が所定の閾値を超えていない場合には、前記第一クラスタリング装置により新たに追加された分類結果をさらに含む前記第一分類結果に基づいて、前記第二クラスタの信頼度を再度算出し、前記クラスタリング装置割当部は、前記信頼度算出部が再度算出した前記信頼度が前記所定の閾値を超えているか否かに基づいて、前記第二クラスタリング装置を割り当てるか否かを判定する割当装置である。
【0007】
また、本発明の一態様は、上記の割当装置において、前記クラスタリング装置割当部は、前記信頼度が前記所定の閾値以下であり、かつ、前記第二クラスタに含まれる第二分類結果に統計的検定を適用した結果に基づいて実行される、再度算出される前記第二クラスタの信頼度が前記所定の閾値を超える見込みがあるか否かの判定の結果、再度算出される前記信頼度が前記所定の閾値を超える見込みがないと判定された場合、前記第二クラスタリング装置を前記分類処理の担当から外す処理を実行する。
【0008】
また、本発明の一態様は、上記の割当装置において、前記クラスタリング装置割当部は、前記信頼度が前記所定の閾値以下であり、かつ、前記第二クラスタに含まれる第二分類結果に統計的検定を適用した結果に基づいて実行される、再度算出される前記第二クラスタの信頼度が前記所定の閾値を超える見込みがあるか否かの判定の結果、再度算出される前記信頼度が前記所定の閾値を超える見込みがあると判定した場合、前記第二クラスタリング装置を前記分類処理の担当から外す処理を保留し、前記信頼度算出部は、前記第二クラスタの信頼度を再度算出する。
【0009】
また、本発明の一態様は、上記の割当装置において、前記信頼度算出部が、前記第一分類結果に統計的検定を適用して得られた結果と、前記第二分類結果に統計的検定を適用して得られた結果とを比較して前記信頼度を算出する。
【0010】
また、本発明の一態様は、上記の割当装置において、前記第二クラスタに含まれる前記第二分類結果を少なくとも一つの前記第一クラスタリング装置それぞれの前記第一クラスタに含まれる前記第一分類結果と比較して前記信頼度を算出する。
【0012】
また、本発明の一態様は、割当装置が備えるコンピュータが、第一クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第一クラスタに含まれる第一分類済タスク及び前記第一分類済タスクに付された第一回答を含む第一分類結果の少なくとも一つと、第二クラスタリング装置がタスクリストに含まれるタスクを分類して生成した第二クラスタに含まれる第二分類済タスク及び前記第二分類済タスクに付された第二回答を含む第二分類結果の少なくとも一つとを比較して前記第二クラスタの信頼度を算出する信頼度算出ステップと、前記コンピュータが、前記信頼度が所定の閾値を超えているか否かを判定するステップと、前記コンピュータが、前記信頼度が所定の閾値を超えていない場合、前記第一クラスタリング装置により新たに追加された分類結果をさらに含む前記第一分類結果に基づいて、前記第二クラスタの信頼度を再度算出するステップと、前記コンピュータが、前記信頼度が所定の閾値を超えている場合、前記第二クラスタを使用して前記タスクリストに含まれるタスクを分類する分類処理の担当として前記第二クラスタリング装置を割り当てるクラスタリング装置割当ステップと、を含む割当方法である。
【発明の効果】
【0013】
本発明によれば、タスクを分類する処理を早期に開始することができる割当装置及び割当方法を提供することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態に係る割当装置の構成の一例を示す図である。
【
図2】本発明の実施形態に係るタスクと、各タスクへの回答と、各タスクの正解の一例を示す図である。
【
図3】本発明の実施形態に係る第一クラスタリング装置が
図2に示したタスクリストに含まれるタスクを分類して生成した第一クラスタの一例を示す図である。
【
図4】本発明の実施形態に係る第二クラスタリング装置が
図2に示したタスクリストに含まれるタスクを分類して生成した第二クラスタの一例を示す図である。
【
図5】本発明の実施形態に係る割当装置が第二クラスタ各々について実行する処理の一例を示すフローチャートである。
【
図6】本発明の実施形態に係る第一クラスタリング装置がタスクを分類した回数と分類済タスクの数との関係を片側二項検定における理論確率ごとにシミュレーションした結果の一例を示す図である。
【
図7】本発明の実施形態に係る片側二項検定における理論確率と分類処理の担当として割り当てられた第二クラスタの数との関係及び片側二項検定における理論確率と第二クラスタによる分類処理の正答率との関係をシミュレーションした結果の一例を示す図である。
【
図8】本発明の実施形態に係る第一クラスタリング装置がタスクを分類した回数と分類済タスクの数との関係を第二クラスタの数ごとにシミュレーションした結果の一例を示す図である。
【
図9】本発明の実施形態に係る第二クラスタの数と分類処理の担当として割り当てられた第二クラスタの数との関係及び第二クラスタの数と第二クラスタによる分類処理の正答率との関係をシミュレーションした結果の一例を示す図である。
【
図10】本発明の実施形態に係る第一クラスタリング装置がタスクを分類した回数と分類済タスクの数との関係をテスト用タスクの割合ごとにシミュレーションした結果の一例を示す図である。
【
図11】本発明の実施形態に係るテスト用タスクの割合と分類処理の担当として割り当てられた第二クラスタの数との関係及びテスト用タスクの割合と第二クラスタによる分類処理の正答率との関係をシミュレーションした結果の一例を示す図である。
【発明を実施するための形態】
【0015】
[実施形態]
図1から
図4を参照しながら、実施形態に係る割当装置の構成の一例について説明する。
図1は、本発明の実施形態に係る割当装置の構成の一例を示す図である。
図1に示すように、割当装置10は、信頼度算出部11と、クラスタリング装置割当部12とを備える。
【0016】
信頼度算出部11は、
図1に示した第一クラスタリング装置211がタスクリストに含まれるタスクを分類して生成した第一クラスタに含まれる第一分類済タスク及び第一分類済タスクに付された第一回答を含む第一分類結果の少なくとも一つと、
図1に示した第二クラスタリング装置221がタスクリストに含まれるタスクを分類して生成した第二クラスタに含まれる第二分類済タスク及び第二分類済タスクに付された第二回答を含む第二分類結果の少なくとも一つとを比較して第二クラスタの信頼度を算出する。第一分類済タスクは、第一クラスタの少なくとも一つに含まれているタスクである。同様に、第二分類済タスクは、第二クラスタの少なくとも一つに含まれているタスクである。第一分類結果は、第一分類済タスク及び第一回答を一つずつ含む。同様に、第二分類結果は、第二分類済タスク及び第二回答を一つずつ含む。
【0017】
図2は、本発明の実施形態に係るタスクと、各タスクへの回答と、各タスクの正解の一例を示す図である。
図2に示した表の左から一列目、二列目、三列目及び四列目は、それぞれタスクID、タスク、タスクへの回答及びタスクの正解を示している。ここで言うタスクは、動物を描出している写真及び「この動物の名称は何ですか?」という質問から構成されており、固有のタスクIDである「Q1」、「Q2」、「Q3」、…、「Q100000」が割り当てられている。タスクリストは、タスクの集合である。タスクへの回答は、
図1に示した第一クラスタリング装置211、…、21m(m:2以上の整数)、第二クラスタリング装置221、…又は22n(n:2以上の整数)が当該タスクについて当該タスクである写真が描出している動物の名称を判断した結果、例えば、「イヌ」、「ネコ」、「トリ」である。タスクの正解は、当該タスクである写真が描出している動物の正しい名称である。
【0018】
図3は、本発明の実施形態に係る第一クラスタリング装置が
図2に示したタスクリストに含まれるタスクを分類して生成した第一クラスタの一例を示す図である。第一クラスタリング装置211、…、21mは、例えばクラウドソーシングを利用して正確に分類された多数のタスクを利用して学習を十分に行っており、正解と一致する回答を一定以上の確率で出力することができるクラスタリング装置である。例えば、第一クラスタリング装置211は、
図2に示したタスクリストに含まれるタスク各々について回答を出力し、
図3に示した第一クラスタC11、C12及びC13を生成する。
【0019】
第一クラスタC11は、第一クラスタリング装置211が「イヌ」と回答したタスクが分類されているクラスタであり、各第一分類済タスクへの第一回答が正解である「イヌ」と一致している。したがって、この場合、第一クラスタリング装置211がタスクを第一クラスタC11に分類する処理は、信頼性が高いため、
図2に示したタスクリストに含まれるタスクを分類する分類処理に使用することが可能である。
【0020】
第一クラスタC12は、第一クラスタリング装置211が「ネコ」と回答したタスクが分類されているクラスタであり、各第一分類済タスクへの第一回答が正解である「ネコ」と一致している。したがって、この場合、第一クラスタリング装置211がタスクを第一クラスタC12に分類する処理は、信頼性が高いため、
図2に示したタスクリストに含まれるタスクを分類する分類処理に使用することが可能である。
【0021】
第一クラスタC13は、第一クラスタリング装置211が「トリ」と回答したタスクが分類されているクラスタであり、各第一分類済タスクへの第一回答が正解である「トリ」と一致している。したがって、この場合、第一クラスタリング装置211がタスクを第一クラスタC13に分類する処理は、信頼性が高いため、
図2に示したタスクリストに含まれるタスクを分類する分類処理に使用することが可能である。
【0022】
なお、第一クラスタリング装置211、…、21m各々が生成する第一クラスタの数は、特に限定されない。また、
図3では、第一クラスタC11、C12及びC13が互いに完全に独立している場合を例に挙げて説明したが、これに限定されない。すなわち、第一クラスタC11、C12及びC13のうち少なくとも二つの一部が互いに重複していてもよい。
【0023】
図4は、本発明の実施形態に係る第二クラスタリング装置が
図2に示したタスクリストに含まれるタスクを分類して生成した第二クラスタの一例を示す図である。第二クラスタリング装置221、…、22nは、例えば十分な学習を行っていないため、タスクを分類する分類処理を担当させてよいか否かが分かっていないクラスタリング装置である。例えば、第二クラスタリング装置221は、
図2に示したタスクリストに含まれるタスク各々について回答を出力し、
図4に示した第二クラスタC21、C22及びC23を生成する。
【0024】
また、第二クラスタリング装置221、…、22nは、
図2に示したタスクリストに含まれるタスクを分類する分類処理が開始された時点又は当該分類処理がある程度進んでいる時点で任意に追加され、当該分類処理を試験的に開始する。ただし、分類処理が開始された時点で追加された第二クラスタリング装置は、初めに教師無し学習を実行し、その後、適宜、教師無し学習又は教師有り学習を実行する。
【0025】
第二クラスタC21は、第二クラスタリング装置221が「イヌ」と回答したタスクが分類されているクラスタであり、各第二分類済タスクへの第二回答が正解である「イヌ」と一致している。第二クラスタC22は、第二クラスタリング装置221が「ネコ」と回答したタスクが分類されているクラスタであり、第二回答が正解である「ネコ」と一致している第二分類済タスクと、第二回答が正解である「ネコ」と一致していない第二分類済タスクとが混在している。第二クラスタC23は、第二クラスタリング装置221が「トリ」と回答したタスクが分類されているクラスタであり、第二回答が正解である「トリ」と一致している第二分類済タスクと、第二回答が正解である「トリ」と一致していない第二分類済タスクとが混在している。
【0026】
なお、第二クラスタリング装置221、…、22n各々が生成する第二クラスタの数は、特に限定されない。また、
図4では、第二クラスタC21、C22及びC23が互いに完全に独立している場合を例に挙げて説明したが、これに限定されない。すなわち、第二クラスタC21、C22及びC23のうち少なくとも二つの一部が互いに重複していてもよい。
【0027】
信頼度算出部11は、第一分類結果に統計的検定を適用して得られた結果と、第二分類結果に統計的検定を適用して得られた結果とを比較して信頼度を算出する。ここで言う統計的検定は、例えば、片側二項検定である。また、信頼度算出部11は、統計的検定として片側二項検定を第一分類結果に適用した場合、有意水準を信頼度として算出する。
【0028】
例えば、信頼度算出部11は、
図4に示した第二クラスタC21に含まれる第二分類済タスク及び第二回答に統計的検定を適用して解析した結果が、
図3に示した第一クラスタC11、C12及びC13各々に含まれる第一分類済タスク及び第一回答に統計的検定を適用して解析した結果各々と一致している度合いを示す値を算出する。第二クラスタC21は、第一クラスタC12及びC13よりも第一クラスタC11と一致している度合いが高い。したがって、この場合、信頼度算出部11は、第二クラスタC21が第一クラスタC11と一致している度合いを第二クラスタC21の信頼度として算出する。また、この信頼度は、第二クラスタリング装置221が生成した第二クラスタC21の信頼性が高いことを示す値となる。
【0029】
或いは、信頼度算出部11は、
図4に示した第二クラスタC22に含まれる第二分類済タスク及び第二回答に統計的検定を適用して解析した結果が、
図3に示した第一クラスタC11、C12及びC13各々に含まれる第一分類済タスク及び第一回答に統計的検定を適用して解析した結果各々と一致している度合いを示す値を算出する。第二クラスタC22は、第一クラスタC11及びC13よりも第一クラスタC12と一致している度合いが高い。したがって、この場合、信頼度算出部11は、第二クラスタC22が第一クラスタC11と一致している度合いを第二クラスタC22の信頼度として算出する。ただし、第二クラスタC22と第一クラスタC12とは一致していない部分もあるため、この信頼度は、第二クラスタリング装置221が生成した第二クラスタC22の信頼性が低いことを示す値となる。
【0030】
また、信頼度算出部11は、第二クラスタに含まれる第二分類結果を少なくとも一つの第一クラスタリング装置、例えば、第一クラスタリング装置211、…、21mそれぞれの第一クラスタに含まれる第一分類結果と比較して第二クラスタの信頼度を算出してもよい。
【0031】
また、信頼度算出部11は、第一分類結果の少なくとも一つと、第二分類結果の少なくとも一つとを比較して第一クラスタの信頼度を算出してもよい。第一クラスタの信頼度を算出する方法は、上述した第二クラスタの信頼度を算出する方法において、第一クラスタリング装置と第二クラスタリング装置とを入れ替えた場合と同様である。
【0032】
また、信頼度算出部11は、統計的検定を使用することなく信頼度を算出してもよい。
【0033】
クラスタリング装置割当部12は、第二クラスタの信頼度が所定の閾値を超えている場合、当該第二クラスタを使用して
図2に示したタスクリストに含まれるタスクを分類する分類処理の担当として第二クラスタリング装置を割り当てる。例えば、クラスタリング装置割当部12は、信頼度算出部11により高い信頼度が算出された第二クラスタC21を使用してタスクを分類する分類処理の担当として第二クラスタリング装置221を割り当てる。
【0034】
また、クラスタリング装置割当部12は、第二クラスタの信頼度が所定の閾値以下であり、かつ、再度算出される信頼度が所定の閾値を超える見込みがないと判定した場合、当該第二クラスタを使用して
図2に示したタスクリストに含まれるタスクを分類する分類処理の担当から第二クラスタリング装置を外す処理を実行する。例えば、
図4に示した第二クラスタC21、C22及びC23の信頼度がいずれも所定の閾値以下であり、これら三つの第二クラスタの信頼度を再度算出しても所定の閾値を超える見込みがないと判定された場合を考える。この場合、クラスタリング装置割当部12は、第二クラスタC21を使用した分類処理、第二クラスタC22を使用した分類処理及び第二クラスタC23を使用した分類処理の担当から第二クラスタリング装置221を外す処理を実行する。
【0035】
さらに、クラスタリング装置割当部12は、第二クラスタの信頼度が所定の閾値以下であり、かつ、再度算出される信頼度が所定の閾値を超える見込みがあると判定した場合、当該第二クラスタを使用して
図2に示したタスクリストに含まれるタスクを分類する分類処理の担当から第二クラスタリング装置を外す処理を保留する。例えば、
図4に示した第二クラスタC21、C22及びC23の信頼度がいずれも所定の閾値以下であり、これら三つの第二クラスタの信頼度を再度算出したら所定の閾値を超える見込みがあると判定された場合を考える。この場合、クラスタリング装置割当部12は、第二クラスタC21を使用した分類処理、第二クラスタC22を使用した分類処理及び第二クラスタC23を使用した分類処理の担当から第二クラスタリング装置221を外す処理を保留する。
【0036】
この場合、信頼度算出部11は、第二クラスタの信頼度を再度算出する。例えば、信頼度算出部11は、
図4に示した第二クラスタC21、C22及びC23の信頼度を再度算出する。この再計算が実行される際、第一クラスタリング装置により新たに追加された第一分類結果も考慮される。そして、クラスタリング装置割当部12は、再度算出された信頼度が所定の閾値を超えているか否かに基づいて、上述した処理を再度実行する。
【0037】
なお、再度算出される第二クラスタの信頼度が所定の閾値を超える見込みがあるか否かの判定は、例えば、当該第二クラスタに含まれる第二分類結果に統計的検定を適用した結果に基づいて実行される。
【0038】
また、信頼度算出部11は、統計的検定として片側二項検定を第一分類結果に適用した場合、例えば、有意水準5%を所定の閾値として採用する。
【0039】
次に、
図5を参照しながら、割当装置10が実行する処理の一例を説明する。
図5は、本発明の実施形態に係る割当装置が第二クラスタ各々について実行する処理の一例を示すフローチャートである。
【0040】
ステップS10において、信頼度算出部11は、第二クラスタC21の信頼度を算出する。
【0041】
ステップS20において、クラスタリング装置割当部12は、ステップS10で算出された信頼度が所定の閾値を超えているか否かを判定する。クラスタリング装置割当部12は、ステップS10で算出された信頼度が所定の閾値を超えていると判定した場合(ステップS20:Yes)、処理をステップS30に進め、ステップS10で算出された信頼度が所定の閾値以下であると判定した場合(ステップS20:No)、処理をステップS40に進める。
【0042】
ステップS30において、クラスタリング装置割当部12は、第二クラスタC21を使用してタスクリストに含まれるタスクを分類する分類処理の担当として第二クラスタリング装置221を割り当てる。
【0043】
ステップS40において、クラスタリング装置割当部12は、再度算出される信頼度が所定の閾値を超える見込みがあるか否かを判定する。クラスタリング装置割当部12は、再度算出される信頼度が所定の閾値を超える見込みがあると判定した場合(ステップS40:YES)、処理をステップS10に戻し、再度算出される信頼度が所定の閾値を超える見込みがないと判定した場合(ステップS40:NO)、処理をステップS50に進める。
【0044】
ステップS50において、クラスタリング装置割当部12は、第二クラスタC21を使用してタスクリストに含まれるタスクを分類する分類処理の担当から第二クラスタリング装置を外す。
【0045】
以上、実施形態に係る割当装置10について説明した。割当装置10は、第一クラスタに含まれる第一分類結果の少なくとも一つと、第二クラスタに含まれる第二分類結果の少なくとも一つとを比較して算出された信頼度が所定の閾値を超えている場合、当該第二クラスタを使用したタスクの分類処理の担当として第二クラスタリング装置を割り当てる。つまり、割当装置10は、第二クラスタリング装置が生成した複数の第二クラスタの少なくとも一つが分類処理に使用可能であることが判明した時点で当該第二クラスタリング装置による分類処理を開始させることができる。
【0046】
したがって、割当装置10は、タスクを分類する処理を早期に開始させることができる。また、割当装置10は、第二クラスタリング装置の学習が不完全な状態、すなわち全ての第二クラスタが所定の閾値を超えていない状態であっても、所定の閾値を超えている第二クラスタを使用した分類処理の担当として第二クラスタリング装置を有効に活用することができる。言い換えると、割当装置10は、第二クラスタが担当可能な分類処理に第二クラスタリング装置を割り当てるため、第一クラスタリング装置がそれら以外の分類処理の担当に専念させることができる。すなわち、割当装置10は、第二クラスタが担当可能な分類処理に第二クラスタリング装置を割り当てるため、第一クラスタリング装置が担当する分類処理の範囲及び第二クラスタリング装置が担当する分類処理の範囲を適切に決定することができる。さらに、割当装置10は、第二クラスタリング装置の種類に依らず、第二クラスタリング装置を活用し得るため、分類処理を実行するシステムを構築するためのコストを削減することができる。
【0047】
これらの効果は、クラウド等を通して、人工知能(AI:Artificial Intelligence)を使用した第二クラスタリング装置の作製をアウトソーシングする環境が整っているものの、作製された第二クラスタリング装置の評価を人の手で行わざるを得ない近年の状況下において特に有効である。
【0048】
また、割当装置10は、第一分類結果に統計的検定を適用して得られた結果と、第二分類結果に統計的検定を適用して得られた結果とを比較して信頼度を算出する。このため、割当装置10は、第一分類結果と第二分類結果とが一致している度合いを正確に見積もり、正確な信頼度を算出することができる。
【0049】
また、割当装置10は、第二クラスタの信頼度が所定の閾値以下である場合、第二クラスタリング装置を分類処理の担当から外す。このため、割当装置10は、分類処理を実行する上で信頼性が低い第二クラスタリング装置が分類処理の担当となり、タスクリストに含まれるタスクの処理の質が低下してしまうことを避けることができる。
【0050】
また、割当装置10は、第二クラスタに含まれる第二分類結果を複数の第一クラスタリング装置それぞれの第一クラスタに含まれる前記第一分類結果と比較して前記信頼度を算出する。このため、割当装置10は、正解と一致する回答を一定以上の確率で出力することができる複数の第一クラスタリング装置がタスクを分類した結果に基づいて正確な信頼度を算出することができる。
【0051】
また、割当装置10は、第一分類結果の少なくとも一つと、第二分類結果の少なくとも一つとを比較することにより、第二クラスタではなく第一クラスタの信頼度を算出する。このため、割当装置10は、第二クラスタリング装置が生成した第二クラスタの信頼度を算出する元となる第一クラスタの信頼性を見積もり、第二クラスタの信頼度がどの程度正確な値であるかを検証することができる。
【0052】
なお、第一クラスタリング装置211、…、21mは、第一クラスタC11、C12及びC13を明示的にではなく、実質的に生成してもよい。具体的には、第一クラスタリング装置211、…、21mは、第一分類結果各々について信頼度が算出されている場合、信頼度が0.5を超える第一分類結果の一群を第一クラスタC11とし、信頼度が0.7を超える第一分類結果の一群を第一クラスタC12とし、信頼度が0.9を超える第一分類結果の一群を第一クラスタC13としてもよい。
【0053】
同様に、第二クラスタリング装置221、…、22nは、第二クラスタC21、C22及びC23を明示的にではなく、実質的に生成してもよい。具体的には、第二クラスタリング装置221、…、22nは、第二分類結果各々について信頼度が算出されている場合、信頼度が0.6を超える第二分類結果の一群を第二クラスタC21とし、信頼度が0.8を超える第二分類結果の一群を第二クラスタC22とし、信頼度が0.9を超える第二分類結果の一群を第二クラスタC23としてもよい。
【0054】
次に、
図6から
図11を参照しながら、実施形態に係る割当装置が奏する効果に関する定量的なシミュレーションの結果について説明する。
【0055】
このシミュレーションでは、手書き文字を描出している画像及び「この画像が示している数字は10クラスのうちどれに分類されますか?」という質問から構成されるタスクを使用されている。また、当該質問に含まれているクラスは、数字に応じて分類されるクラスである。
【0056】
第一クラスタリング装置は、このシミュレーションにおいて、一度に200のタスクに対して必ず正解と一致する第一回答を出力すると仮定されている。第二クラスタリング装置は、上述したシミュレーションにおいて、ロジスティック回帰を使用した教師有り学習又はk平均法を使用した教師無し学習を実行するものとされている。また、第二クラスタリング装置は、ロジスティック回帰を使用した教師有り学習を実行する場合、タスクリストに含まれるタスクのうち第一クラスタリング装置によって回答されたタスクを学習用タスクとテスト用タスクに分けて使用する。一方、第二クラスタリング装置は、k平均法を使用した教師無し学習を実行する場合、タスクリストに含まれる全てのタスクを使用する。さらに、第二クラスタリング装置は、上述したシミュレーションにおいて、タスクを分類する分類処理の実行が開始される前に上述した教師有り学習及び教師無し学習の少なくとも一方を完了させている。
【0057】
また、信頼度算出部11は、上述したシミュレーションにおいて、片側二項検定を第一分類結果に適用して第二クラスタの有意水準を算出する。そして、クラスタリング装置割当部12は、第二クラスタの有意水準が有意水準5%を超えている場合、当該第二クラスタを使用してタスクを分類する分類処理の第二クラスタリング装置を分類処理の担当に割り当てる。
【0058】
図6は、本発明の実施形態に係る第一クラスタリング装置がタスクを分類した回数と分類済タスクの数との関係を片側二項検定における理論確率ごとにシミュレーションした結果の一例を示す図である。
図7は、本発明の実施形態に係る片側二項検定における理論確率と分類処理の担当として割り当てられた第二クラスタの数との関係及び片側二項検定における理論確率と第二クラスタによる分類処理の正答率との関係をシミュレーションした結果の一例を示す図である。
図6及び
図7に示したシミュレーションでは、第二クラスタリング装置は、上述した教師有り学習及び教師無し学習を実行している。
【0059】
図6に示すように、第一クラスタリング装置がタスクを分類した回数に関わらず、片側二項検定における理論確率hpが高い程、分類済タスクの数が多くなっている。また、
図6に示すように、分類済タスクの数は、片側二項検定における理論確率hpに関わらず、第一クラスタリング装置のみでタスクを分類する分類処理を実行した場合よりも多くなっている。
【0060】
また、
図7に折れ線グラフで示すように、片側二項検定における理論確率hpが高い程、第二クラスタによる分類処理の正答率が高くなっている。一方、
図7に棒グラフで示すように、片側二項検定における理論確率hpが高い程、分類処理の担当として割り当てられた第二クラスタの数が低くなっている。つまり、
図7は、片側二項検定における理論確率hpが第一クラスタリング装置に分類処理を担当させるコストと第二クラスタによる分類処理の正答率とのトレードオフを調整するパラメータとなっていることを示している。具体的には、
図7は、片側二項検定における理論確率hpが高い程、第二クラスタによる分類処理の速度が遅くなるものの、当該分類処理の正答率が高くなることを示している。
【0061】
図8は、本発明の実施形態に係る第一クラスタリング装置がタスクを分類した回数と分類済タスクの数との関係を第二クラスタの数ごとにシミュレーションした結果の一例を示す図である。
図9は、本発明の実施形態に係る第二クラスタの数と分類処理の担当として割り当てられた第二クラスタの数との関係及び第二クラスタの数と第二クラスタによる分類処理の正答率との関係をシミュレーションした結果の一例を示す図である。
図8及び
図9に示したシミュレーションでは、第二クラスタリング装置は、上述した教師無し学習を実行している。
【0062】
図8に示すように、第二クラスタの数kが多い程、分類済タスクの数が多くなっている。また、
図8に示すように、分類済タスクの数は、第二クラスタの数kに関わらず、第一クラスタリング装置のみでタスクを分類する分類処理を実行した場合よりも多くなっている。
【0063】
また、
図9に折れ線グラフで示すように、第二クラスタの数kが変化しても、第二クラスタによる分類処理の正答率は、ほぼ一定となっている。一方、
図9に棒グラフで示すように、第二クラスタの数kが多い程、分類処理の担当として割り当てられた第二クラスタの数が高くなっている。これらの振る舞いは、信頼度が所定の閾値を超えている場合にのみ、当該第二クラスタを使用して分類処理を実行する担当として第二クラスタリング装置が割り当てられていることに起因していると考えられる。また、第二クラスタの数kがタスクリストに含まれるタスクの総数に対して多い場合、第二クラスタの信頼度の算出の際に第二分類結果に適用する統計的検定の精度がタスクの総数の不足により低下してしまうと考えられる。
【0064】
図10は、本発明の実施形態に係る第一クラスタリング装置がタスクを分類した回数と分類済タスクの数との関係をテスト用タスクの割合ごとにシミュレーションした結果の一例を示す図である。
図11は、本発明の実施形態に係るテスト用タスクの割合と分類処理の担当として割り当てられた第二クラスタの数との関係及びテスト用タスクの割合と第二クラスタによる分類処理の正答率との関係をシミュレーションした結果の一例を示す図である。
図10及び
図11に示したシミュレーションでは、第二クラスタリング装置は、上述した教師無し学習を実行している。
【0065】
図10に示すように、テスト用タスクの割合が変化しても、分類済タスクの数の振る舞いは、あまり変化しないことがわかる。また、
図10に示すように、分類済タスクの数は、テスト用タスクの割合に関わらず、第一クラスタリング装置のみでタスクを分類する分類処理を実行した場合よりも多くなっている。
【0066】
また、
図11に折れ線で示すように、テスト用タスクの割合が変化しても、第二クラスタによる分類処理の正答率は、ほぼ一定となっている。一方、
図11に棒グラフで示すように、テスト用タスクの割合と分類処理の担当として割り当てられた第二クラスタの数との間には、あまり相関が無いことがわかる。
【0067】
また、上述した割当装置10が備える機能の全部又は一部は、プログラムとしてコンピュータ読み取り可能な記録媒体に記録され、このプログラムがコンピュータシステムにより実行されてもよい。コンピュータシステムは、OS、周辺機器等のハードウェアを含むものとする。また、コンピュータ読み取り可能な記録媒体は、例えば、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置、インターネット等のネットワーク上のサーバ等が備えるRAM(Random Access Memory)である。なお、揮発性メモリは、一定時間プログラムを保持する記録媒体の一例である。
【0068】
また、上述したプログラムは、伝送媒体、例えば、インターネット等のネットワーク、電話回線等の通信回線により他のコンピュータシステムに伝送されてもよい。
【0069】
また、上記プログラムは、上述した機能の全部又は一部を実現するプログラムであってもよい。なお、上述した機能の一部を実現するプログラムは、上述した機能をコンピュータシステムに予め記録されているプログラムとの組み合わせで実現できるプログラム、いわゆる差分プログラムであってもよい。
【0070】
以上、本発明を実施するための形態について図面を参照しながら説明したが、本発明は上述した実施形態に限定されるものではない。すなわち、本発明は、要旨を逸脱しない範囲内において構成要素の削除、変形及び置換を加えることができる。
【符号の説明】
【0071】
10…割当装置、11…信頼度算出部、12…クラスタリング装置割当部、211、…、21m…第一クラスタリング装置、221、…、22n…第二クラスタリング装置