(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-25
(45)【発行日】2024-10-03
(54)【発明の名称】情報処理プログラム、情報処理方法、および情報処理装置
(51)【国際特許分類】
G06N 20/00 20190101AFI20240926BHJP
G06N 5/025 20230101ALI20240926BHJP
【FI】
G06N20/00
G06N5/025
(21)【出願番号】P 2023548015
(86)(22)【出願日】2021-09-15
(86)【国際出願番号】 JP2021033991
(87)【国際公開番号】W WO2023042318
(87)【国際公開日】2023-03-23
【審査請求日】2023-12-27
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100104190
【氏名又は名称】酒井 昭徳
(72)【発明者】
【氏名】岩下 洋哲
(72)【発明者】
【氏名】後藤 啓介
(72)【発明者】
【氏名】大堀 耕太郎
【審査官】佐藤 直樹
(56)【参考文献】
【文献】国際公開第2021/079451(WO,A1)
【文献】国際公開第2020/059753(WO,A1)
【文献】福田貴三郎 ほか,説明可能AIにおける上位概念を考慮したナレッジグラフからの説明変数選択,人工知能学会研究会資料 [online],第53巻, 第5号,人工知能学会 セマンティックウェブとオントロジー研,2021年03月15日,pp.01-07(SIG-SWO-053-05),[検索日 2021.11.22], インターネット:<URL:https://jsai.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=11108&item_no=1&page_id=13&block_id=23>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 5/025
(57)【特許請求の範囲】
【請求項1】
それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、
取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、
判定した結果を出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【請求項2】
前記特定する処理は、
さらに、取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定し、
前記判定する処理は、
前記対象のデータを分類する場合、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在するか否かを判定する、ことを特徴とする請求項1に記載の情報処理プログラム。
【請求項3】
特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在せず、かつ、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在すれば、前記分類器による前記対象のデータの分類結果を肯定することを示す第1の情報を出力する、
処理を前記コンピュータに実行させることを特徴とする請求項2に記載の情報処理プログラム。
【請求項4】
特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在すれば、前記分類器による前記対象のデータの分類結果を否定することを示す第2の情報を出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1~3のいずれか一つに記載の情報処理プログラム。
【請求項5】
前記対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在すれば、前記対象のデータに対応する第1の属性値パターンを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1~4のいずれか一つに記載の情報処理プログラム。
【請求項6】
前記対象のデータを分類する場合、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在すれば、前記対象のデータに対応する第2の属性値パターンを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項2に記載の情報処理プログラム。
【請求項7】
前記取得する処理は、
前記複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得し、
前記特定する処理は、
取得した前記指標値に基づいて、前記それぞれの分類器について、前記複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
前記対象のデータを分類する場合、前記複数の分類器のうち、前記対象のデータに対応する第1の属性値パターンが存在しない分類器を選択して出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1~6のいずれか一つに記載の情報処理プログラム。
【請求項8】
前記取得する処理は、
前記複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得し、
前記特定する処理は、
取得した前記指標値に基づいて、前記それぞれの分類器について、前記複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定し、
前記対象のデータを分類する場合、前記複数の分類器のうち、前記対象のデータに対応する第2の属性値パターンが存在する分類器を選択して出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1~7のいずれか一つに記載の情報処理プログラム。
【請求項9】
それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、
取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、
判定した結果を出力する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【請求項10】
それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、
取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、
判定した結果を出力する、
制御部を有することを特徴とする情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理プログラム、情報処理方法、および情報処理装置に関する。
【背景技術】
【0002】
従来、入力されたデータを分類する分類器がある。
【0003】
先行技術としては、例えば、分類器を、利用者が解釈し易いモデルで近似するものがある。
【先行技術文献】
【非特許文献】
【0004】
【文献】Breiman, Leo, and Nong Shang. “Born again trees.” University of California, Berkeley, Berkeley, CA, Technical Report 1.2 (1996): 4.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、利用者は、分類器によるデータの分類結果をどの程度信頼可能であるのかを把握することが難しい。例えば、深層学習により得られる分類器が、ブラックボックスモデルであることがあり、利用者は、分類器のパラメータを参照したとしても、分類器によるデータの分類結果をどの程度信頼可能であるのかを把握することができない場合がある。
【0006】
1つの側面では、本発明は、分類器によるデータの分類結果の信頼性を評価可能にする情報を出力することを目的とする。
【課題を解決するための手段】
【0007】
1つの実施態様によれば、それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、判定した結果を出力する情報処理プログラム、情報処理方法、および情報処理装置が提案される。
【発明の効果】
【0008】
一態様によれば、分類器によるデータの分類結果の信頼性を評価可能にする情報を出力することが可能になる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。
【
図2】
図2は、信頼性評価システム200の一例を示す説明図である。
【
図3】
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。
【
図4】
図4は、情報処理装置100の機能的構成例を示すブロック図である。
【
図5】
図5は、サンプルとなる複数のデータの一例を示す説明図である。
【
図7】
図7は、属性値パターンごとに、正解数と不正解数とを算出する一例を示す説明図である。
【
図8】
図8は、分類結果が正解となるデータの数が相対的に多い属性値パターンを特定する一例を示す説明図である。
【
図9】
図9は、分類結果が正解となるデータの数が相対的に少ない属性値パターンを特定する一例を示す説明図である。
【
図10】
図10は、対象のデータの分類結果の信頼性を評価する一例を示す説明図(その1)である。
【
図11】
図11は、対象のデータの分類結果の信頼性を評価する一例を示す説明図(その2)である。
【
図12】
図12は、判定処理手順の一例を示すフローチャートである。
【
図13】
図13は、分類処理手順の一例を示すフローチャートである。
【
図14】
図14は、選択処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に、図面を参照して、本発明にかかる情報処理プログラム、情報処理方法、および情報処理装置の実施の形態を詳細に説明する。
【0011】
(実施の形態にかかる情報処理方法の一実施例)
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。情報処理装置100は、分類器によるデータの分類結果の信頼性を評価可能にする情報を出力するためのコンピュータである。情報処理装置100は、例えば、サーバ、または、PC(Personal Computer)などである。
【0012】
分類器は、入力されたデータを分類する機能を有する。分類器は、例えば、入力されたデータを、複数のクラスのいずれかのクラスに分類する。分類器は、例えば、ニューラルネットワーク、ツリー、または、数式などである。分類器は、例えば、専門家などの人間であってもよい。
【0013】
ここで、利用者は、分類器によるデータの分類結果をどの程度信頼可能であるのかを把握することを望む場合がある。
【0014】
しかしながら、従来では、利用者が、分類器によるデータの分類結果をどの程度信頼可能であるのかを把握することは難しい。例えば、分類器が、深層学習により得られたブラックボックスモデルであると、利用者は、分類器のパラメータを参照したとしても、分類器によるデータの分類結果をどの程度信頼可能であるのかを把握することは難しい。
【0015】
具体的には、利用者が、パラメータなどを含む分類器の構造を参照しても、分類器がデータを分類する根拠または仕組みなどを解釈することが難しい場合、分類器は、ブラックボックスモデルと呼ばれる。具体的には、分類器が、ニューラルネットワークである場合、ブラックボックスモデルである傾向がある。具体的には、利用者は、分類器となるニューラルネットワークに含まれるノードと、当該ノード間のエッジと、当該エッジのパラメータとを参照しても、分類器となるニューラルネットワークがデータを分類する根拠または仕組みなどを解釈することは難しい。
【0016】
これに対し、あるデータ点について、ブラックボックスモデルを、ブラックボックスモデルの挙動を表すモデルで近似し、近似したモデルで用いられる特徴量の貢献度を出力する第1の手法が考えられる。第1の手法では、ブラックボックスモデルの挙動を近似するものの、ブラックボックスモデルの挙動が、分類器としてどの程度信頼可能であるのかを表していない。このため、第1の手法では、利用者は、分類器によるデータの分類結果を信頼可能である理由または根拠などを把握することが難しい場合がある。例えば、第1の手法については、具体的には、下記参考文献1および下記参考文献2などを参照することができる。
【0017】
参考文献1 : Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. ““ Why should i trust you?” Explaining the predictions of any classifier.” Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
【0018】
参考文献2 : Lundberg, Scott M., and Su-In Lee. “A unified approach to interpreting model predictions.” Proceedings of the 31st international conference on neural information processing systems. 2017.
【0019】
また、分類器を、利用者が解釈し易いモデルで近似する第2の手法が考えられる。モデルは、例えば、ツリー、または、ルールリストなどである。第2の手法では、利用者は、近似されたモデルを参照して、分類器によるデータの分類結果を信頼可能である理由または根拠などを把握しようと試みることになる。第2の手法では、近似されたモデルが、分類器によるデータの分類結果を信頼可能である理由または根拠などを、正確に、または、解釈し易く表しているとは限らない。このため、第2の手法では、利用者は、分類器によるデータの分類結果を信頼可能である理由または根拠などを把握することが難しい場合がある。例えば、第2の手法については、具体的には、上記非特許文献1などを参照することができる。
【0020】
そこで、本実施の形態では、分類器によるデータの分類結果の信頼性を評価可能にする情報を出力することができる情報処理方法について説明する。
【0021】
図1において、分類器110により、それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンを有するデータ111が、複数のクラスのいずれかのクラスに分類されたとする。属性値パターンは、1以上の属性のそれぞれの属性に関する属性値を組み合わせたパターンである。属性値は、何らかの属性に関する値である。
【0022】
属性値パターンは、1以上の属性のそれぞれの属性に関する属性値に対する条件を組み合わせたパターンであってもよい。条件は、例えば、属性値となり得る複数の値を示す。条件は、例えば、属性値が取り得る値の範囲を示す。換言すれば、属性値パターンは、1以上の属性のそれぞれの属性に関する属性値が取り得る範囲を組み合わせたパターンであってもよい。
【0023】
図1の例では、属性値パターンは、具体的には、{早朝,住宅街}、{真夏,雨天}、または、{道路沿い}などである。早朝は、時間の属性に関する属性値である。住宅街および道路沿いは、場所の属性に関する属性値である。真夏は、例えば、時期の属性に関する属性値である。雨天は、例えば、天気の属性に関する属性値である。データ111は、例えば、音声を表す。音声は、例えば、鳴き声を示す。複数のクラスは、例えば、音声が鳩の鳴き声であることを示すクラスと、音声がカラスの鳴き声であることを示すクラスと、音声が雀の鳴き声であることを示すクラスとなどを含む。
【0024】
(1-1)情報処理装置100は、複数の属性値パターンのそれぞれの属性値パターンを有するデータ111を分類器110で分類する場合において分類結果が正解となるデータ111の数の多さを示す指標値を取得する。指標値は、例えば、分類結果が正解となるデータ111の数を示す正解数である。指標値は、例えば、分類結果が不正解となるデータ111の数を示す不正解数であってもよい。
【0025】
指標値は、例えば、ある属性値パターンを有するデータ111のうち、分類結果が正解となるデータ111の割合を示す正解率であってもよい。指標値は、例えば、ある属性値パターンを有するデータ111のうち、分類結果が不正解となるデータ111の割合を示す不正解率であってもよい。
【0026】
図1の例では、情報処理装置100は、例えば、属性値パターン{早朝,住宅街}を有するデータ111に関する正解率95%を取得する。
図1の例では、情報処理装置100は、例えば、属性値パターン{真夏,雨天}を有するデータ111に関する正解率40%を取得する。
図1の例では、情報処理装置100は、例えば、属性値パターン{道路沿い}を有するデータ111に関する正解率40%を取得する。
【0027】
(1-2)情報処理装置100は、取得した指標値に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータ111の数が相対的に少ない第1の属性値パターンを特定する。情報処理装置100は、例えば、複数の属性値パターンのうち、正解率が閾値以下である属性値パターンを、第1の属性値パターンとして特定する。閾値は、例えば、50%である。
【0028】
図1の例では、情報処理装置100は、具体的には、正解率が50%以下である属性値パターン{真夏,雨天}を、第1の属性値パターンとして特定する。
図1の例では、情報処理装置100は、具体的には、正解率が50%以下である属性値パターン{道路沿い}を、第1の属性値パターンとして特定する。これにより、情報処理装置100は、分類器110により分類困難なデータ111が、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0029】
(1-3)情報処理装置100は、対象のデータを分類する場合、特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在するか否かを判定する。情報処理装置100は、判定した結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。
図1の例では、対象のデータは、属性値パターン{真夏,雨天}を有するとする。情報処理装置100は、例えば、対象のデータに対応する第1の属性値パターン{真夏,雨天}が存在すると判定する。
【0030】
これにより、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易くすることができる。また、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを納得し易くすることができる。情報処理装置100は、例えば、利用者が、対象のデータに対応する第1の属性値パターンが存在することを把握可能にすることができる。利用者は、例えば、対象のデータに対応する第1の属性値パターンが存在することを考慮し、対象のデータとは、分類器110により正しく分類することが難しいデータであると判断することができる。
【0031】
このため、利用者は、例えば、対象のデータに対応する第1の属性値パターンが存在することを考慮し、分類器110による対象のデータの分類結果の信頼性が比較的低い状況であると判断することができる。利用者は、分類器110がブラックボックスモデルであっても、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを比較的容易に把握することができる。
【0032】
利用者は、分類器110の挙動自体ではなく、対象のデータに対応する第1の属性値パターンが存在するという、対象のデータの分類結果の信頼性が比較的低い状況であることの根拠を把握することができる。このため、利用者は、対象のデータの分類結果の信頼性が比較的低い状況であることを納得することができる。
【0033】
情報処理装置100は、対象のデータに対応する第1の属性値パターンが存在すれば、対象のデータに対応する第1の属性値パターンを出力してもよい。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。情報処理装置100は、例えば、対象のデータに対応する第1の属性値パターン{真夏,雨天}を出力する。
【0034】
これにより、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかをさらに把握し易くすることができる。また、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを納得し易くすることができる。情報処理装置100は、例えば、利用者が、分類器110による対象のデータの分類結果の信頼性が比較的低い状況である根拠として、対象のデータに対応する第1の属性値パターンを参照可能にすることができる。
【0035】
このため、利用者は、対象のデータに対応する第1の属性値パターンを考慮し、分類器110による対象のデータの分類結果の信頼性が比較的低い状況であると判断することができる。利用者は、分類器110がブラックボックスモデルであっても、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを比較的容易に把握することができる。
【0036】
利用者は、分類器110の挙動自体ではなく、対象のデータに対応する第1の属性値パターンという、対象のデータの分類結果の信頼性が比較的低い状況であることの根拠を把握することができる。このため、利用者は、対象のデータの分類結果の信頼性が比較的低い状況であることを納得することができる。
【0037】
ここでは、情報処理装置100が、指標値に基づいて、第1の属性値パターンを特定する場合について説明したが、これに限らない。例えば、情報処理装置100が、指標値に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータ111の数が相対的に多い第2の属性値パターンを特定する場合があってもよい。これにより、情報処理装置100は、分類器110により分類し易いデータ111が、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0038】
ここで、情報処理装置100は、対象のデータを分類する場合、特定した第2の属性値パターンのうち、対象のデータに対応する第2の属性値パターンが存在するか否かを判定してもよい。情報処理装置100は、判定した結果を出力してもよい。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。対象のデータが、属性値パターン{早朝,住宅街}を有するとすれば、情報処理装置100は、例えば、対象のデータに対応する第2の属性値パターン{早朝,住宅街}が存在すると判定してもよい。
【0039】
これにより、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易くすることができる。また、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを納得し易くすることができる。情報処理装置100は、例えば、利用者が、対象のデータに対応する第2の属性値パターンが存在することを把握可能にすることができる。利用者は、例えば、対象のデータに対応する第2の属性値パターンが存在することを考慮し、対象のデータとは、分類器110により正しく分類し易いデータであると判断することができる。
【0040】
このため、利用者は、例えば、対象のデータに対応する第2の属性値パターンが存在することを考慮し、分類器110による対象のデータの分類結果の信頼性が比較的高い状況であると判断することができる。利用者は、分類器110がブラックボックスモデルであっても、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを比較的容易に把握することができる。
【0041】
利用者は、分類器110の挙動自体ではなく、対象のデータに対応する第2の属性値パターンが存在するという、対象のデータの分類結果の信頼性が比較的高い状況であることの根拠を把握することができる。このため、利用者は、対象のデータの分類結果の信頼性が比較的高い状況であることを納得することができる。
【0042】
情報処理装置100は、対象のデータに対応する第2の属性値パターンが存在すれば、対象のデータに対応する第2の属性値パターンを出力してもよい。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、他のコンピュータへの送信、または、記憶領域への記憶などである。情報処理装置100は、例えば、対象のデータに対応する第2の属性値パターン{早朝,住宅街}を出力する。
【0043】
これにより、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかをさらに把握し易くすることができる。また、情報処理装置100は、利用者が、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを納得し易くすることができる。情報処理装置100は、例えば、利用者が、分類器110による対象のデータの分類結果の信頼性が比較的高い状況である根拠として、対象のデータに対応する第2の属性値パターンを参照可能にすることができる。
【0044】
このため、利用者は、対象のデータに対応する第2の属性値パターンを考慮し、分類器110による対象のデータの分類結果の信頼性が比較的高い状況であると判断することができる。利用者は、分類器110がブラックボックスモデルであっても、分類器110による対象のデータの分類結果をどの程度信頼可能であるのかを比較的容易に把握することができる。
【0045】
利用者は、分類器110の挙動自体ではなく、対象のデータに対応する第2の属性値パターンという、対象のデータの分類結果の信頼性が比較的高い状況であることの根拠を把握することができる。このため、利用者は、対象のデータの分類結果の信頼性が比較的高い状況であることを納得することができる。
【0046】
ここでは、情報処理装置100が、単独で動作する場合について説明したが、これに限らない。例えば、情報処理装置100が、他のコンピュータと協働する場合があってもよい。具体的には、情報処理装置100が、対象のデータを、他のコンピュータから受信する場合があってもよい。情報処理装置100が、他のコンピュータと協働する場合の一例については、具体的には、
図2を用いて後述する。
【0047】
(信頼性評価システム200の一例)
次に、
図2を用いて、
図1に示した情報処理装置100を適用した、信頼性評価システム200の一例について説明する。
【0048】
図2は、信頼性評価システム200の一例を示す説明図である。
図2において、信頼性評価システム200は、情報処理装置100と、情報蓄積装置201と、クライアント装置202とを含む。
【0049】
信頼性評価システム200において、情報処理装置100と情報蓄積装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。また、信頼性評価システム200において、情報処理装置100とクライアント装置202とは、有線または無線のネットワーク210を介して接続される。
【0050】
情報処理装置100は、対象の分類器を有するコンピュータである。対象の分類器は、例えば、1つ存在する。情報処理装置100は、情報蓄積装置201から、対象の分類器で分類可能な、サンプルとなる複数のデータを収集する。それぞれのデータは、例えば、異なる属性値パターンを有することが好ましい。情報処理装置100は、収集した複数のデータを、対象の分類器により、複数のクラスのいずれかのクラスに分類する。
【0051】
情報処理装置100は、それぞれのデータの分類結果に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定する。情報処理装置100は、それぞれのデータの分類結果に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定する。
【0052】
情報処理装置100は、クライアント装置202から、対象のデータを受信する。情報処理装置100は、対象のデータを、対象の分類器により、複数のクラスのいずれかのクラスに分類する。情報処理装置100は、特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在するか否かを判定する。情報処理装置100は、特定した第2の属性値パターンのうち、対象のデータに対応する第2の属性値パターンが存在するか否かを判定する。
【0053】
情報処理装置100は、判定した結果に基づいて、対象のデータの分類結果の信頼性を評価可能にする評価情報を生成する。情報処理装置100は、対象のデータの分類結果と、生成した評価情報とを対応付けて、クライアント装置202に送信する。情報処理装置100は、例えば、サーバ、または、PCなどである。
【0054】
情報蓄積装置201は、サンプルとなるデータを、情報処理装置100に送信するコンピュータである。情報蓄積装置201は、例えば、センサで計測した特徴量に基づいて、サンプルとなるデータを生成し、情報処理装置100に送信する。情報蓄積装置201は、例えば、PC、タブレット端末、スマートフォン、ウェアラブル端末、または、センサ装置などである。センサ装置は、例えば、カメラ装置、または、レコーダーなどである。
【0055】
クライアント装置202は、利用者によって用いられるコンピュータである。クライアント装置202は、対象のデータを、情報処理装置100に送信する。クライアント装置202は、例えば、センサで計測した特徴量に基づいて、対象のデータを生成し、情報処理装置100に送信する。クライアント装置202は、対象のデータの分類結果と、評価情報とを、情報処理装置100から受信する。クライアント装置202は、対象のデータの分類結果と、評価情報とを、利用者が参照可能に出力する。クライアント装置202は、例えば、PC、タブレット端末、スマートフォン、または、ウェアラブル端末などである。
【0056】
これにより、信頼性評価システム200は、対象のデータを分類器により分類すると共に、対象のデータの分類結果の信頼性を評価可能にする評価情報を、クライアント装置202を利用する利用者に提供するという信頼性評価サービスを実施することができる。
【0057】
信頼性評価サービスは、例えば、医療分野に適用される場合が考えられる。この場合、例えば、データは、患者のバイタルを示すことが考えられる。クラスは、患者がかかっている病気を示すことが考えられる。また、信頼性評価サービスは、例えば、音声解析に適用される場合が考えられる。この場合、例えば、データは、鳴き声の音声を示すことが考えられる。クラスは、鳴き声に対応する動物を示すことが考えられる。
【0058】
また、信頼性評価サービスは、例えば、文字解析に適用される場合が考えられる。この場合、例えば、データは、筆跡を示すことが考えられる。クラスは、筆跡の属する文字を示すことが考えられる。また、信頼性評価サービスは、例えば、天候予測に適用される場合が考えられる。この場合、例えば、データは、気圧または風速などの属性値を示すことが考えられる。クラスは、天候を示すことが考えられる。
【0059】
ここでは、対象の分類器が、1つ存在する場合について説明したが、これに限らない。例えば、対象の分類器が、複数存在する場合があってもよい。この場合、情報処理装置100は、例えば、複数の分類器のうち、対象のデータに適した分類器を選択し、選択した分類器により、対象のデータを複数のクラスのいずれかのクラスに分類してもよい。情報処理装置100は、具体的には、複数の分類器のうち、第1の属性値パターンが存在しないと判定し、第2の属性値パターンが存在すると判定した分類器を、対象のデータに適した分類器として選択することが考えられる。また、情報処理装置100は、選択した分類器を、クライアント装置202に提供し、自装置では、対象のデータを分類せずに済ませる場合があってもよい。
【0060】
(情報処理装置100のハードウェア構成例)
次に、
図3を用いて、情報処理装置100のハードウェア構成例について説明する。
【0061】
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。
図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。
【0062】
ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることにより、コーディングされている処理をCPU301に実行させる。
【0063】
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
【0064】
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。
【0065】
情報処理装置100は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。
【0066】
(情報蓄積装置201のハードウェア構成例)
情報蓄積装置201のハードウェア構成例は、具体的には、
図3に示した情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
【0067】
(クライアント装置202のハードウェア構成例)
クライアント装置202のハードウェア構成例は、具体的には、
図3に示した情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
【0068】
(情報処理装置100の機能的構成例)
次に、
図4を用いて、情報処理装置100の機能的構成例について説明する。
【0069】
図4は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部400と、取得部401と、特定部402と、判定部403と、分類部404と、出力部405とを含む。
【0070】
記憶部400は、例えば、
図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部400が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部400が、情報処理装置100とは異なる装置に含まれ、記憶部400の記憶内容が情報処理装置100から参照可能である場合があってもよい。
【0071】
取得部401~出力部405は、制御部の一例として機能する。取得部401~出力部405は、具体的には、例えば、
図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、
図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
【0072】
記憶部400は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部400は、分類器を記憶する。分類器は、例えば、ブラックボックスモデルである。分類器は、具体的には、ニューラルネットワークである。記憶部400は、分類器を複数記憶していてもよい。記憶部400は、例えば、分類器の構造と、分類器のパラメータとを記憶する。
【0073】
記憶部400は、サンプルとなる複数のデータを記憶する。サンプルとなる複数のデータは、それぞれ、分類器の分類対象として用いられる。サンプルとなる複数のデータは、それぞれ、属性値パターンを有する。属性値パターンは、1以上の属性のそれぞれの属性に関する属性値を組み合わせたパターンである。属性値は、何らかの属性に関する値である。
【0074】
属性値パターンは、1以上の属性のそれぞれの属性に関する属性値に対する条件を組み合わせたパターンであってもよい。条件は、例えば、属性値となり得る複数の値を示す。条件は、例えば、属性値が取り得る値の範囲を示す。換言すれば、属性値パターンは、1以上の属性のそれぞれの属性に関する属性値が取り得る範囲を組み合わせたパターンであってもよい。サンプルとなる複数のデータは、例えば、取得部401によって取得され、記憶部400によって記憶される。サンプルとなる複数のデータは、例えば、記憶部400によって予め記憶されていてもよい。
【0075】
記憶部400は、対象のデータを記憶する。対象のデータは、分類器の分類対象として用いられる。対象のデータは、属性値パターンを有する。対象のデータは、例えば、取得部401によって取得され、記憶部400によって記憶される。記憶部400は、それぞれ異なる複数の属性値パターンを記憶する。属性値パターンは、例えば、取得部401によって取得され、記憶部400によって記憶される。属性値パターンは、例えば、記憶部400によって予め記憶されていてもよい。
【0076】
記憶部400は、それぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を記憶する。指標値は、例えば、分類結果が正解となるデータの数を示す正解数である。指標値は、例えば、分類結果が不正解となるデータの数を示す不正解数であってもよい。
【0077】
指標値は、例えば、ある属性値パターンを有するデータのうち、分類結果が正解となるデータの割合を示す正解率であってもよい。指標値は、例えば、ある属性値パターンを有するデータのうち、分類結果が不正解となるデータの割合を示す不正解率であってもよい。指標値は、例えば、取得部401によって取得され、記憶部400によって記憶される。指標値は、例えば、記憶部400によって予め記憶されていてもよい。
【0078】
記憶部400は、複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を記憶していてもよい。指標値は、例えば、取得部401によって取得され、記憶部400によって記憶される。指標値は、例えば、記憶部400によって予め記憶されていてもよい。
【0079】
取得部401は、各機能部の処理に用いられる各種情報を取得する。取得部401は、取得した各種情報を、記憶部400に記憶し、または、各機能部に出力する。また、取得部401は、記憶部400に記憶しておいた各種情報を、各機能部に出力してもよい。取得部401は、例えば、利用者の操作入力に基づき、各種情報を取得する。取得部401は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。
【0080】
取得部401は、分類器を取得する。取得部401は、例えば、利用者の操作入力に基づき、分類器の入力を受け付けることにより、分類器を取得する。取得部401は、例えば、分類器を、他のコンピュータから受信することにより取得してもよい。取得部401は、複数の分類器を取得してもよい。
【0081】
取得部401は、サンプルとなる複数のデータを取得する。取得部401は、例えば、利用者の操作入力に基づき、サンプルとなる複数のデータの入力を受け付けることにより、サンプルとなる複数のデータを取得する。取得部401は、例えば、サンプルとなる複数のデータを、他のコンピュータから受信することにより取得してもよい。取得部401は、それぞれの分類器で分類可能なサンプルとなる複数のデータを取得してもよい。
【0082】
取得部401は、複数の属性値パターンを取得する。取得部401は、例えば、取得した複数のデータに基づいて、複数の属性値パターンを特定することにより、複数の属性値パターンを取得する。取得部401は、例えば、利用者の操作入力に基づき、複数の属性値パターンの入力を受け付けることにより、複数の属性値パターンを取得してもよい。
【0083】
取得部401は、それぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得する。取得部401は、例えば、利用者の操作入力に基づき、それぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値の入力を受け付けることにより、指標値を取得する。取得部401は、例えば、取得した複数のデータを分類器で実際に分類した結果に基づいて、それぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を算出することにより取得してもよい。
【0084】
取得部401は、それぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得してもよい。取得部401は、例えば、利用者の操作入力に基づき、それぞれの属性値パターンのデータを、それぞれの分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値の入力を受け付けることにより、指標値を取得する。取得部401は、例えば、それぞれの分類器に対応するサンプルとなる複数のデータを、当該分類器で実際に分類してもよい。そして、取得部401は、例えば、分類した結果に基づいて、それぞれの属性値パターンのデータを、それぞれの分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を算出することにより取得する。
【0085】
取得部401は、対象のデータを取得する。取得部401は、例えば、利用者の操作入力に基づき、対象のデータの入力を受け付けることにより、対象のデータを取得する。取得部401は、例えば、対象のデータを、他のコンピュータから受信することにより取得してもよい。
【0086】
取得部401は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、利用者による所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。取得部401は、指標値を取得したことを、特定部402の処理を開始する開始トリガーとして受け付ける。取得部401は、例えば、対象のデータを取得したことを、判定部403と分類部404との処理を開始する開始トリガーとして受け付ける。
【0087】
特定部402は、取得した指標値に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定する。特定部402は、例えば、指標値として取得した正解率に基づいて、複数の属性値パターンのうち、正解率が閾値以下である属性値パターンを、第1の属性値パターンとして特定する。ここでは、閾値は、例えば、80%である。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0088】
特定部402は、例えば、指標値として取得した正解数に基づいて、複数の属性値パターンのうち、正解数が閾値以下である属性値パターンを、第1の属性値パターンとして特定してもよい。閾値は、例えば、固定値である。閾値は、例えば、可変値であってもよい。閾値は、例えば、20である。閾値は、例えば、サンプルとなるデータの数の何割かに対応する数であってもよい。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0089】
特定部402は、例えば、指標値として取得した正解率および正解数に基づいて、第1の属性値パターンを特定してもよい。特定部402は、具体的には、複数の属性値パターンのうち、正解率が第1の閾値以下、かつ、正解数が第2の閾値以下である属性値パターンを、第1の属性値パターンとして特定してもよい。特定部402は、具体的には、正解率が第1の閾値以下、または、正解数が第2の閾値以下である属性値パターンを、第1の属性値パターンとして特定してもよい。これにより、特定部402は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0090】
特定部402は、例えば、指標値として取得した不正解率に基づいて、複数の属性値パターンのうち、不正解率が閾値以上である属性値パターンを、第1の属性値パターンとして特定してもよい。ここでは、閾値は、例えば、20%である。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0091】
特定部402は、例えば、指標値として取得した不正解数に基づいて、複数の属性値パターンのうち、不正解数が閾値以上である属性値パターンを、第1の属性値パターンとして特定してもよい。閾値は、例えば、固定値である。閾値は、例えば、可変値であってもよい。閾値は、例えば、10である。閾値は、例えば、サンプルとなるデータの数の何割かに対応する数であってもよい。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0092】
特定部402は、例えば、取得した指標値に基づいて、それぞれの分類器について、複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定してもよい。これにより、特定部402は、それぞれの分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0093】
特定部402は、取得した指標値に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定する。特定部402は、例えば、指標値として取得した正解率に基づいて、複数の属性値パターンのうち、正解率が閾値以上である属性値パターンを、第2の属性値パターンとして特定する。ここでは、閾値は、例えば、90%である。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0094】
特定部402は、例えば、指標値として取得した正解数に基づいて、複数の属性値パターンのうち、正解数が閾値以上である属性値パターンを、第2の属性値パターンとして特定してもよい。閾値は、例えば、固定値である。閾値は、例えば、可変値であってもよい。閾値は、例えば、50である。閾値は、例えば、サンプルとなるデータの数の何割かに対応する数であってもよい。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0095】
特定部402は、例えば、指標値として取得した正解率および正解数に基づいて、第2の属性値パターンを特定してもよい。特定部402は、具体的には、複数の属性値パターンのうち、正解率が第3の閾値以上、かつ、正解数が第4の閾値以上である属性値パターンを、第2の属性値パターンとして特定してもよい。特定部402は、具体的には、正解率が第3の閾値以上、または、正解数が第4の閾値以上である属性値パターンを、第2の属性値パターンとして特定してもよい。これにより、特定部402は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0096】
特定部402は、例えば、指標値として取得した不正解率に基づいて、複数の属性値パターンのうち、不正解率が閾値以下である属性値パターンを、第2の属性値パターンとして特定してもよい。ここでは、閾値は、例えば、10%である。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0097】
特定部402は、例えば、指標値として取得した不正解数に基づいて、複数の属性値パターンのうち、不正解数が閾値以下である属性値パターンを、第2の属性値パターンとして特定してもよい。閾値は、例えば、固定値である。閾値は、例えば、可変値であってもよい。閾値は、例えば、10である。閾値は、例えば、サンプルとなるデータの数の何割かに対応する数であってもよい。閾値は、例えば、予め設定される。これにより、特定部402は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0098】
特定部402は、例えば、取得した指標値に基づいて、それぞれの分類器について、複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定してもよい。これにより、特定部402は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。
【0099】
判定部403は、ある分類器について特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在するか否かを判定する。これにより、判定部403は、対象のデータが、当該分類器により正しく分類することが難しいデータであると判定することができる。
【0100】
判定部403は、ある分類器について特定した第2の属性値パターンのうち、対象のデータに対応する第2の属性値パターンが存在するか否かを判定する。これにより、判定部403は、対象のデータが、当該分類器により正しく分類することが容易なデータであると判定することができる。
【0101】
判定部403は、対象のデータの分類結果の信頼性を評価可能にする評価情報を生成してもよい。判定部403は、例えば、ある分類器について、対象のデータに対応する第1の属性値パターンが存在せず、かつ、対象のデータに対応する第2の属性値パターンが存在すれば、評価情報として第1の情報を生成する。第1の情報は、例えば、当該分類器による対象のデータの分類結果を肯定することを示す情報である。第1の情報は、具体的には、当該分類器による対象のデータの分類結果が信頼可能である確率が比較的高いと判断したことを示すメッセージを含む。これにより、判定部403は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0102】
判定部403は、例えば、ある分類器について、対象のデータに対応する第1の属性値パターンが存在すれば、評価情報として第2の情報を生成する。第2の情報は、例えば、当該分類器による対象のデータの分類結果を否定することを示す情報である。第2の情報は、具体的には、当該分類器による対象のデータの分類結果が信頼可能である確率が比較的低いと判断したことを示すメッセージを含む。これにより、判定部403は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0103】
判定部403は、複数の分類器のうち、対象のデータに適した分類器を選択してもよい。対象のデータに適した分類器は、例えば、対象のデータを精度よく分類可能と判断される分類器である。判定部403は、例えば、複数の分類器のうち、対象のデータに対応する第1の属性値パターンが存在しない分類器を選択する。
【0104】
判定部403は、例えば、複数の分類器のうち、対象のデータに対応する第2の属性値パターンが存在する分類器を選択してもよい。判定部403は、例えば、複数の分類器のうち、対象のデータに対応する第1の属性値パターンが存在せず、かつ、対象のデータに対応する第2の属性値パターンが存在する分類器を選択してもよい。これにより、判定部403は、複数の分類器の中から、対象のデータに適した分類器を選択的に利用可能にすることができる。
【0105】
判定部403は、対象のデータに対応する第1の属性値パターンと、対象のデータに対応する第2の属性値パターンとに基づいて、分類器による対象のデータの分類結果の尤もらしさを評価してもよい。判定部403は、例えば、対象のデータに対応する第1の属性値パターンが少ないほど、または、対象のデータに対応する第2の属性値パターンが多いほど、値が大きくなる評価値を、分類器による対象のデータの分類結果の尤もらしさを示す指標値として算出する。
【0106】
判定部403は、対象のデータに対応する第1の属性値パターンと、対象のデータに対応する第2の属性値パターンとに基づいて、それぞれの分類器による対象のデータの分類結果の尤もらしさを評価してもよい。これにより、判定部403は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0107】
分類部404は、分類器により対象のデータを分類する。分類部404は、分類器により対象のデータを複数のクラスのいずれかのクラスに分類する。分類部404は、複数の分類器のうち、選択した分類器により対象のデータを分類してもよい。これにより、分類部404は、対象のデータの分類結果を利用可能にすることができる。
【0108】
出力部405は、少なくともいずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部405は、少なくともいずれかの機能部の処理結果を利用者に通知可能にし、情報処理装置100の利便性の向上を図ることができる。
【0109】
出力部405は、評価情報を出力する。出力部405は、例えば、分類器による対象のデータの分類結果を肯定することを示す第1の情報を出力する。出力部405は、具体的には、第1の情報を、対象のデータの分類結果に対応付けて、利用者が参照可能に出力する。これにより、出力部405は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0110】
出力部405は、例えば、分類器による対象のデータの分類結果を否定することを示す第2の情報を出力する。出力部405は、具体的には、第2の情報を、対象のデータの分類結果に対応付けて、利用者が参照可能に出力する。これにより、出力部405は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0111】
出力部405は、特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在すれば、対象のデータに対応する第1の属性値パターンを出力する。出力部405は、例えば、対象のデータに対応する第1の属性値パターンを、対象のデータの分類結果に対応付けて、利用者が参照可能に出力する。これにより、出力部405は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0112】
出力部405は、特定した第2の属性値パターンのうち、対象のデータに対応する第2の属性値パターンが存在すれば、対象のデータに対応する第2の属性値パターンを出力する。出力部405は、例えば、対象のデータに対応する第2の属性値パターンを、対象のデータの分類結果に対応付けて、利用者が参照可能に出力する。これにより、出力部405は、外部で、対象のデータの分類結果の信頼性を評価可能にすることができる。
【0113】
出力部405は、複数の分類器のいずれかの分類器を出力する。出力部405は、例えば、選択した分類器を、利用者が参照可能に出力する。これにより、出力部405は、外部で、対象のデータに適した分類器を利用可能にすることができる。このため、出力部405は、外部で、対象のデータを正しく分類し易くすることができる。
【0114】
ここでは、情報処理装置100が、分類部404を含む場合について説明したが、これに限らない。例えば、情報処理装置100が、分類部404を含まない場合があってもよい。この場合、出力部405は、例えば、対象のデータに対応する第1の属性値パターン、または、対象のデータに対応する第2の属性値パターンを、対象のデータの分類結果に対応付けずに、利用者が参照可能に出力してもよい。これにより、出力部405は、外部で、分類器による分類前に、当該分類器による対象のデータの分類結果の信頼性を予測可能にすることができる。
【0115】
(情報処理装置100の動作例)
次に、
図5~
図11を用いて、情報処理装置100の動作例について説明する。まず、
図5を用いて、情報処理装置100が、サンプルとなる複数のデータを取得したとして、サンプルとなる複数のデータの一例について説明する。
【0116】
図5は、サンプルとなる複数のデータの一例を示す説明図である。
図5のベン
図500は、複数の条件集合の関係を示す。情報処理装置100は、少なくともいずれかの条件集合に対応するサンプルとなるデータを取得したとする。
【0117】
例えば、条件集合501は、({A,¬B,¬C})に対応する。¬は、否定の記号であり、条件がFalseであることを示す。情報処理装置100は、({A,¬B,¬C})のデータを、20個取得したとする。10個の({A,¬B,¬C})のデータは、posに分類されることが正解となるデータである。一方で、残りの10個の({A,¬B,¬C})のデータは、negに分類されることが正解となるデータである。
【0118】
例えば、条件集合502は、({¬A,B,¬C})に対応する。({¬A,B,¬C})のデータを、20個取得したとする。20個の({¬A,B,¬C})のデータは、negに分類されることが正解となるデータである。posに分類されることが正解となる({¬A,B,¬C})のデータは、存在しない。
【0119】
例えば、条件集合503は、({¬A,¬B,C})に対応する。({¬A,¬B,C})のデータを、20個取得したとする。20個の({¬A,¬B,C})のデータは、negに分類されることが正解となるデータである。posに分類されることが正解となる({¬A,¬B,C})のデータは、存在しない。
【0120】
例えば、条件集合512は、({A,B,¬C})に対応する。({A,B,¬C})のデータを、100個取得したとする。90個の({A,B,¬C})のデータは、posに分類されることが正解となるデータである。一方で、残りの10個の({A,B,¬C})のデータは、negに分類されることが正解となるデータである。
【0121】
例えば、条件集合523は、({¬A,B,C})に対応する。({¬A,B,C})のデータを、20個取得したとする。20個の({¬A,B,C})のデータは、negに分類されることが正解となるデータである。posに分類されることが正解となる({¬A,B,C})のデータは、存在しない。
【0122】
例えば、条件集合513は、({A,¬B,C})に対応する。({A,¬B,C})のデータを、50個取得したとする。10個の({A,¬B,C})のデータは、posに分類されることが正解となるデータである。一方で、残りの40個の({A,¬B,C})のデータは、negに分類されることが正解となるデータである。
【0123】
例えば、条件集合504は、({A,B,C})に対応する。情報処理装置100は、({A,B,C})のデータを取得していないとする。
【0124】
例えば、条件集合505は、({¬A,¬B,¬C})に対応する。情報処理装置100は、({¬A,¬B,¬C})のデータを、20個取得したとする。20個の({¬A,¬B,¬C})のデータは、negに分類されることが正解となるデータである。posに分類されることが正解となる({¬A,¬B,¬C})のデータは、存在しない。
【0125】
次に、
図6を用いて、情報処理装置100が有する分類器の一例について説明する。
【0126】
図6は、分類器の一例を示す説明図である。
図6の例では、説明の簡略化のため、分類器が、ツリー600であるとする。ツリー600は、第1の属性に関する属性値に対する条件Aに対応するノード601を含む。ノード601は、エッジ612により、クラス602に接続される。エッジ612は、条件AがFalseであることに対応する。
【0127】
ノード601は、エッジ613により、第2の属性に関する属性値に対する条件Bに対応するノード603に接続される。エッジ613は、条件AがTrueであることに対応する。ノード603は、エッジ634により、クラス604に接続される。エッジ634は、条件BがTrueであることに対応する。ノード603は、エッジ635により、クラス605に接続される。エッジ635は、条件BがFalseであることに対応する。
【0128】
次に、
図7を用いて、情報処理装置100が、分類器を利用して、取得したサンプルとなる複数のデータを分類し、属性値パターンごとに、正解数と不正解数とを算出する一例について説明する。
【0129】
図7は、属性値パターンごとに、正解数と不正解数とを算出する一例を示す説明図である。
図7において、情報処理装置100は、属性値パターンを特定する。情報処理装置100は、条件集合に含まれる部分集合に対応する属性値パターンを特定する。部分集合は、条件集合全体であってもよい。
【0130】
情報処理装置100は、例えば、部分集合({A})に対応する属性値パターンと、部分集合({B})に対応する属性値パターンと、部分集合({C})に対応する属性値パターンとを特定する。情報処理装置100は、例えば、部分集合({A,B})に対応する属性値パターンと、部分集合({B,C})に対応する属性値パターンと、部分集合({A,C})に対応する属性値パターンとを特定する。情報処理装置100は、例えば、部分集合({A,B,C})に対応する属性値パターンを特定する。
【0131】
情報処理装置100は、例えば、部分集合({¬A,B,C})に対応する属性値パターンと、部分集合({A,¬B,C})に対応する属性値パターンと、部分集合({A,B,¬C})に対応する属性値パターンとを特定する。情報処理装置100は、例えば、部分集合({A,¬B,¬C})に対応する属性値パターンと、部分集合({¬A,B,¬C})に対応する属性値パターンと、部分集合({¬A,¬B,C})に対応する属性値パターンとを特定する。情報処理装置100は、例えば、部分集合({¬A,¬B,¬C})に対応する属性値パターンを特定する。
【0132】
情報処理装置100は、分類器を利用して、取得したサンプルとなる複数のデータを、posまたはnegのクラスに分類する。情報処理装置100は、サンプルとなる複数のデータのそれぞれのデータの分類結果が、正解であるか否かを判定する。
【0133】
情報処理装置100は、判定した結果に基づいて、属性値パターンごとに、当該属性値パターンを有し、分類結果が正解であるデータの数を、正解数として算出する。情報処理装置100は、判定した結果に基づいて、属性値パターンごとに、当該属性値パターンを有し、分類結果が正解ではないデータの数を、不正解数として算出する。
【0134】
情報処理装置100は、属性値パターンと、当該属性値パターンを有するデータの分類結果の正解と、当該属性値パターンについて算出した正解数および不正解数とを、集計情報管理テーブル700に記憶する。集計情報管理テーブル700は、例えば、
図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0135】
図7に示すように、集計情報管理テーブル700は、条件判定と、正解と、正解数と、不正解数とのフィールドを有する。集計情報管理テーブル700は、属性値パターンごとに各フィールドに情報を設定することにより、集計情報がレコード700-aとして記憶される。aは、任意の整数である。
【0136】
条件判定のフィールドには、属性値パターンを形成する要素である条件判定の結果が設定される。条件判定のフィールドは、例えば、Aと、Bと、Cとのフィールドを有する。Aのフィールドには、属性値パターンを形成する要素として、条件AがTrueであるかFalseであるかを示すフラグ情報が設定される。Bのフィールドには、属性値パターンを形成する要素として、条件BがTrueであるかFalseであるかを示すフラグ情報が設定される。Cのフィールドには、属性値パターンを形成する要素として、条件CがTrueであるかFalseであるかを示すフラグ情報が設定される。
【0137】
正解のフィールドには、上記属性値パターンを有するデータの分類結果の正解が設定される。正解数のフィールドには、上記属性値パターンを有するデータのうち、分類結果が上記正解であるデータの数を示す正解数が設定される。不正解数のフィールドには、上記属性値パターンを有するデータのうち、分類結果が上記正解ではないデータの数を示す不正解数が設定される。
【0138】
次に、
図8を用いて、情報処理装置100が、集計情報管理テーブル700を参照して、分類結果が正解となるデータの数が相対的に多い属性値パターンを、肯定的パターンとして特定する一例について説明する。
【0139】
図8は、分類結果が正解となるデータの数が相対的に多い属性値パターンを特定する一例を示す説明図である。
図8において、情報処理装置100は、それぞれの属性値パターンについて、当該属性値パターンを有するデータのうち、分類結果が正解であるデータの割合を示す正解率を算出する。
【0140】
情報処理装置100は、それぞれの属性値パターンについて、算出した正解数が閾値=50以上であるか否かを判定する。また、情報処理装置100は、それぞれの属性値パターンについて、算出した正解率が閾値=90%以上であるか否かを判定する。情報処理装置100は、正解数が閾値=50以上であり、かつ、正解率が閾値=90%以上であると判定した属性値パターンを、肯定的パターンとして特定する。
【0141】
情報処理装置100は、特定した肯定的パターンと、正解数と、不正解数と、正解率とを対応付けて、肯定的パターン管理テーブル800に記憶する。肯定的パターン管理テーブル800は、例えば、
図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0142】
図8に示すように、肯定的パターン管理テーブル800は、パターンと、正解数と、不正解数と、正解率とのフィールドを有する。肯定的パターン管理テーブル800は、肯定的パターンごとに各フィールドに情報を設定することにより、肯定的パターン情報がレコード800-bとして記憶される。bは、任意の整数である。
【0143】
パターンのフィールドには、肯定的パターンが設定される。正解数のフィールドには、上記肯定的パターンについて算出された正解数が設定される。不正解数のフィールドには、上記肯定的パターンについて算出された不正解数が設定される。正解率のフィールドには、上記肯定的パターンについて算出された正解率が設定される。
【0144】
これにより、情報処理装置100は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。換言すれば、情報処理装置100は、分類器が、どのような属性値パターンを有するデータを分類することを得意とするのかを特定することができる。情報処理装置100は、分類器が、どのような属性値パターンを有するデータを分類することに向くのかを特定することができる。
【0145】
次に、
図9を用いて、情報処理装置100が、集計情報管理テーブル700を参照して、分類結果が正解となるデータの数が相対的に少ない属性値パターンを、否定的パターンとして特定する一例について説明する。
【0146】
図9は、分類結果が正解となるデータの数が相対的に少ない属性値パターンを特定する一例を示す説明図である。
図9において、情報処理装置100は、それぞれの属性値パターンについて、当該属性値パターンを有するデータのうち、分類結果が正解ではないデータの割合を示す不正解率を算出する。
【0147】
情報処理装置100は、それぞれの属性値パターンについて、算出した不正解率が閾値=20%以上であるか否かを判定する。情報処理装置100は、不正解率が閾値=20%以上であると判定した属性値パターンを、否定的パターンとして特定する。
【0148】
情報処理装置100は、特定した否定的パターンと、正解数と、不正解数と、不正解率とを対応付けて、否定的パターン管理テーブル900に記憶する。否定的パターン管理テーブル900は、例えば、
図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0149】
図9に示すように、否定的パターン管理テーブル900は、パターンと、正解数と、不正解数と、不正解率とのフィールドを有する。否定的パターン管理テーブル900は、否定的パターンごとに各フィールドに情報を設定することにより、否定的パターン情報がレコード900-cとして記憶される。cは、任意の整数である。
【0150】
パターンのフィールドには、否定的パターンが設定される。正解数のフィールドには、上記否定的パターンについて算出された正解数が設定される。不正解数のフィールドには、上記否定的パターンについて算出された不正解数が設定される。不正解率のフィールドには、上記否定的パターンについて算出された不正解率が設定される。
【0151】
これにより、情報処理装置100は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。換言すれば、情報処理装置100は、分類器が、どのような属性値パターンを有するデータを分類することを苦手とするのかを特定することができる。情報処理装置100は、分類器が、どのような属性値パターンを有するデータを分類することに不向きであるのかを特定することができる。
【0152】
次に、
図10および
図11を用いて、情報処理装置100が、分類器により対象のデータを複数のクラスのいずれかのクラスに分類し、対象のデータの分類結果の信頼性を評価する一例について説明する。
【0153】
図10および
図11は、対象のデータの分類結果の信頼性を評価する一例を示す説明図である。
図10において、情報処理装置100は、対象のデータを受け付ける。
図10の例では、対象のデータは、具体的には、({A,B,¬C})に対応する属性値パターンのデータである。情報処理装置100は、分類器により対象のデータを複数のクラスのいずれかのクラスに分類する。
【0154】
情報処理装置100は、肯定的パターン管理テーブル800を参照して、対象のデータに対応する肯定的パターンが存在するか否かを判定する。
図10の例では、情報処理装置100は、肯定的パターン({A,B})と、肯定的パターン({A,B,¬C})と、肯定的パターン({B})と、肯定的パターン({B,¬C})とが存在すると判定する。情報処理装置100は、否定的パターン管理テーブル900を参照して、対象のデータに対応する否定的パターンが存在するか否かを判定する。
図10の例では、情報処理装置100は、否定的パターンが存在しないと判定する。
【0155】
これにより、情報処理装置100は、分類器が、対象のデータの分類を得意とするのか、または、対象のデータの分類を苦手とするのかを特定し、対象のデータの分類結果の信頼性を評価する指針とすることができる。情報処理装置100は、肯定的パターンが存在すれば、分類器が対象のデータの分類を得意としており、対象のデータの分類結果の信頼性が比較的高いと評価することができる。情報処理装置100は、否定的パターンが存在しなければ、分類器が対象のデータの分類を得意としており、対象のデータの分類結果の信頼性が比較的高いと評価することができる。
【0156】
情報処理装置100は、肯定的パターンが存在し、かつ、否定的パターンが存在しなければ、対象のデータの分類結果を肯定的に評価する。肯定的に評価するとは、例えば、対象のデータの分類結果の信頼性が比較的高いと評価することである。情報処理装置100は、対象のデータの分類結果を肯定的に評価することを示すメッセージを生成する。メッセージは、例えば、「分類結果を疑う理由はない」である。情報処理装置100は、生成したメッセージを、利用者が参照可能に出力する。
【0157】
情報処理装置100は、具体的には、評価画面1000を、利用者が参照可能に表示する。評価画面1000は、例えば、対象のデータが、条件A,Bを満たし、条件Cを満たさないことの通知を含む。評価画面1000は、例えば、対象のデータの分類結果を含む。評価画面1000は、例えば、対象のデータの分類結果を肯定的に評価する根拠として、対象のデータに対応する肯定的パターンを含む。評価画面1000は、例えば、対象のデータの分類結果を肯定的に評価する根拠として、対象のデータに対応する否定的パターンが存在しないことの通知を含む。評価画面1000は、例えば、生成したメッセージを含む。
【0158】
これにより、情報処理装置100は、利用者が、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易くすることができる。情報処理装置100は、例えば、利用者が、対象のデータに対応する肯定的パターンが存在し、対象のデータに対応する否定的パターンが存在しないことを把握可能にすることができる。
【0159】
このため、利用者は、例えば、対象のデータが、分類器により正しく分類し易いデータであり、対象のデータの分類結果を、肯定的に評価することができる。また、利用者は、例えば、対象のデータの分類結果が、肯定的に評価される理由として、対象のデータに対応する肯定的パターンを参照することができ、肯定的に評価されたことを納得し易くすることができる。また、利用者は、例えば、肯定的に評価される理由として、対象のデータに対応する否定的パターンが存在しないことを参照することができ、肯定的に評価されたことを納得し易くすることができる。次に、
図11の説明に移行する。
【0160】
図11において、情報処理装置100は、対象のデータを受け付ける。
図11の例では、対象のデータは、具体的には、({A,B,C})に対応する属性値パターンのデータである。情報処理装置100は、分類器により対象のデータを複数のクラスのいずれかのクラスに分類する。
【0161】
情報処理装置100は、肯定的パターン管理テーブル800を参照して、対象のデータに対応する肯定的パターンが存在するか否かを判定する。
図11の例では、情報処理装置100は、肯定的パターン({A,B})と、肯定的パターン({B})とが存在すると判定する。情報処理装置100は、否定的パターン管理テーブル900を参照して、対象のデータに対応する否定的パターンが存在するか否かを判定する。
図11の例では、情報処理装置100は、否定的パターン({A,C})が存在すると判定する。
【0162】
これにより、情報処理装置100は、分類器が、対象のデータの分類を得意とするのか、または、対象のデータの分類を苦手とするのかを特定し、対象のデータの分類結果の信頼性を評価する指針とすることができる。情報処理装置100は、否定的パターンが存在すれば、分類器が対象のデータの分類を苦手としており、対象のデータの分類結果の信頼性が比較的低いと評価することができる。
【0163】
情報処理装置100は、肯定的パターンが存在しても、否定的パターンが存在すれば、対象のデータの分類結果を否定的に評価する。否定的に評価するとは、例えば、対象のデータの分類結果の信頼性が比較的低いと評価することである。情報処理装置100は、対象のデータの分類結果を否定的に評価することを示すメッセージを生成する。メッセージは、例えば、「不正解率が高い({A,C})に該当することに注意が必要」である。情報処理装置100は、生成したメッセージを、利用者が参照可能に出力する。
【0164】
情報処理装置100は、具体的には、評価画面1100を、利用者が参照可能に表示する。評価画面1100は、例えば、対象のデータが、条件A,B,Cを満たすことの通知を含む。評価画面1100は、例えば、対象のデータの分類結果を含む。評価画面1100は、例えば、対象のデータに対応する肯定的パターンを含む。評価画面1100は、例えば、対象のデータの分類結果を否定的に評価する根拠として、対象のデータに対応する否定的パターンを含む。評価画面1100は、例えば、生成したメッセージを含む。
【0165】
これにより、情報処理装置100は、利用者が、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易くすることができる。情報処理装置100は、例えば、利用者が、対象のデータに対応する否定的パターンが存在することを把握可能にすることができる。
【0166】
このため、利用者は、例えば、対象のデータが、分類器により正しく分類困難なデータであり、対象のデータの分類結果を、否定的に評価することができる。また、利用者は、例えば、対象のデータの分類結果が、否定的に評価される理由として、対象のデータに対応する否定的パターンを参照することができ、否定的に評価されたことを納得し易くすることができる。
【0167】
(判定処理手順)
次に、
図12を用いて、情報処理装置100が実行する、判定処理手順の一例について説明する。判定処理は、例えば、
図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0168】
図12は、判定処理手順の一例を示すフローチャートである。
図12において、情報処理装置100は、条件集合において、まだ処理対象として選択していない部分集合Sのうち、いずれかの部分集合Sを選択する(ステップS1201)。条件集合は、例えば、({A,B,C})などである。部分集合Sは、例えば、({A,B})などである。
【0169】
次に、情報処理装置100は、選択した部分集合Sを表すパターンPと、選択した部分集合Sに含まれる1以上の要素を否定して形成可能な1以上の部分集合Tのそれぞれの部分集合Tを表すパターンPとを特定する(ステップS1202)。部分集合Tは、例えば、({¬A,B})などである。
【0170】
次に、情報処理装置100は、特定したパターンPに含まれる、まだ処理対象として選択していないパターンPのうち、いずれかのパターンPを選択する(ステップS1203)。そして、情報処理装置100は、選択したパターンPに対応するサンプルについて、対象の分類器による正解数および不正解数を集計する(ステップS1204)。
【0171】
次に、情報処理装置100は、集計した正解数および不正解数に基づいて、選択したパターンPが肯定的条件を満たすか否かを判定する(ステップS1205)。肯定的条件は、例えば、正解数が閾値以上、かつ、正解率が閾値以上であることである。ここで、肯定的条件を満たさない場合(ステップS1205:No)、情報処理装置100は、ステップS1207の処理に移行する。肯定的条件を満たす場合(ステップS1205:Yes)、情報処理装置100は、ステップS1206の処理に移行する。
【0172】
ステップS1206では、情報処理装置100は、集計した正解数および不正解数に、選択したパターンPを対応付けたレコードを、肯定的パターン管理テーブル800に記憶する(ステップS1206)。次に、情報処理装置100は、ステップS1207の処理に移行する。
【0173】
ステップS1207では、情報処理装置100は、集計した不正解数に基づいて、選択したパターンPが否定的条件を満たすか否かを判定する(ステップS1207)。否定的条件は、例えば、不正解数が閾値以上であることである。ここで、否定的条件を満たさない場合(ステップS1207:No)、情報処理装置100は、ステップS1209の処理に移行する。一方で、否定的条件を満たす場合(ステップS1207:Yes)、情報処理装置100は、ステップS1208の処理に移行する。
【0174】
ステップS1208では、情報処理装置100は、集計した正解数および不正解数に、選択したパターンPを対応付けたレコードを、否定的パターン管理テーブル900に記憶する(ステップS1208)。次に、情報処理装置100は、ステップS1209の処理に移行する。
【0175】
ステップS1209では、情報処理装置100は、すべてのパターンPを処理対象として選択したか否かを判定する(ステップS1209)。ここで、まだ選択していないパターンPが残っている場合(ステップS1209:No)、情報処理装置100は、ステップS1203の処理に戻る。一方で、すべてのパターンPを選択している場合(ステップS1209:Yes)、情報処理装置100は、ステップS1210の処理に移行する。
【0176】
ステップS1210では、情報処理装置100は、すべての部分集合Sを処理対象として選択したか否かを判定する(ステップS1210)。ここで、まだ選択していない部分集合Sが残っている場合(ステップS1210:No)、情報処理装置100は、ステップS1201の処理に戻る。一方で、すべての部分集合Sを選択している場合(ステップS1210:Yes)、情報処理装置100は、判定処理を終了する。
【0177】
(分類処理手順)
次に、
図13を用いて、情報処理装置100が実行する、分類処理手順の一例について説明する。分類処理は、例えば、
図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0178】
図13は、分類処理手順の一例を示すフローチャートである。
図13において、情報処理装置100は、対象のデータを取得する(ステップS1301)。
【0179】
次に、情報処理装置100は、対象のデータを対象の分類器により分類する(ステップS1302)。そして、情報処理装置100は、否定的パターン管理テーブル900に基づいて、対象のデータに対応する否定的パターンを検索する(ステップS1303)。また、情報処理装置100は、肯定的パターン管理テーブル800に基づいて、対象のデータに対応する肯定的パターンを検索する(ステップS1304)。
【0180】
次に、情報処理装置100は、対象のデータに対応する否定的パターンを発見したか否かを判定する(ステップS1305)。ここで、否定的パターンを発見していない場合(ステップS1305:No)、情報処理装置100は、ステップS1307の処理に移行する。一方で、否定的パターンを発見している場合(ステップS1305:Yes)、情報処理装置100は、ステップS1306の処理に移行する。
【0181】
ステップS1306では、情報処理装置100は、対象のデータの分類結果と、当該分類結果を否定的に示すメッセージと、発見した否定的パターンと、発見した肯定的パターンとを対応付けて出力する(ステップS1306)。そして、情報処理装置100は、分類処理を終了する。
【0182】
ステップS1307では、情報処理装置100は、対象のデータに対応する肯定的パターンを発見したか否かを判定する(ステップS1307)。ここで、肯定的パターンを発見していない場合(ステップS1307:No)、情報処理装置100は、ステップS1309の処理に移行する。一方で、肯定的パターンを発見している場合(ステップS1307:Yes)、情報処理装置100は、ステップS1308の処理に移行する。
【0183】
ステップS1308では、情報処理装置100は、対象のデータの分類結果と、当該分類結果を肯定的に示すメッセージと、発見した肯定的パターンとを対応付けて出力する(ステップS1308)。そして、情報処理装置100は、分類処理を終了する。
【0184】
ステップS1309では、情報処理装置100は、対象のデータの分類結果を出力する(ステップS1309)。そして、情報処理装置100は、分類処理を終了する。
【0185】
(選択処理手順)
次に、
図14を用いて、情報処理装置100が実行する、選択処理手順の一例について説明する。選択処理は、例えば、
図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0186】
図14は、選択処理手順の一例を示すフローチャートである。
図14において、情報処理装置100は、複数の分類器のそれぞれの分類器を、対象の分類器として、
図12に示した判定処理を実行する(ステップS1401)。
【0187】
次に、情報処理装置100は、対象のデータを取得する(ステップS1402)。そして、情報処理装置100は、それぞれの分類器に関する否定的パターン管理テーブル900に基づいて、それぞれの分類器に関する否定的パターンのうち、対象のデータに対応する否定的パターンを検索する(ステップS1403)。また、情報処理装置100は、それぞれの分類器に関する肯定的パターン管理テーブル800に基づいて、それぞれの分類器に関する肯定的パターンのうち、対象のデータに対応する肯定的パターンを検索する(ステップS1404)。
【0188】
次に、情報処理装置100は、複数の分類器のうち、対象のデータに対応する否定的パターンを発見せず、対象のデータに対応する肯定的パターンを発見した分類器を選択する(ステップS1405)。そして、情報処理装置100は、選択した分類器を出力する(ステップS1406)。その後、情報処理装置100は、選択処理を終了する。
【0189】
ここで、情報処理装置100は、
図12~
図14の各フローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップS1303,S1304の処理の順序は入れ替え可能である。また、情報処理装置100は、
図12~
図14の各フローチャートの一部ステップの処理を省略してもよい。
【0190】
以上説明したように、情報処理装置100によれば、複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得することができる。情報処理装置100によれば、取得した指標値に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定することができる。情報処理装置100によれば、対象のデータを分類する場合、特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在するか否かを判定することができる。これにより、情報処理装置100は、分類器により分類し易いデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。換言すれば、情報処理装置100は、分類器が、どのような属性値パターンを有するデータを分類することを得意とするのかを特定することができる。
【0191】
情報処理装置100によれば、取得した指標値に基づいて、複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定することができる。情報処理装置100によれば、対象のデータを分類する場合、特定した第2の属性値パターンのうち、対象のデータに対応する第2の属性値パターンが存在するか否かを判定することができる。これにより、情報処理装置100は、分類器により分類困難なデータが、どのような属性値パターンを有する傾向があるのかを特定することができる。換言すれば、情報処理装置100は、分類器が、どのような属性値パターンを有するデータを分類することを苦手とするのかを特定することができる。
【0192】
情報処理装置100によれば、対象のデータに対応する第1の属性値パターンが存在せず、かつ、対象のデータに対応する第2の属性値パターンが存在すれば、分類器による対象のデータの分類結果を肯定することを示す第1の情報を出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0193】
情報処理装置100によれば、特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在すれば、分類器による対象のデータの分類結果を否定することを示す第2の情報を出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0194】
情報処理装置100によれば、対象のデータを分類する場合、特定した第1の属性値パターンのうち、対象のデータに対応する第1の属性値パターンが存在すれば、対象のデータに対応する第1の属性値パターンを出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0195】
情報処理装置100によれば、対象のデータを分類する場合、特定した第2の属性値パターンのうち、対象のデータに対応する第2の属性値パターンが存在すれば、対象のデータに対応する第2の属性値パターンを出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0196】
情報処理装置100によれば、分類器による対象のデータの分類結果に対応付けて、当該分類結果を肯定することを示す第1の情報を出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0197】
情報処理装置100によれば、分類器による対象のデータの分類結果に対応付けて、当該分類結果を否定することを示す第2の情報を出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0198】
情報処理装置100によれば、複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得することができる。情報処理装置100によれば、取得した指標値に基づいて、それぞれの分類器について、複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定することができる。情報処理装置100によれば、対象のデータを分類する場合、複数の分類器のうち、対象のデータに対応する第1の属性値パターンが存在しない分類器を選択して出力することができる。これにより、情報処理装置100は、複数の分類器のうち、対象のデータに適した分類器を選択して利用可能にすることができる。
【0199】
情報処理装置100によれば、複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得することができる。情報処理装置100によれば、取得した指標値に基づいて、それぞれの分類器について、複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定することができる。情報処理装置100によれば、対象のデータを分類する場合、複数の分類器のうち、対象のデータに対応する第2の属性値パターンが存在する分類器を選択して出力することができる。これにより、情報処理装置100は、複数の分類器のうち、対象のデータに適した分類器を選択して利用可能にすることができる。
【0200】
情報処理装置100によれば、対象のデータに対応する第1の属性値パターンと、対象のデータに対応する第2の属性値パターンとに基づいて、それぞれの分類器による対象のデータの分類結果の尤もらしさを評価した結果を出力することができる。これにより、情報処理装置100は、分類器による対象のデータの分類結果をどの程度信頼可能であるのかを把握し易く、かつ、納得し易くすることができる。
【0201】
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをPCやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した情報処理プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、CD(Compact Disc)-ROM、MO(Magneto Optical disc)、DVD(Digital Versatile Disc)などである。また、本実施の形態で説明した情報処理プログラムは、インターネットなどのネットワークを介して配布してもよい。
【0202】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0203】
(付記1)それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、
取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、
判定した結果を出力する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
【0204】
(付記2)前記特定する処理は、
さらに、取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定し、
前記判定する処理は、
前記対象のデータを分類する場合、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在するか否かを判定する、ことを特徴とする付記1に記載の情報処理プログラム。
【0205】
(付記3)特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在せず、かつ、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在すれば、前記分類器による前記対象のデータの分類結果を肯定することを示す第1の情報を出力する、
処理を前記コンピュータに実行させることを特徴とする付記2に記載の情報処理プログラム。
【0206】
(付記4)特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在すれば、前記分類器による前記対象のデータの分類結果を否定することを示す第2の情報を出力する、
処理を前記コンピュータに実行させることを特徴とする付記1~3のいずれか一つに記載の情報処理プログラム。
【0207】
(付記5)前記対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在すれば、前記対象のデータに対応する第1の属性値パターンを出力する、
処理を前記コンピュータに実行させることを特徴とする付記1~4のいずれか一つに記載の情報処理プログラム。
【0208】
(付記6)前記対象のデータを分類する場合、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在すれば、前記対象のデータに対応する第2の属性値パターンを出力する、
処理を前記コンピュータに実行させることを特徴とする付記2に記載の情報処理プログラム。
【0209】
(付記7)特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在せず、かつ、特定した前記第2の属性値パターンのうち、前記対象のデータに対応する第2の属性値パターンが存在すれば、前記分類器による前記対象のデータの分類結果に対応付けて、当該分類結果を肯定することを示す第1の情報を出力する、
処理を前記コンピュータに実行させることを特徴とする付記2に記載の情報処理プログラム。
【0210】
(付記8)特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在すれば、前記分類器による前記対象のデータの分類結果に対応付けて、当該分類結果を否定することを示す第2の情報を出力する、
処理を前記コンピュータに実行させることを特徴とする付記1~7のいずれか一つに記載の情報処理プログラム。
【0211】
(付記9)前記取得する処理は、
前記複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得し、
前記特定する処理は、
取得した前記指標値に基づいて、前記それぞれの分類器について、前記複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
前記対象のデータを分類する場合、前記複数の分類器のうち、前記対象のデータに対応する第1の属性値パターンが存在しない分類器を選択して出力する、
処理を前記コンピュータに実行させることを特徴とする付記1~8のいずれか一つに記載の情報処理プログラム。
【0212】
(付記10)前記取得する処理は、
前記複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得し、
前記特定する処理は、
取得した前記指標値に基づいて、前記それぞれの分類器について、前記複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に多い第2の属性値パターンを特定し、
前記対象のデータを分類する場合、前記複数の分類器のうち、前記対象のデータに対応する第2の属性値パターンが存在する分類器を選択して出力する、
処理を前記コンピュータに実行させることを特徴とする付記1~9のいずれか一つに記載の情報処理プログラム。
【0213】
(付記11)前記取得する処理は、
前記複数の属性値パターンのそれぞれの属性値パターンのデータを、複数の分類器のそれぞれの分類器で分類する場合において、当該分類器による分類結果が正解となるデータの数の多さを示す指標値を取得し、
前記特定する処理は、
取得した前記指標値に基づいて、前記それぞれの分類器について、前記複数の属性値パターンのうち、当該分類器による分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンと、当該分類器による分類結果が正解となるデータの数が相対的に多い第2の属性値パターンとを特定し、
前記対象のデータを分類する場合、前記対象のデータに対応する第1の属性値パターンと、前記対象のデータに対応する第2の属性値パターンとに基づいて、前記それぞれの分類器による前記対象のデータの分類結果の尤もらしさを評価した結果を出力する、
処理を前記コンピュータに実行させることを特徴とする付記1~10のいずれか一つに記載の情報処理プログラム。
【0214】
(付記12)それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、
取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、
判定した結果を出力する、
処理をコンピュータが実行することを特徴とする情報処理方法。
【0215】
(付記13)それぞれ異なる複数の属性値パターンのそれぞれの属性値パターンのデータを分類器で分類する場合において分類結果が正解となるデータの数の多さを示す指標値を取得し、
取得した前記指標値に基づいて、前記複数の属性値パターンのうち、分類結果が正解となるデータの数が相対的に少ない第1の属性値パターンを特定し、
対象のデータを分類する場合、特定した前記第1の属性値パターンのうち、前記対象のデータに対応する第1の属性値パターンが存在するか否かを判定し、
判定した結果を出力する、
制御部を有することを特徴とする情報処理装置。
【符号の説明】
【0216】
100 情報処理装置
110 分類器
111 データ
200 信頼性評価システム
201 情報蓄積装置
202 クライアント装置
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 記憶部
401 取得部
402 特定部
403 判定部
404 分類部
405 出力部
500 ベン図
501,502,503,504,505,512,513,523 条件集合
600 ツリー
601,603 ノード
602,604,605 クラス
612,613,634,635,636 エッジ
700 集計情報管理テーブル
800 肯定的パターン管理テーブル
900 否定的パターン管理テーブル
1000,1100 評価画面