特表-20059123IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧
<>
  • 再表WO2020059123-判定方法および判定プログラム 図000012
  • 再表WO2020059123-判定方法および判定プログラム 図000013
  • 再表WO2020059123-判定方法および判定プログラム 図000014
  • 再表WO2020059123-判定方法および判定プログラム 図000015
  • 再表WO2020059123-判定方法および判定プログラム 図000016
  • 再表WO2020059123-判定方法および判定プログラム 図000017
  • 再表WO2020059123-判定方法および判定プログラム 図000018
  • 再表WO2020059123-判定方法および判定プログラム 図000019
  • 再表WO2020059123-判定方法および判定プログラム 図000020
  • 再表WO2020059123-判定方法および判定プログラム 図000021
  • 再表WO2020059123-判定方法および判定プログラム 図000022
  • 再表WO2020059123-判定方法および判定プログラム 図000023
  • 再表WO2020059123-判定方法および判定プログラム 図000024
  • 再表WO2020059123-判定方法および判定プログラム 図000025
  • 再表WO2020059123-判定方法および判定プログラム 図000026
  • 再表WO2020059123-判定方法および判定プログラム 図000027
  • 再表WO2020059123-判定方法および判定プログラム 図000028
  • 再表WO2020059123-判定方法および判定プログラム 図000029
  • 再表WO2020059123-判定方法および判定プログラム 図000030
  • 再表WO2020059123-判定方法および判定プログラム 図000031
  • 再表WO2020059123-判定方法および判定プログラム 図000032
  • 再表WO2020059123-判定方法および判定プログラム 図000033
< >
(19)【発行国】日本国特許庁(JP)
【公報種別】再公表特許(A1)
(11)【国際公開番号】WO/0
(43)【国際公開日】2020年3月26日
【発行日】2021年4月30日
(54)【発明の名称】判定方法および判定プログラム
(51)【国際特許分類】
   G06F 16/335 20190101AFI20210402BHJP
   G06F 16/35 20190101ALI20210402BHJP
【FI】
   G06F16/335
   G06F16/35
【審査請求】有
【予備審査請求】未請求
【全頁数】57
【出願番号】特願2020-547582(P2020-547582)
(21)【国際出願番号】PCT/0/0
(22)【国際出願日】2018年9月21日
(81)【指定国】 AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DJ,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JO,JP,KE,KG,KH,KN,KP,KR,KW,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100104190
【弁理士】
【氏名又は名称】酒井 昭徳
(72)【発明者】
【氏名】野呂 智哉
(72)【発明者】
【氏名】毛利 隆夫
(72)【発明者】
【氏名】太田 唯子
(72)【発明者】
【氏名】大倉 清司
(72)【発明者】
【氏名】馬場 謙介
(72)【発明者】
【氏名】福田 茂紀
(72)【発明者】
【氏名】岩崎 靖
(72)【発明者】
【氏名】木田 祐太郎
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB04
(57)【要約】
情報処理装置(100)は、複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報(110)を記憶する。情報処理装置(100)は、情報(110)に基づいて、複数のユーザを分類した複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出する。情報処理装置(100)は、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出する。情報処理装置(100)は、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定する。
【特許請求の範囲】
【請求項1】
複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、
前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、
算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する、
処理をコンピュータが実行することを特徴とする判定方法。
【請求項2】
前記第2の指標値を算出する処理は、
前記グループについての前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いが小さいほど、または、前記グループ間における前記対象の語句の使用傾向のばらつき度合いが大きいほど、前記対象の語句が前記特徴語である可能性が高いことを示すように、前記第2の指標値を算出する、ことを特徴とする請求項1に記載の判定方法。
【請求項3】
前記情報は、前記対象の語句の使用頻度または使用時間であり、
前記第1の指標値を算出する処理は、
前記それぞれのグループについて、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間、および、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間の統計値に基づいて、前記第1の指標値を算出する、ことを特徴とする請求項1または2に記載の判定方法。
【請求項4】
前記情報は、前記対象の語句の使用頻度または使用時間であり、
前記第1の指標値を算出する処理は、
前記それぞれのグループについて、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、前記第1の指標値を算出する、ことを特徴とする請求項1〜3のいずれか一つに記載の判定方法。
【請求項5】
前記第2の指標値を算出する処理は、
前記それぞれのグループについて算出した前記第1の指標値、および、前記それぞれのグループについて算出した前記第1の指標値の統計値に基づいて、前記第2の指標値を算出する、ことを特徴とする請求項1〜4のいずれか一つに記載の判定方法。
【請求項6】
前記第2の指標値を算出する処理は、
前記それぞれのグループについて算出した前記第1の指標値についてのエントロピーに基づいて、前記第2の指標値を算出する、ことを特徴とする請求項1〜5のいずれか一つに記載の判定方法。
【請求項7】
前記それぞれのユーザによる語句の使用履歴に基づいて、前記それぞれのユーザによる前記対象の語句の使用傾向を示す情報を生成する、処理を前記コンピュータが実行することを特徴とする請求項1〜6のいずれか一つに記載の判定方法。
【請求項8】
前記それぞれのユーザによる語句の使用履歴に基づいて、前記複数のユーザを、前記複数のグループに分類する、処理を前記コンピュータが実行することを特徴とする請求項1〜7のいずれか一つに記載の判定方法。
【請求項9】
算出した前記第2の指標値を、前記対象の語句に対応付けて出力する、処理を前記コンピュータが実行することを特徴とする請求項1〜8のいずれか一つに記載の判定方法。
【請求項10】
算出した前記第2の指標値に対応する表示態様で、前記対象の語句を表示する、処理を前記コンピュータが実行することを特徴とする請求項1〜9のいずれか一つに記載の判定方法。
【請求項11】
複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、
前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、
算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、判定方法および判定プログラムに関する。
【背景技術】
【0002】
従来、特徴語と、特徴語を含む情報の分類先とするカテゴリとを対応付けた分類規則を参照して、対象の情報を、いずれかのカテゴリに分類する技術がある。例えば、分類規則を参照して、ユーザの業務ログに含まれる特徴語を基に、ユーザの業務ログを、何らかの業務内容のカテゴリに分類することが考えられる。
【0003】
先行技術としては、例えば、分類に決定木を利用するものがある。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Quinlan, J. Ross. “Induction of decision trees.” Machine learning 1.1 (1986): 81−106.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、情報をカテゴリに分類する際に用いられる特徴語とする語句を判定することができず、分類規則を作成することが難しい場合がある。
【0006】
1つの側面では、本発明は、特徴語を精度よく判定することを目的とする。
【課題を解決するための手段】
【0007】
1つの実施態様によれば、複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する判定方法および判定プログラムが提案される。
【発明の効果】
【0008】
一態様によれば、特徴語を精度よく判定することが可能になる。
【図面の簡単な説明】
【0009】
図1図1は、実施の形態にかかる判定方法の一実施例を示す説明図である。
図2図2は、情報分類システム200の一例を示す説明図である。
図3図3は、情報処理装置100のハードウェア構成例を示すブロック図である。
図4図4は、業務ログDB400の記憶内容の一例を示す説明図である。
図5図5は、統計情報DB500の記憶内容の一例を示す説明図である。
図6図6は、グループDB600の記憶内容の一例を示す説明図である。
図7図7は、特徴語候補DB700の記憶内容の一例を示す説明図である。
図8図8は、フィードバックDB800の記憶内容の一例を示す説明図である。
図9図9は、情報処理装置100の機能的構成例を示すブロック図である。
図10図10は、情報処理装置100の具体的構成例を示すブロック図である。
図11図11は、情報処理装置100の動作例を示す説明図(その1)である。
図12図12は、情報処理装置100の動作例を示す説明図(その2)である。
図13図13は、情報処理装置100の動作例を示す説明図(その3)である。
図14図14は、情報処理装置100の動作例を示す説明図(その4)である。
図15図15は、情報処理装置100の動作例を示す説明図(その5)である。
図16図16は、情報処理装置100の動作例を示す説明図(その6)である。
図17図17は、情報処理装置100の動作例を示す説明図(その7)である。
図18図18は、全体処理手順の一例を示すフローチャートである。
図19図19は、統計処理手順の一例を示すフローチャートである。
図20図20は、分類処理手順の一例を示すフローチャートである。
図21図21は、判定処理手順の一例を示すフローチャートである。
図22図22は、算出処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に、図面を参照して、本発明にかかる判定方法および判定プログラムの実施の形態を詳細に説明する。
【0011】
(実施の形態にかかる判定方法の一実施例)
図1は、実施の形態にかかる判定方法の一実施例を示す説明図である。情報処理装置100は、特徴語を判定しやすくするコンピュータである。
【0012】
特徴語は、情報をカテゴリに分類する分類規則に利用される語句である。特徴語は、情報に含まれ、情報が有する特徴を表す語句である。情報が有する特徴は、いずれかのカテゴリに対応する。特徴語は、特徴語を含む情報が、いずれかのカテゴリとの関連性が大きく、他のカテゴリとの関連性が小さい情報であることを示す。特徴語は、いずれかのカテゴリに対応する特徴を表すため、いずれかのカテゴリに関する属性を有するユーザにより使用されやすい性質を有する。
【0013】
このため、特徴語は、ユーザが複数いると、ユーザによる使用傾向に偏りが生じやすいという性質を有する。いずれかのカテゴリに対応する特徴を表す特徴語は、具体的には、いずれかのカテゴリに関する属性を有する複数のユーザには共通して使用されやすく、他のカテゴリに関する属性を有するユーザには使用されにくいという性質を有する。
【0014】
分類規則は、特徴語を含む情報の分類先とするカテゴリを特定可能にする情報である。分類規則は、例えば、特徴語と、特徴語を含む情報の分類先とするカテゴリとを対応付けて表す。具体的には、分類規則により、ユーザの業務ログに含まれる特徴語を基に、ユーザの業務ログを、業務内容のカテゴリに分類することが考えられる。業務内容は、例えば、顧客対応、商品企画、設計開発、拡販などである。
【0015】
しかしながら、情報をカテゴリに分類する際に用いられる特徴語とする語句を判定することが難しいため、分類規則を作成することが難しい場合がある。これに対し、例えば、カテゴリに分類される情報の一例を示す教師情報に基づいて、特徴語とする語句を判定する第1の方法が考えられる。第1の方法は、教師情報がない場合には適用することができず、特徴語とする語句を判定することができない。
【0016】
また、ユーザごとの語句の使用履歴に基づいて、ユーザ間における語句の使用頻度のばらつきが比較的大きい語句を、特徴語であると判定する第2の方法が考えられる。第2の方法は、例えば、ユーザによる語句の使用頻度についてのエントロピーを閾値と比較することにより、特徴語を判定する。これにより、第2の方法は、ユーザ間における語句の使用頻度のばらつきが比較的小さく、様々なユーザが共通して使用するような一般的な語句を、特徴語ではないと判定しようとする。第2の方法は、特徴語とする語句を精度よく判定することは難しい。第2の方法は、例えば、いずれかのカテゴリに関する属性を有する複数のユーザが共通して使用する語句であり、特徴語とすることが好ましい語句があっても、特徴語ではないと判定してしまうことがある。
【0017】
また、ユーザごとの語句の使用履歴に基づいて、カテゴリに関する属性を有するユーザをグループ化し、グループ間における語句の使用頻度のばらつきが比較的大きい語句を、特徴語であると判定する第3の方法が考えられる。第3の方法は、例えば、グループにおける語句の使用頻度についてのエントロピーを閾値と比較することにより、特徴語を判定する。第3の方法は、特徴語とする語句を精度よく判定することは難しい。第3の方法は、例えば、グループごとの使用人数のばらつきを考慮しないため、グループ内の1人だけが使用する語句であり、特徴語とすることが好ましくない語句があっても、特徴語であると判定してしまうことがある。
【0018】
また、第2の方法と第3の方法とを組み合わせた第4の方法が考えられる。第4の方法は、ユーザによる語句の使用頻度についてのエントロピーと、グループにおける語句の使用頻度についてのエントロピーとの2つのパラメータを利用することになり、特徴語を判定する際にかかる作業負担の増大化を招くことがある。また、人手で特徴語を判定することも考えられるが、特徴語を判定する際にかかる作業負担の増大化を招く。
【0019】
そこで、本実施の形態では、ユーザ間における語句の使用傾向のばらつき、および、グループ間における語句の使用傾向のばらつきのいずれも考慮して、特徴語を精度よく判定可能にすることができる判定方法について説明する。
【0020】
図1の例では、情報処理装置100は、複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報110を記憶する。情報処理装置100は、例えば、ユーザu1〜u10による対象の語句の使用頻度を示す情報110を記憶する。使用頻度は、使用回数または使用率である。
【0021】
(1−1)情報処理装置100は、情報110に基づいて、複数のユーザを分類した複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出する。情報処理装置100は、例えば、情報110に基づいて、ユーザu1〜u10を分類したグループg1〜g3について、ユーザ間における対象の語句の使用頻度のばらつき度合いを示す第1の指標値を算出する。情報処理装置100は、具体的には、ユーザごとの使用頻度のエントロピーに基づいて、第1の指標値を算出する。
【0022】
(1−2)情報処理装置100は、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出する。情報処理装置100は、例えば、グループg1〜g3について算出した第1の指標値に基づいて、グループ間における対象の語句の使用頻度のばらつき度合いを示す第2の指標値を算出する。情報処理装置100は、具体的には、グループごとの第1の指標値のエントロピーに基づいて、第2の指標値を算出する。これにより、情報処理装置100は、第1の指標値に基づいて第2の指標値を算出するため、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮した基準を得ることができる。
【0023】
(1−3)情報処理装置100は、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定する。第2の指標値は、例えば、値が小さいほど、対象の語句が特徴語である可能性が高いことを示す。情報処理装置100は、算出した第2の指標値が閾値未満である場合、対象の語句が特徴語であると判定する。情報処理装置100は、例えば、特徴語であると判定した場合、対象の語句を出力する。
【0024】
これにより、情報処理装置100は、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮して、特徴語を判定することができる。このため、情報処理装置100は、特徴語を精度よく判定することができる。
【0025】
情報処理装置100は、例えば、いずれかのカテゴリに関する属性を有する複数のユーザには共通して使用されやすく、他のカテゴリに関する属性を有するユーザには使用されにくい語句を、特徴語であると判定することができる。また、情報処理装置100は、例えば、グループ内の1人だけが使用する語句であり、特徴語とすることが好ましくない語句を、特徴語ではないと判定することができる。
【0026】
また、情報処理装置100は、1つのパラメータにより特徴語であるか否かを判定可能にすることができ、分類規則を作成する作成者にかかる作業負担の低減化を図ることができる。また、情報処理装置100は、作成者が特徴語を判定せずに済むようにすることができ、作成者の作業負担の低減化を図ることができる。また、情報処理装置100は、カテゴリに分類される情報の一例を示す教師情報がなくても、特徴語を判定することができる。
【0027】
ここでは、情報処理装置100が、第2の指標値に基づいて対象の語句が特徴語であるか否かを判定する場合について説明したが、これに限らない。例えば、情報処理装置100が、第2の指標値を、対象の語句に対応付けて表示し、作成者が特徴語を判定しやすくする場合があってもよい。
【0028】
ここでは、複数のユーザが複数のグループに分類済みである場合について説明したが、これに限らない。例えば、情報処理装置100が、複数のユーザを複数のグループに分類する場合があってもよい。ここでは、情報処理装置100が、情報110を記憶済みである場合について説明したが、これに限らない。例えば、情報処理装置100が、情報110を生成する場合があってもよい。
【0029】
(情報分類システム200の一例)
次に、図2を用いて、図1に示した情報処理装置100を適用した、情報分類システム200の一例について説明する。
【0030】
図2は、情報分類システム200の一例を示す説明図である。図2において、情報分類システム200は、情報処理装置100と、1以上のクライアント装置201とを含む。
【0031】
情報分類システム200において、情報処理装置100とクライアント装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
【0032】
情報処理装置100は、分類規則を作成する作成者に用いられるコンピュータである。情報処理装置100は、例えば、図4図8に後述する各種DBを利用して、対象の語句が特徴語であるか否かを判定し、特徴語を出力したことに応じた作成者の操作入力に基づいて、分類規則を作成する。
【0033】
情報処理装置100は、具体的には、ユーザの業務に関するログを、クライアント装置201から収集し、図4に後述する業務ログDB400を用いて記憶する。ユーザは、例えば、何らかの語句を使用する者である。使用は、例えば、語句の入力である。使用は、例えば、語句が名称に含まれるデータの使用である。情報処理装置100は、業務ログDB400に基づいて、ユーザによる語句の使用傾向を示す情報を生成し、図5に後述する統計情報DB500を用いて記憶する。
【0034】
情報処理装置100は、統計情報DB500に基づいて、ユーザをグループに分類した結果を、図6に後述するグループDB600を用いて記憶する。情報処理装置100は、統計情報DB500およびグループDB600に基づいて、ログに出現する語句が、特徴語であるか否かを判定し、特徴語であると判定した語句を、特徴語候補DB700を用いて記憶する。
【0035】
情報処理装置100は、特徴語候補DB700に基づいて、特徴語であると判定した語句を表示する。情報処理装置100は、作成者の操作入力に基づいて、特徴語に対応付ける分類先カテゴリを、フィードバックDB800を用いて記憶する。情報処理装置100は、フィードバックDB800に基づいて、分類規則を作成する。情報処理装置100は、例えば、サーバやPC(Personal Computer)などである。
【0036】
クライアント装置201は、ユーザの操作入力に基づく、ユーザの業務に関するログを、情報処理装置100に送信する。クライアント装置201は、例えば、PC、スマートフォン、タブレット端末などである。
【0037】
ここでは、情報処理装置100が、クライアント装置201からログを収集する場合について説明したが、これに限らない。例えば、情報処理装置100が、ネットワーク210に接続されず、ログを入力される場合があってもよい。
【0038】
ここでは、情報処理装置100が、ログを収集し、特徴語を判定し、分類規則を生成する一連の動作を実現する場合について説明したが、これに限らない。例えば、複数の装置が協働して、情報処理装置100と同様に、一連の動作を実現する場合があってもよい。
【0039】
ここでは、情報処理装置100が、ユーザの業務に関するログを収集する場合について説明したが、これに限らない。例えば、情報処理装置100が、ユーザの業務以外の動作に関するログを収集する場合があってもよい。
【0040】
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、情報処理装置100のハードウェア構成例について説明する。
【0041】
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。
【0042】
ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。メモリ302は、例えば、図4図8に後述する各種DB(DataBase)を記憶する。
【0043】
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
【0044】
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。記録媒体305は、例えば、図4図8に後述する各種DBを記憶してもよい。
【0045】
情報処理装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。
【0046】
(業務ログDB400の記憶内容)
次に、図4を用いて、業務ログDB400の記憶内容の一例について説明する。業務ログDB400は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0047】
図4は、業務ログDB400の記憶内容の一例を示す説明図である。図4に示すように、業務ログDB400は、ユーザと、テキストと、開始時刻と、終了時刻と、ログ種類とのフィールドを有する。業務ログDB400は、各フィールドに情報を設定することにより、ログがレコードとして記憶される。
【0048】
ユーザのフィールドには、所定の動作を行ったユーザを識別する名称が設定される。所定の動作は、業務であり、例えば、データを使用する動作である。テキストのフィールドには、所定の動作により使用されたデータに関するテキストが設定される。テキストは、ウィンドウタイトル、スケジュールタイトル、メールタイトルなどである。開始時刻のフィールドには、所定の動作が開始された時刻が設定される。終了時刻のフィールドには、所定の動作が終了された時刻が設定される。ログ種類のフィールドには、ログの種類が設定される。
【0049】
(統計情報DB500の記憶内容)
次に、図5を用いて、統計情報DB500の記憶内容の一例について説明する。統計情報DB500は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0050】
図5は、統計情報DB500の記憶内容の一例を示す説明図である。図5に示すように、統計情報DB500は、ユーザと、1以上の語句とのフィールドを有する。統計情報DB500は、各フィールドに情報を設定することにより、統計情報がレコードとして記憶される。
【0051】
ユーザのフィールドには、ユーザを識別する名称が設定される。語句のフィールドには、ユーザによる語句の使用傾向を示す情報が設定される。使用傾向を示す情報は、例えば、使用頻度である。使用頻度は、例えば、使用回数または使用率である。使用傾向を示す情報は、例えば、使用時間であってもよい。使用時間は、例えば、語句が名称に含まれるデータを使用した時間である。使用時間は、例えば、語句が含まれる内容のスケジュールが設定された時間であってもよい。
【0052】
(グループDB600の記憶内容)
次に、図6を用いて、グループDB600の記憶内容の一例について説明する。グループDB600は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0053】
図6は、グループDB600の記憶内容の一例を示す説明図である。図6に示すように、グループDB600は、グループと、ユーザとのフィールドを有する。グループDB600は、各フィールドに情報を設定することにより、グループ情報がレコードとして記憶される。
【0054】
グループのフィールドには、グループを識別する名称が設定される。ユーザのフィールドには、グループに所属するユーザを識別する名称が設定される。
【0055】
(特徴語候補DB700の記憶内容)
次に、図7を用いて、特徴語候補DB700の記憶内容の一例について説明する。特徴語候補DB700は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0056】
図7は、特徴語候補DB700の記憶内容の一例を示す説明図である。図7に示すように、特徴語候補DB700は、特徴語のフィールドを有する。特徴語候補DB700は、各フィールドに情報を設定することにより、特徴語候補がレコードとして記憶される。
【0057】
特徴語のフィールドには、特徴語であると判定された語句が設定される。
【0058】
(フィードバックDB800の記憶内容)
次に、図8を用いて、フィードバックDB800の記憶内容の一例について説明する。フィードバックDB800は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0059】
図8は、フィードバックDB800の記憶内容の一例を示す説明図である。図8に示すように、フィードバックDB800は、特徴語と、分類先カテゴリとのフィールドを有する。フィードバックDB800は、各フィールドに情報を設定することにより、フィードバック情報がレコードとして記憶される。
【0060】
特徴語のフィールドには、特徴語であると判定された語句が設定される。分類先カテゴリのフィールドには、特徴語に対応するログを分類するカテゴリを識別する名称が設定される。特徴語に対応するログは、特徴語を含むテキストを含むログである。
【0061】
(クライアント装置201のハードウェア構成例)
クライアント装置201のハードウェア構成例は、図3に示した情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
【0062】
(情報処理装置100の機能的構成例)
次に、図9を用いて、情報処理装置100の機能的構成例について説明する。
【0063】
図9は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部900と、取得部901と、生成部902と、分類部903と、第1の算出部904と、第2の算出部905と、判定部906と、出力部907とを含む。
【0064】
記憶部900は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部900が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部900が、情報処理装置100とは異なる装置に含まれ、記憶部900の記憶内容が情報処理装置100から参照可能である場合があってもよい。
【0065】
取得部901〜出力部907は、制御部の一例として機能する。取得部901〜出力部907は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
【0066】
記憶部900は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部900は、例えば、複数のユーザのそれぞれのユーザによる語句ごとの使用履歴を記憶してもよい。使用履歴は、例えば、ログである。記憶部900は、例えば、複数のユーザのそれぞれのユーザによる語句ごとの使用傾向を示す情報を記憶してもよい。使用傾向は、使用頻度または使用時間である。使用頻度は、例えば、使用回数または使用率である。
【0067】
記憶部900は、例えば、複数のユーザを複数のグループに分類した結果を記憶してもよい。記憶部900は、例えば、特徴語であると判定された語句を記憶してもよい。記憶部900は、例えば、特徴語に対応付ける分類先カテゴリを記憶してもよい。記憶部900は、具体的には、図4図8に示した各種DBを記憶する。
【0068】
取得部901は、各機能部の処理に用いられる各種情報を取得する。取得部901は、取得した各種情報を、記憶部900に記憶し、または、各機能部に出力する。また、取得部901は、記憶部900に記憶しておいた各種情報を、各機能部に出力してもよい。取得部901は、例えば、作成者の操作入力に基づき、各種情報を取得する。取得部901は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。
【0069】
取得部901は、具体的には、それぞれのユーザによる語句の使用履歴を取得し、生成部902および分類部903に出力してもよい。取得部901は、具体的には、生成部902で情報を生成しない場合、それぞれのユーザによる語句ごとの使用傾向を示す情報を取得し、第1の算出部904に出力してもよい。取得部901は、具体的には、分類部903でユーザを分類しない場合、複数のユーザを複数のグループに分類した結果を取得し、第1の算出部904に出力してもよい。
【0070】
生成部902は、それぞれのユーザによる語句の使用履歴に基づいて、それぞれのユーザによる対象の語句の使用傾向を示す情報を生成する。対象の語句は、ログに含まれる語句である。対称の語句は、作成者から指定された語句であってもよい。生成部902は、例えば、業務ログDB400に記憶されたログに基づいて、それぞれのユーザによる語句ごとの使用傾向を示す情報を生成し、統計情報DB500を用いて記憶する。これにより、生成部902は、特徴語を判定する基準を算出するための情報を生成することができる。
【0071】
分類部903は、それぞれのユーザによる語句の使用履歴に基づいて、複数のユーザを、複数のグループに分類する。分類部903は、例えば、統計情報DB500に記憶されたログに基づいて、複数のユーザのそれぞれのユーザの語句の使用傾向を示す特徴ベクトルを生成し、特徴ベクトルに基づいて、複数のユーザを複数のグループに分類する。そして、分類部903は、分類した結果を、グループDB600を用いて記憶する。これにより、分類部903は、特徴語を判定する基準を算出するための情報を生成することができる。
【0072】
第1の算出部904は、それぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出する。第1の算出部904は、例えば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間に基づいて、第1の指標値を算出してもよい。
【0073】
第1の算出部904は、具体的には、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、第1の指標値を算出する。第1の算出部904は、より具体的には、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間を確率変数としたエントロピーに基づいて、第1の指標値を算出する。これにより、第1の算出部904は、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0074】
第1の算出部904は、例えば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度、および、グループに含まれるユーザごとの対象の語句の使用頻度の統計値に基づいて、第1の指標値を算出してもよい。第1の算出部904は、具体的には、ユーザごとの対象の語句の使用頻度に、統計値に基づく仮想ユーザの使用頻度を追加して、使用頻度についてのエントロピーに基づいて、第1の指標値を算出する。これにより、第1の算出部904は、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0075】
第1の算出部904は、例えば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用時間、および、グループに含まれるユーザごとの対象の語句の使用時間の統計値に基づいて、第1の指標値を算出してもよい。第1の算出部904は、具体的には、ユーザごとの対象の語句の使用時間に、統計値に基づく仮想ユーザの使用時間を追加して、ユーザごとの対象の語句の使用時間についてのエントロピーに基づいて、第1の指標値を算出する。これにより、第1の算出部904は、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0076】
第2の算出部905は、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出する。第2の算出部905は、例えば、グループについてのユーザ間における対象の語句の使用傾向のばらつき度合いが小さいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出する。第2の算出部905は、例えば、グループ間における対象の語句の使用傾向のばらつき度合いが大きいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出する。
【0077】
第2の算出部905は、具体的には、それぞれのグループについて算出した第1の指標値についてのエントロピーに基づいて、第2の指標値を算出する。第2の算出部905は、より具体的には、それぞれのグループについて算出した第1の指標値を確率変数としたエントロピーに基づいて、第2の指標値を算出する。これにより、第2の算出部905は、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮した基準を算出することができる。
【0078】
第2の算出部905は、それぞれのグループについて算出した第1の指標値、および、それぞれのグループについて算出した第1の指標値の統計値に基づいて、第2の指標値を算出してもよい。第2の算出部905は、具体的には、算出した第1の指標値に、統計値に基づく仮想グループの指標値を追加して、指標値についてのエントロピーに基づいて、第2の指標値を算出する。これにより、第2の算出部905は、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮した基準を算出することができる。
【0079】
判定部906は、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定する。判定部906は、算出した第2の指標値が閾値以下である場合、対象の語句が、特徴語であると判定する。これにより、判定部906は、特徴語を精度よく判定することができる。
【0080】
出力部907は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。
【0081】
出力部907は、判定部906の判定結果を出力する。出力部907は、例えば、特徴語であると判定された語句を表示する。これにより、出力部907は、作成者が特徴語を把握しやすくすることができ、作成者が分類規則を作成しやすくすることができる。
【0082】
出力部907は、算出した第2の指標値を、対象の語句に対応付けて出力する。出力部907は、例えば、算出した第2の指標値を、対象の語句に対応付けて表示する。これにより、出力部907は、作成者が特徴語を判定する指標を得ることができるようにして、作成者が特徴語を判定しやすくすることができ、作成者が分類規則を作成しやすくすることができる。
【0083】
出力部907は、算出した第2の指標値に対応する表示態様で、対象の語句を表示する。表示態様は、例えば、色や装飾である。表示態様は、例えば、表示順であってもよい。出力部907は、例えば、対象の語句が複数ある場合、算出した第2の指標値が小さい順に対象の語句を表示する。これにより、出力部907は、作成者が特徴語を判定する指標を得ることができるようにして、作成者が特徴語を判定しやすくすることができ、作成者が分類規則を作成しやすくすることができる。
【0084】
(情報処理装置100の具体的構成例)
次に、図10を用いて、情報処理装置100の具体的構成例について説明する。
【0085】
図10は、情報処理装置100の具体的構成例を示すブロック図である。図10において、情報処理装置100は、統計処理器1001と、グループ認識器1002と、特徴語候補検出器1003と、分類規則生成器1004とを有する。
【0086】
図10の例では、N人のユーザU={u1,u2,・・・,uN}が存在し、σ1,σ2,tの値が予め設定済みである場合について説明する。σ1,σ2,tの値は、正の値である。例えば、σ1=0.1,σ2=0.01,t=0.3である。
【0087】
以下の説明では、N人のユーザUのうちの任意のユーザを「ユーザu」と表記する場合がある。また、以下の説明では、N人のユーザUのうちの特定のユーザを「ユーザui」と表記する場合がある。i=1〜Nの整数である。
【0088】
統計処理器1001は、業務ログDB400に記憶されたログに基づいて、それぞれのユーザuiについてのログ中に、特徴語であるか否かを判定する対象の語句が出現する頻度F(ui)を算出し、統計情報DB500を用いて記憶する。
【0089】
グループ認識器1002は、統計情報DB500に記憶された、それぞれのユーザuについての使用頻度F(u)に基づいて、特徴ベクトルを生成する。グループ認識器1002は、それぞれのユーザuについての特徴ベクトルに基づいて、N人のユーザU={u1,u2,・・・,uN}を、M個のグループG={g1,g2,・・・,gM}に分類し、グループDB600を用いて記憶する。
【0090】
ここで、グループ内のユーザは、使用する語句が共通する傾向がある。例えば、同じ業務にかかるグループでは、ユーザ間で業務に関して使用する語句を統一する傾向がある。業務に関して使用する語句は、例えば、組織や企業の呼び名、および、製品や技術の呼び名などである。グループ認識器1002は、この傾向を利用して、特徴ベクトルを利用することにより、ユーザをグループに分類することができる。
【0091】
特徴語候補検出器1003は、統計情報DB500およびグループDB600を参照する。特徴語候補検出器1003は、それぞれのグループgm∈Gに、仮想ユーザvmを追加する。m=1〜Mの整数である。特徴語候補検出器1003は、下記式(1)および下記式(2)に基づいて、仮想ユーザvmについての使用頻度F(vm)を算出する。
【0092】
特徴語候補検出器1003は、例えば、グループgmに所属するユーザuの使用頻度F(u)の最大値が0より大きければ、グループgmに所属する全ユーザuの使用頻度F(u)の中央値にσ1を加算した値を、使用頻度F(vm)として算出する。一方で、特徴語候補検出器1003は、例えば、グループgmに所属する全ユーザuの使用頻度F(u)が0である場合、σ1を仮想ユーザvmについての使用頻度F(vm)として算出する。
【0093】
【数1】
【0094】
【数2】
【0095】
次に、特徴語候補検出器1003は、下記式(3)〜下記式(5)に基づいて、各グループgmに所属する各ユーザuのログ中における対象の語句の出現分布Eu(gm)を算出する。ここで、0×log0は、0とする。これにより、特徴語候補検出器1003は、特徴語を判定する基準として、各グループgmに所属するユーザu間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0096】
ここで、特徴語は、いずれかのグループに対応する特徴を表すため、いずれかのグループに所属するユーザにより使用されやすい性質を有する。このため、いずれかのグループに対応する特徴を表す特徴語は、例えば、いずれかのグループに所属する複数のユーザには共通して使用されやすく、他のグループに所属するユーザには使用されにくいという性質を有する。特徴語候補検出器1003は、この性質を利用して、特定のグループ内のユーザ間で平均的に使用される語句ほど、特徴語とすることが好ましいことを示すように、基準となる出現分布Eu(gm)を算出することができる。
【0097】
【数3】
【0098】
【数4】
【0099】
【数5】
【0100】
ここで、特徴語候補検出器1003は、グループgmに所属する全ユーザuの使用頻度F(u)が0であっても、仮想ユーザvmについての使用頻度F(vm)を用いるため、上記式(3)〜上記式(5)を演算可能にすることができる。これに対し、グループgmに所属する全ユーザuの使用頻度F(u)に微小値を加算し、上記式(3)〜上記式(5)を演算可能にする場合も考えられる。
【0101】
しかしながら、この場合では、グループgmに所属する全ユーザuが、対象の語句を使用する傾向があることを表してしまい、特徴語を判定する基準を精度よく算出することが難しくなる。一方で、特徴語候補検出器1003は、仮想ユーザvmについての使用頻度F(vm)を用いるため、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を、精度よく算出することができる。
【0102】
次に、特徴語候補検出器1003は、グループ集合Gに、仮想グループg’を追加する。特徴語候補検出器1003は、下記式(6)および下記式(7)に基づいて、仮想グループg’についての出現分布Eu(g’)を算出する。
【0103】
特徴語候補検出器1003は、例えば、グループ集合G中の各グループgmの出現分布Eu(gm)の最大値が0より大きければ、各グループgmの出現分布Eu(gm)の平均値にσ2を乗算した値を、仮想グループg’の出現分布Eu(g’)として算出する。一方で、特徴語候補検出器1003は、全グループgmの出現分布Eu(gm)が0であれば、σ2を、仮想グループg’の出現分布Eu(g’)として算出する。
【0104】
【数6】
【0105】
【数7】
【0106】
特徴語候補検出器1003は、下記式(8)および下記式(9)に基づいて、対象の語句のグループレベルの出現分布Eu+gを算出する。これにより、特徴語候補検出器1003は、特徴語を判定する基準として、グループgm間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0107】
ここで、特徴語は、いずれかのグループに対応する特徴を表すため、いずれかのグループに所属するユーザにより使用されやすい性質を有する。このため、いずれかのグループに対応する特徴を表す特徴語は、例えば、いずれかのグループに所属する複数のユーザには共通して使用されやすく、他のグループに所属するユーザには使用されにくいという性質を有する。特徴語候補検出器1003は、この性質を利用して、複数のグループに跨って使用される語句ほど、特徴語とすることが好ましくないことを示すように、基準となる出現分布Eu+gを算出することができる。
【0108】
この際、特徴語候補検出器1003は、出現分布Eu(gm)を利用するため、ユーザu間における使用傾向のばらつき度合いの観点と、グループgm間における使用傾向のばらつき度合いの観点のいずれも考慮した基準を得ることができる。
【0109】
ここで、下記式(8)は、log部分に、Eu(gm)の乗算項を含む。このため、下記式(8)は、3グループの出現分布Eu(gm)が{1.0,0.0,0.0}である場合と、{0.1,0.0,0.0}である場合とで、出現分布Eu+gの値が異なるようにすることができる。結果として、下記式(8)は、一部のグループ内では多くのユーザが使用し、他のグループ内では使用されにくい語句であるか否かを考慮した出現分布Eu+gを算出可能にすることができる。
【0110】
【数8】
【0111】
【数9】
【0112】
特徴語候補検出器1003は、算出した出現分布Eu+gがtより小さい場合、対象の語句を特徴語であると判定し、対象の語句を特徴語候補として、特徴語候補DB700を用いて記憶する。
【0113】
作成者は、特徴語候補DB700を参照して、特徴語に対応付ける分類先カテゴリを、フィードバックDB800に書き込む。分類規則生成器1004は、フィードバックDB800を参照して、分類規則を作成し、分類規則DB1010を用いて記憶する。
【0114】
(情報処理装置100の動作例)
次に、図11図17を用いて、情報処理装置100の動作例について説明する。
【0115】
図11図17は、情報処理装置100の動作例を示す説明図である。図11図18の例では、10人のユーザu1〜u10が存在し、10人のユーザu1〜u10が業務内容に基づき3つのグループg1〜g3に分類された場合について説明する。
【0116】
また、図11図18の例では、語句「Xプロジェクト」、語句「Yシステム」、語句「秘密」、語句「来客対応」のそれぞれの語句が、ユーザu1〜u10のいずれかにより使用される。ここで、語句「Xプロジェクト」は、ユーザu1,u2,u3により10回ずつ使用された語句であるとする。このため、語句「Xプロジェクト」は、特定のグループ内のユーザ間で平均的に使用される語句であり、特徴語とすることが好ましいと考えられる語句の一例である。
【0117】
また、語句「Yシステム」は、ユーザu1,u2により10回ずつ使用された語句であるとする。このため、語句「Yシステム」は、ユーザu3が使用していないが、特定のグループ内のユーザ間で平均的に使用されやすい語句であり、特徴語とすることが好ましいと考えられる語句の一例である。一方で、語句「Yシステム」は、ユーザu3が使用していないため、語句「Xプロジェクト」に比べると、特徴語としての好ましさは低くなる。
【0118】
また、語句「秘密」は、ユーザu1により10回使用された語句であるとする。このため、語句「秘密」は、特定のグループ内の一部のユーザにより使用される語句であり、特徴語とすることが好ましくないと考えられる語句の一例である。また、語句「来客対応」は、ユーザu1,u4により10回ずつ使用された語句であるとする。このため、語句「来客対応」は、複数のグループに跨って使用される語句であり、特徴語とすることが好ましくないと考えられる語句の一例である。
【0119】
以下の説明では、情報処理装置100が、語句「Xプロジェクト」、語句「Yシステム」、語句「秘密」、語句「来客対応」のそれぞれの語句について、特徴語であるか否かを、どのように判定するかを示す一例について説明する。次に、図11の説明に移行する。
【0120】
図11において、情報処理装置100は、語句「Xプロジェクト」を判定対象として設定する。情報処理装置100は、統計情報DB500を参照して、語句「Xプロジェクト」のユーザu1〜u10についての使用頻度を取得し、表1100のように記憶する。
【0121】
情報処理装置100は、各グループgm∈Gに、仮想ユーザvmを追加する。そして、情報処理装置100は、グループgmに所属する全ユーザのログ中における語句「Xプロジェクト」の使用頻度の中央値にσ1を加算した値を、仮想ユーザvmについての使用頻度F(vm)として算出し、表1101のように記憶する。ここで、例えば、σ1=0.1である。そして、情報処理装置100は、各グループgmに所属する各ユーザのログ中における語句「Xプロジェクト」の出現分布Eu(gm)を算出し、表1101のように記憶する。次に、図12の説明に移行する。
【0122】
図12において、情報処理装置100は、グループ集合Gに仮想グループg’を追加する。情報処理装置100は、表1101を参照して、グループ集合G中の各グループの出現分布の平均値にσ2を乗算した値を、仮想グループg’についての出現分布Eu(gm)として算出し、表1200のように記憶する。ここで、例えば、σ2=0.01である。次に、情報処理装置100は、語句「Xプロジェクト」のグループレベルの出現分布Eu+gを算出し、表1200のように記憶する。そして、情報処理装置100は、出現分布Eu+gがtより小さい場合、語句「Xプロジェクト」を特徴語候補とする。ここで、例えば、t=0.3である。
【0123】
図12の例では、情報処理装置100は、出現分布Eu+gがtより小さいため、語句「Xプロジェクト」を特徴語候補とする。これにより、情報処理装置100は、特定のグループ内のユーザ間で平均的に使用される語句であり、特徴語とすることが好ましいと考えられる語句「Xプロジェクト」を、特徴語候補とすることができる。次に、図13の説明に移行する。
【0124】
図13において、情報処理装置100は、語句「Xプロジェクト」と同様に、語句「Yシステム」について出現分布Eu(gm)を算出し、出現分布Eu+gを算出し、表1300のように記憶する。図13の例では、情報処理装置100は、出現分布Eu+gがtより小さいため、語句「Yシステム」を特徴語候補とする。これにより、情報処理装置100は、特定のグループ内のユーザ間で平均的に使用される語句であり、特徴語とすることが好ましいと考えられる語句「Yシステム」を、特徴語候補とすることができる。次に、図14の説明に移行する。
【0125】
図14において、情報処理装置100は、語句「Xプロジェクト」と同様に、語句「秘密」について出現分布Eu(gm)を算出し、出現分布Eu+gを算出し、表1400のように記憶する。図14の例では、情報処理装置100は、出現分布Eu+gがt以上であるため、語句「秘密」を特徴語候補としない。これにより、情報処理装置100は、特定のグループ内の一部のユーザにより使用される語句であり、特徴語とすることが好ましくないと考えられる語句「秘密」を、特徴語候補としないことができる。次に、図15の説明に移行する。
【0126】
図15において、情報処理装置100は、語句「Xプロジェクト」と同様に、語句「来客対応」について出現分布Eu(gm)を算出し、出現分布Eu+gを算出し、表1500のように記憶する。図15の例では、情報処理装置100は、出現分布Eu+gがt以上であるため、語句「来客対応」を特徴語候補としない。これにより、情報処理装置100は、複数のグループに跨って使用される語句であり、特徴語とすることが好ましくないと考えられる語句「来客対応」を、特徴語候補としないことができる。次に、図16の説明に移行する。
【0127】
図16において、情報処理装置100が、出現分布Eu+gに基づいて特徴語を判定した結果について説明する。また、特徴語を判定した結果との比較対象として、ユーザによる語句の使用頻度についてのエントロピーEuに基づいて特徴語を判定する場合と、グループにおける語句の使用頻度についてのエントロピーEgに基づいて特徴語を判定する場合とについても説明する。
【0128】
表1600に示すように、情報処理装置100は、語句「Xプロジェクト」や語句「Yシステム」についての出現分布Eu+gが比較的小さいため、特徴語として好ましい語句「Xプロジェクト」や語句「Yシステム」を、特徴語であると判定することができる。また、情報処理装置100は、語句「秘密」や語句「来客対応」についての出現分布Eu+gが比較的大きいため、特徴語として好ましくない語句「秘密」や語句「来客対応」を、特徴語ではないと判定することができる。さらに、情報処理装置100は、出現分布Eu+gの大小関係から、語句「Xプロジェクト」が、語句「Yシステム」よりも特徴語として好ましいことも判定することができる。
【0129】
これに対し、表1600に示すように、エントロピーEuに基づいて特徴語を判定する場合では、語句「Xプロジェクト」についてのエントロピーEuが比較的大きいため、語句「Xプロジェクト」を、特徴語ではないと判定してしまう可能性がある。また、表1600に示すように、エントロピーEgに基づいて特徴語を判定する場合では、語句「秘密」についてのエントロピーEgが比較的小さいため、語句「秘密」を、特徴語であると判定してしまう可能性がある。このように、情報処理装置100は、エントロピーEuやエントロピーEgを利用する場合に比べて、精度よく特徴語を判定することができる。次に、図17の説明に移行する。
【0130】
図17において、ユーザによる対象の語句の使用頻度の分布に応じて、出現分布Eu+gがどのような値になるかについて説明する。例えば、表1700に示すように、出現分布Eu+gは、特定のグループ内のユーザに平均的に使用されるほど、値が小さくなる傾向がある。
【0131】
また、例えば、出現分布Eu+gは、特定のグループ内のユーザの使用頻度が大きいほど、値が小さくなる傾向がある。また、例えば、出現分布Eu+gは、特定のグループ内の使用人数が大きいほど、値が小さくなる傾向がある。また、例えば、出現分布Eu+gは、複数のグループに跨って使用されるほど、値が大きくなる傾向がある。
【0132】
このように、出現分布Eu+gは、いずれかのカテゴリに関する属性を有するユーザにより使用されやすいという特徴語の性質を、値に反映することができる。例えば、出現分布Eu+gは、いずれかのカテゴリに関する属性を有する複数のユーザには共通して使用されやすく、他のカテゴリに関する属性を有するユーザには使用されにくいという特徴語の性質を、値に反映することができる。このため、情報処理装置100は、出現分布Eu+gに基づいて、特徴語を精度よく判定することができる。そして、情報処理装置100は、特徴語を作成者に把握可能に表示し、作成者が分類規則を作成しやすくすることができる。
【0133】
これに対し、表1700に示すように、エントロピーEu、および、エントロピーEgは、単独では、特徴語の性質を、値に反映することが難しい。このため、エントロピーEuに基づいて特徴語を判定する場合、および、エントロピーEgに基づいて特徴語を判定する場合では、精度よく特徴語を判定することは難しい。
【0134】
また、情報処理装置100は、語句ごとに、出現分布Eu+gを対応付けて表示する場合があってもよい。この場合、作成者は、いずれの語句が、どのくらい特徴語として好ましいかを判断可能になり、特徴語を精度よく判定可能になる。結果として、情報処理装置100は、作成者が、分類規則を作成しやすくすることができる。
【0135】
また、情報処理装置100は、出現分布Eu+gの小さい順に、語句をソートして表示する場合があってもよい。この場合、作成者は、いずれの語句が、どのくらい特徴語として好ましいかを判断可能になり、特徴語を精度よく判定可能になる。結果として、情報処理装置100は、作成者が、分類規則を作成しやすくすることができる。
【0136】
(全体処理手順)
次に、図18を用いて、情報処理装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0137】
図18は、全体処理手順の一例を示すフローチャートである。図18において、情報処理装置100は、図19に後述する統計処理を実行する(ステップS1801)。
【0138】
次に、情報処理装置100は、図20に後述する分類処理を実行する(ステップS1802)。そして、情報処理装置100は、統計処理の処理結果、および、分類処理の処理結果に基づいて、図21に後述する検出処理を実行する(ステップS1803)。
【0139】
次に、情報処理装置100は、検出処理の処理結果として特徴語候補DB700を出力する(ステップS1804)。そして、情報処理装置100は、特徴語に対応付ける分類先カテゴリの入力を受け付け、フィードバックDB800に記憶する(ステップS1805)。
【0140】
次に、情報処理装置100は、フィードバックDB800に基づいて、分類規則を生成する(ステップS1806)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、分類規則を生成することができる。
【0141】
(統計処理手順)
次に、図19を用いて、情報処理装置100が実行する、統計処理手順の一例について説明する。統計処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0142】
図19は、統計処理手順の一例を示すフローチャートである。図19において、情報処理装置100は、業務ログDB400を、Dに設定し、統計情報DB500を、Sに設定する。まず、情報処理装置100は、Sの使用頻度を初期化し、すべて0に設定する(ステップS1901)。
【0143】
次に、情報処理装置100は、D中のログをすべて取得し、D’に設定する(ステップS1902)。そして、情報処理装置100は、D’が空であるか否かを判定する(ステップS1903)。
【0144】
ここで、空である場合(ステップS1903:Yes)、情報処理装置100は、統計処理を終了する。一方で、空ではない場合(ステップS1903:No)、情報処理装置100は、ステップS1904の処理に移行する。
【0145】
ステップS1904では、情報処理装置100は、D’からログを1つ取り出し、dに設定する(ステップS1904)。次に、情報処理装置100は、dに含まれるテキストを単語分割し、w1,w2,・・・,wnに設定する(ステップS1905)。
【0146】
そして、情報処理装置100は、dのユーザと各語句との組み合わせに対応するS中のフィールドの値を更新する(ステップS1906)。その後、情報処理装置100は、ステップS1903の処理に戻る。これにより、情報処理装置100は、作成者が使用頻度を算出せずに済むようにし、作成者にかかる作業負担の低減化を図ることができる。
【0147】
(分類処理手順)
次に、図20を用いて、情報処理装置100が実行する、分類処理手順の一例について説明する。分類処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0148】
図20は、分類処理手順の一例を示すフローチャートである。図20において、情報処理装置100は、統計情報DB500を、Sに設定し、グループDB600を、Cに設定する。まず、情報処理装置100は、Cを初期化し、すべてのユーザが所属するグループを空に設定する(ステップS2001)。
【0149】
次に、情報処理装置100は、S中の各ユーザについて、各語句の使用頻度から特徴ベクトルを生成する(ステップS2002)。そして、情報処理装置100は、すべてのユーザの特徴ベクトルに基づいて、ユーザをグループに分類する(ステップS2003)。
【0150】
次に、情報処理装置100は、分類結果をCに記憶する(ステップS2004)。そして、情報処理装置100は、分類処理を終了する。これにより、情報処理装置100は、作成者がユーザをグループに分類せずに済むようにし、作成者にかかる作業負担の低減化を図ることができる。
【0151】
(判定処理手順)
次に、図21を用いて、情報処理装置100が実行する、判定処理手順の一例について説明する。判定処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0152】
図21は、判定処理手順の一例を示すフローチャートである。図21において、情報処理装置100は、統計情報DB500を、Sに設定し、グループDB600を、Cに設定し、特徴語候補DB700を、Wに設定する。まず、情報処理装置100は、Wを初期化する(ステップS2101)。
【0153】
次に、情報処理装置100は、Sから語句集合を取得し、Vに設定する(ステップS2102)。そして、情報処理装置100は、Vが空であるか否かを判定する(ステップS2103)。
【0154】
ここで、空である場合(ステップS2103:Yes)、情報処理装置100は、判定処理を終了する。一方で、空ではない場合(ステップS2103:No)、情報処理装置100は、ステップS2104の処理に移行する。
【0155】
ステップS2104では、情報処理装置100は、Vから語句を1つ取り出し、wに設定する(ステップS2104)。次に、情報処理装置100は、図22に後述する算出処理を実行する(ステップS2105)。そして、情報処理装置100は、wが特徴語候補であるか否かを判定する(ステップS2106)。
【0156】
ここで、特徴語候補ではない場合(ステップS2106:No)、情報処理装置100は、ステップS2103の処理に戻る。一方で、特徴語候補である場合(ステップS2106:Yes)、情報処理装置100は、ステップS2107の処理に移行する。
【0157】
ステップS2107では、情報処理装置100は、Wにwを追加する(ステップS2107)。そして、情報処理装置100は、ステップS2103の処理に戻る。これにより、情報処理装置100は、特徴語を精度よく判定することができる。
【0158】
(算出処理手順)
次に、図22を用いて、情報処理装置100が実行する、算出処理手順の一例について説明する。算出処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0159】
図22は、算出処理手順の一例を示すフローチャートである。図22において、情報処理装置100は、統計情報DB500を、Sに設定し、グループDB600を、Cに設定する。まず、情報処理装置100は、Eを初期化し、空に設定する(ステップS2201)。
【0160】
次に、情報処理装置100は、Cからグループ集合を取得し、Gに設定する(ステップS2202)。そして、情報処理装置100は、Gが空であるか否かを判定する(ステップS2203)。ここで、空である場合(ステップS2203:Yes)、情報処理装置100は、ステップS2208の処理に移行する。一方で、空ではない場合(ステップS2203:No)、情報処理装置100は、ステップS2204の処理に移行する。
【0161】
ステップS2204では、情報処理装置100は、Gからグループを1つ取り出し、gに設定し、gに対応するユーザのリストを取り出し、Uに設定する(ステップS2204)。次に、情報処理装置100は、U中の各ユーザについて、Sから語句wの使用頻度を取得し、Fに設定する(ステップS2205)。そして、情報処理装置100は、Fの中央値にσ1を加算した値を、Fに追加する(ステップS2206)。次に、情報処理装置100は、Fに基づいてEu(g)を算出し、Eに追加する(ステップS2207)。そして、情報処理装置100は、ステップS2203の処理に戻る。
【0162】
ステップS2208では、情報処理装置100は、Eの平均値にσ2を乗算した値を、Eに追加する(ステップS2208)。次に、情報処理装置100は、Eに基づいてEu+gを算出する(ステップS2209)。そして、情報処理装置100は、Eu+gがtより小さいか否かを出力する(ステップS2210)。その後、情報処理装置100は、算出処理を終了する。
【0163】
ここで、情報処理装置100は、図18図22のいずれかのフローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップS1801,S1802の処理の順序は入れ替え可能である。
【0164】
また、情報処理装置100は、図18図22のいずれかのフローチャートの一部ステップの処理を省略してもよい。例えば、使用頻度が算出済みであれば、ステップS1801の処理は省略可能である。また、例えば、ユーザがグループに分類済みであれば、ステップS1802の処理は省略可能である。
【0165】
以上説明したように、情報処理装置100によれば、複数のユーザを分類した複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出することができる。情報処理装置100によれば、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出することができる。情報処理装置100によれば、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定することができる。これにより、情報処理装置100は、特徴語を精度よく判定することができる。
【0166】
情報処理装置100によれば、グループについてのユーザ間における対象の語句の使用傾向のばらつき度合いが小さいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出することができる。情報処理装置100によれば、グループ間における対象の語句の使用傾向のばらつき度合いが大きいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出することができる。これにより、情報処理装置100は、第2の指標値が、特徴語としての好ましさを精度よく反映するようにすることができる。
【0167】
情報処理装置100によれば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間の統計値に基づいて、第1の指標値を算出することができる。これにより、情報処理装置100は、第1の指標値を精度よく算出可能にすることができる。
【0168】
情報処理装置100によれば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、第1の指標値を算出することができる。これにより、情報処理装置100は、第1の指標値が、特徴語としての好ましさを精度よく反映するようにすることができる。
【0169】
情報処理装置100によれば、それぞれのグループについて算出した第1の指標値、および、それぞれのグループについて算出した第1の指標値の統計値に基づいて、第2の指標値を算出することができる。これにより、情報処理装置100は、第2の指標値を精度よく算出可能にすることができる。
【0170】
情報処理装置100によれば、それぞれのグループについて算出した第1の指標値についてのエントロピーに基づいて、第2の指標値を算出することができる。これにより、情報処理装置100は、第2の指標値が、特徴語としての好ましさを精度よく反映するようにすることができる。
【0171】
情報処理装置100によれば、それぞれのユーザによる語句の使用履歴に基づいて、それぞれのユーザによる対象の語句の使用傾向を示す情報を生成することができる。これにより、情報処理装置100は、作成者が使用傾向を示す情報を作成せずに済むようにして、作成者の作業負担の低減化を図ることができる。
【0172】
情報処理装置100によれば、それぞれのユーザによる語句の使用履歴に基づいて、複数のユーザを、複数のグループに分類することができる。これにより、情報処理装置100は、作成者がユーザを分類せずに済むようにして、作成者の作業負担の低減化を図ることができる。
【0173】
情報処理装置100によれば、算出した第2の指標値を、対象の語句に対応付けて出力することができる。これにより、情報処理装置100は、作成者が、対象の語句の特徴語らしさを判断可能にすることができ、特徴語を判定しやすくすることができる。
【0174】
情報処理装置100によれば、算出した第2の指標値に対応する表示態様で、対象の語句を表示することができる。これにより、情報処理装置100は、作成者が、対象の語句の特徴語らしさを判断可能にすることができ、特徴語を判定しやすくすることができる。
【0175】
なお、本実施の形態で説明した判定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した判定プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した判定プログラムは、インターネット等のネットワークを介して配布してもよい。
【符号の説明】
【0176】
100 情報処理装置
110 情報
200 情報分類システム
201 クライアント装置
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 業務ログDB
500 統計情報DB
600 グループDB
700 特徴語候補DB
800 フィードバックDB
900 記憶部
901 取得部
902 生成部
903 分類部
904,905 算出部
906 判定部
907 出力部
1001 統計処理器
1002 グループ認識器
1003 特徴語候補検出器
1004 分類規則生成器
1010 分類規則DB
1100,1101,1200,1300,1400,1500,1600,1700 表
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22

【手続補正書】
【提出日】2020年10月26日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、
前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、
算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する、
処理をコンピュータが実行することを特徴とする判定方法。
【請求項2】
前記第2の指標値を算出する処理は、
前記グループについての前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いが小さいほど、または、前記グループ間における前記対象の語句の使用傾向のばらつき度合いが大きいほど、前記対象の語句が前記特徴語である可能性が高いことを示すように、前記第2の指標値を算出する、ことを特徴とする請求項1に記載の判定方法。
【請求項3】
前記情報は、前記対象の語句の使用頻度または使用時間であり、
前記第1の指標値を算出する処理は、
前記それぞれのグループについて、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間、および、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間の統計値に基づいて、前記第1の指標値を算出する、ことを特徴とする請求項1または2に記載の判定方法。
【請求項4】
前記情報は、前記対象の語句の使用頻度または使用時間であり、
前記第1の指標値を算出する処理は、
前記それぞれのグループについて、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、前記第1の指標値を算出する、ことを特徴とする請求項1〜3のいずれか一つに記載の判定方法。
【請求項5】
前記第2の指標値を算出する処理は、
前記それぞれのグループについて算出した前記第1の指標値、および、前記それぞれのグループについて算出した前記第1の指標値の統計値に基づいて、前記第2の指標値を算出する、ことを特徴とする請求項1〜4のいずれか一つに記載の判定方法。
【請求項6】
前記第2の指標値を算出する処理は、
前記それぞれのグループについて算出した前記第1の指標値についてのエントロピーに基づいて、前記第2の指標値を算出する、ことを特徴とする請求項1〜5のいずれか一つに記載の判定方法。
【請求項7】
複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、
前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、
算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、判定方法および判定プログラムに関する。
【背景技術】
【0002】
従来、特徴語と、特徴語を含む情報の分類先とするカテゴリとを対応付けた分類規則を参照して、対象の情報を、いずれかのカテゴリに分類する技術がある。例えば、分類規則を参照して、ユーザの業務ログに含まれる特徴語を基に、ユーザの業務ログを、何らかの業務内容のカテゴリに分類することが考えられる。
【0003】
先行技術としては、例えば、分類に決定木を利用するものがある。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Quinlan, J. Ross. “Induction of decision trees.” Machine learning 1.1 (1986): 81−106.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、情報をカテゴリに分類する際に用いられる特徴語とする語句を判定することができず、分類規則を作成することが難しい場合がある。
【0006】
1つの側面では、本発明は、特徴語を精度よく判定することを目的とする。
【課題を解決するための手段】
【0007】
1つの実施態様によれば、複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する判定方法および判定プログラムが提案される。
【発明の効果】
【0008】
一態様によれば、特徴語を精度よく判定することが可能になる。
【図面の簡単な説明】
【0009】
図1図1は、実施の形態にかかる判定方法の一実施例を示す説明図である。
図2図2は、情報分類システム200の一例を示す説明図である。
図3図3は、情報処理装置100のハードウェア構成例を示すブロック図である。
図4図4は、業務ログDB400の記憶内容の一例を示す説明図である。
図5図5は、統計情報DB500の記憶内容の一例を示す説明図である。
図6図6は、グループDB600の記憶内容の一例を示す説明図である。
図7図7は、特徴語候補DB700の記憶内容の一例を示す説明図である。
図8図8は、フィードバックDB800の記憶内容の一例を示す説明図である。
図9図9は、情報処理装置100の機能的構成例を示すブロック図である。
図10図10は、情報処理装置100の具体的構成例を示すブロック図である。
図11図11は、情報処理装置100の動作例を示す説明図(その1)である。
図12図12は、情報処理装置100の動作例を示す説明図(その2)である。
図13図13は、情報処理装置100の動作例を示す説明図(その3)である。
図14図14は、情報処理装置100の動作例を示す説明図(その4)である。
図15図15は、情報処理装置100の動作例を示す説明図(その5)である。
図16図16は、情報処理装置100の動作例を示す説明図(その6)である。
図17図17は、情報処理装置100の動作例を示す説明図(その7)である。
図18図18は、全体処理手順の一例を示すフローチャートである。
図19図19は、統計処理手順の一例を示すフローチャートである。
図20図20は、分類処理手順の一例を示すフローチャートである。
図21図21は、判定処理手順の一例を示すフローチャートである。
図22図22は、算出処理手順の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に、図面を参照して、本発明にかかる判定方法および判定プログラムの実施の形態を詳細に説明する。
【0011】
(実施の形態にかかる判定方法の一実施例)
図1は、実施の形態にかかる判定方法の一実施例を示す説明図である。情報処理装置100は、特徴語を判定しやすくするコンピュータである。
【0012】
特徴語は、情報をカテゴリに分類する分類規則に利用される語句である。特徴語は、情報に含まれ、情報が有する特徴を表す語句である。情報が有する特徴は、いずれかのカテゴリに対応する。特徴語は、特徴語を含む情報が、いずれかのカテゴリとの関連性が大きく、他のカテゴリとの関連性が小さい情報であることを示す。特徴語は、いずれかのカテゴリに対応する特徴を表すため、いずれかのカテゴリに関する属性を有するユーザにより使用されやすい性質を有する。
【0013】
このため、特徴語は、ユーザが複数いると、ユーザによる使用傾向に偏りが生じやすいという性質を有する。いずれかのカテゴリに対応する特徴を表す特徴語は、具体的には、いずれかのカテゴリに関する属性を有する複数のユーザには共通して使用されやすく、他のカテゴリに関する属性を有するユーザには使用されにくいという性質を有する。
【0014】
分類規則は、特徴語を含む情報の分類先とするカテゴリを特定可能にする情報である。分類規則は、例えば、特徴語と、特徴語を含む情報の分類先とするカテゴリとを対応付けて表す。具体的には、分類規則により、ユーザの業務ログに含まれる特徴語を基に、ユーザの業務ログを、業務内容のカテゴリに分類することが考えられる。業務内容は、例えば、顧客対応、商品企画、設計開発、拡販などである。
【0015】
しかしながら、情報をカテゴリに分類する際に用いられる特徴語とする語句を判定することが難しいため、分類規則を作成することが難しい場合がある。これに対し、例えば、カテゴリに分類される情報の一例を示す教師情報に基づいて、特徴語とする語句を判定する第1の方法が考えられる。第1の方法は、教師情報がない場合には適用することができず、特徴語とする語句を判定することができない。
【0016】
また、ユーザごとの語句の使用履歴に基づいて、ユーザ間における語句の使用頻度のばらつきが比較的大きい語句を、特徴語であると判定する第2の方法が考えられる。第2の方法は、例えば、ユーザによる語句の使用頻度についてのエントロピーを閾値と比較することにより、特徴語を判定する。これにより、第2の方法は、ユーザ間における語句の使用頻度のばらつきが比較的小さく、様々なユーザが共通して使用するような一般的な語句を、特徴語ではないと判定しようとする。第2の方法は、特徴語とする語句を精度よく判定することは難しい。第2の方法は、例えば、いずれかのカテゴリに関する属性を有する複数のユーザが共通して使用する語句であり、特徴語とすることが好ましい語句があっても、特徴語ではないと判定してしまうことがある。
【0017】
また、ユーザごとの語句の使用履歴に基づいて、カテゴリに関する属性を有するユーザをグループ化し、グループ間における語句の使用頻度のばらつきが比較的大きい語句を、特徴語であると判定する第3の方法が考えられる。第3の方法は、例えば、グループにおける語句の使用頻度についてのエントロピーを閾値と比較することにより、特徴語を判定する。第3の方法は、特徴語とする語句を精度よく判定することは難しい。第3の方法は、例えば、グループごとの使用人数のばらつきを考慮しないため、グループ内の1人だけが使用する語句であり、特徴語とすることが好ましくない語句があっても、特徴語であると判定してしまうことがある。
【0018】
また、第2の方法と第3の方法とを組み合わせた第4の方法が考えられる。第4の方法は、ユーザによる語句の使用頻度についてのエントロピーと、グループにおける語句の使用頻度についてのエントロピーとの2つのパラメータを利用することになり、特徴語を判定する際にかかる作業負担の増大化を招くことがある。また、人手で特徴語を判定することも考えられるが、特徴語を判定する際にかかる作業負担の増大化を招く。
【0019】
そこで、本実施の形態では、ユーザ間における語句の使用傾向のばらつき、および、グループ間における語句の使用傾向のばらつきのいずれも考慮して、特徴語を精度よく判定可能にすることができる判定方法について説明する。
【0020】
図1の例では、情報処理装置100は、複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報110を記憶する。情報処理装置100は、例えば、ユーザu1〜u10による対象の語句の使用頻度を示す情報110を記憶する。使用頻度は、使用回数または使用率である。
【0021】
(1−1)情報処理装置100は、情報110に基づいて、複数のユーザを分類した複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出する。情報処理装置100は、例えば、情報110に基づいて、ユーザu1〜u10を分類したグループg1〜g3について、ユーザ間における対象の語句の使用頻度のばらつき度合いを示す第1の指標値を算出する。情報処理装置100は、具体的には、ユーザごとの使用頻度のエントロピーに基づいて、第1の指標値を算出する。
【0022】
(1−2)情報処理装置100は、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出する。情報処理装置100は、例えば、グループg1〜g3について算出した第1の指標値に基づいて、グループ間における対象の語句の使用頻度のばらつき度合いを示す第2の指標値を算出する。情報処理装置100は、具体的には、グループごとの第1の指標値のエントロピーに基づいて、第2の指標値を算出する。これにより、情報処理装置100は、第1の指標値に基づいて第2の指標値を算出するため、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮した基準を得ることができる。
【0023】
(1−3)情報処理装置100は、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定する。第2の指標値は、例えば、値が小さいほど、対象の語句が特徴語である可能性が高いことを示す。情報処理装置100は、算出した第2の指標値が閾値未満である場合、対象の語句が特徴語であると判定する。情報処理装置100は、例えば、特徴語であると判定した場合、対象の語句を出力する。
【0024】
これにより、情報処理装置100は、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮して、特徴語を判定することができる。このため、情報処理装置100は、特徴語を精度よく判定することができる。
【0025】
情報処理装置100は、例えば、いずれかのカテゴリに関する属性を有する複数のユーザには共通して使用されやすく、他のカテゴリに関する属性を有するユーザには使用されにくい語句を、特徴語であると判定することができる。また、情報処理装置100は、例えば、グループ内の1人だけが使用する語句であり、特徴語とすることが好ましくない語句を、特徴語ではないと判定することができる。
【0026】
また、情報処理装置100は、1つのパラメータにより特徴語であるか否かを判定可能にすることができ、分類規則を作成する作成者にかかる作業負担の低減化を図ることができる。また、情報処理装置100は、作成者が特徴語を判定せずに済むようにすることができ、作成者の作業負担の低減化を図ることができる。また、情報処理装置100は、カテゴリに分類される情報の一例を示す教師情報がなくても、特徴語を判定することができる。
【0027】
ここでは、情報処理装置100が、第2の指標値に基づいて対象の語句が特徴語であるか否かを判定する場合について説明したが、これに限らない。例えば、情報処理装置100が、第2の指標値を、対象の語句に対応付けて表示し、作成者が特徴語を判定しやすくする場合があってもよい。
【0028】
ここでは、複数のユーザが複数のグループに分類済みである場合について説明したが、これに限らない。例えば、情報処理装置100が、複数のユーザを複数のグループに分類する場合があってもよい。ここでは、情報処理装置100が、情報110を記憶済みである場合について説明したが、これに限らない。例えば、情報処理装置100が、情報110を生成する場合があってもよい。
【0029】
(情報分類システム200の一例)
次に、図2を用いて、図1に示した情報処理装置100を適用した、情報分類システム200の一例について説明する。
【0030】
図2は、情報分類システム200の一例を示す説明図である。図2において、情報分類システム200は、情報処理装置100と、1以上のクライアント装置201とを含む。
【0031】
情報分類システム200において、情報処理装置100とクライアント装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
【0032】
情報処理装置100は、分類規則を作成する作成者に用いられるコンピュータである。情報処理装置100は、例えば、図4図8に後述する各種DBを利用して、対象の語句が特徴語であるか否かを判定し、特徴語を出力したことに応じた作成者の操作入力に基づいて、分類規則を作成する。
【0033】
情報処理装置100は、具体的には、ユーザの業務に関するログを、クライアント装置201から収集し、図4に後述する業務ログDB400を用いて記憶する。ユーザは、例えば、何らかの語句を使用する者である。使用は、例えば、語句の入力である。使用は、例えば、語句が名称に含まれるデータの使用である。情報処理装置100は、業務ログDB400に基づいて、ユーザによる語句の使用傾向を示す情報を生成し、図5に後述する統計情報DB500を用いて記憶する。
【0034】
情報処理装置100は、統計情報DB500に基づいて、ユーザをグループに分類した結果を、図6に後述するグループDB600を用いて記憶する。情報処理装置100は、統計情報DB500およびグループDB600に基づいて、ログに出現する語句が、特徴語であるか否かを判定し、特徴語であると判定した語句を、特徴語候補DB700を用いて記憶する。
【0035】
情報処理装置100は、特徴語候補DB700に基づいて、特徴語であると判定した語句を表示する。情報処理装置100は、作成者の操作入力に基づいて、特徴語に対応付ける分類先カテゴリを、フィードバックDB800を用いて記憶する。情報処理装置100は、フィードバックDB800に基づいて、分類規則を作成する。情報処理装置100は、例えば、サーバやPC(Personal Computer)などである。
【0036】
クライアント装置201は、ユーザの操作入力に基づく、ユーザの業務に関するログを、情報処理装置100に送信する。クライアント装置201は、例えば、PC、スマートフォン、タブレット端末などである。
【0037】
ここでは、情報処理装置100が、クライアント装置201からログを収集する場合について説明したが、これに限らない。例えば、情報処理装置100が、ネットワーク210に接続されず、ログを入力される場合があってもよい。
【0038】
ここでは、情報処理装置100が、ログを収集し、特徴語を判定し、分類規則を生成する一連の動作を実現する場合について説明したが、これに限らない。例えば、複数の装置が協働して、情報処理装置100と同様に、一連の動作を実現する場合があってもよい。
【0039】
ここでは、情報処理装置100が、ユーザの業務に関するログを収集する場合について説明したが、これに限らない。例えば、情報処理装置100が、ユーザの業務以外の動作に関するログを収集する場合があってもよい。
【0040】
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、情報処理装置100のハードウェア構成例について説明する。
【0041】
図3は、情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。
【0042】
ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。メモリ302は、例えば、図4図8に後述する各種DB(DataBase)を記憶する。
【0043】
ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。
【0044】
記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。記録媒体305は、例えば、図4図8に後述する各種DBを記憶してもよい。
【0045】
情報処理装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。
【0046】
(業務ログDB400の記憶内容)
次に、図4を用いて、業務ログDB400の記憶内容の一例について説明する。業務ログDB400は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0047】
図4は、業務ログDB400の記憶内容の一例を示す説明図である。図4に示すように、業務ログDB400は、ユーザと、テキストと、開始時刻と、終了時刻と、ログ種類とのフィールドを有する。業務ログDB400は、各フィールドに情報を設定することにより、ログがレコードとして記憶される。
【0048】
ユーザのフィールドには、所定の動作を行ったユーザを識別する名称が設定される。所定の動作は、業務であり、例えば、データを使用する動作である。テキストのフィールドには、所定の動作により使用されたデータに関するテキストが設定される。テキストは、ウィンドウタイトル、スケジュールタイトル、メールタイトルなどである。開始時刻のフィールドには、所定の動作が開始された時刻が設定される。終了時刻のフィールドには、所定の動作が終了された時刻が設定される。ログ種類のフィールドには、ログの種類が設定される。
【0049】
(統計情報DB500の記憶内容)
次に、図5を用いて、統計情報DB500の記憶内容の一例について説明する。統計情報DB500は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0050】
図5は、統計情報DB500の記憶内容の一例を示す説明図である。図5に示すように、統計情報DB500は、ユーザと、1以上の語句とのフィールドを有する。統計情報DB500は、各フィールドに情報を設定することにより、統計情報がレコードとして記憶される。
【0051】
ユーザのフィールドには、ユーザを識別する名称が設定される。語句のフィールドには、ユーザによる語句の使用傾向を示す情報が設定される。使用傾向を示す情報は、例えば、使用頻度である。使用頻度は、例えば、使用回数または使用率である。使用傾向を示す情報は、例えば、使用時間であってもよい。使用時間は、例えば、語句が名称に含まれるデータを使用した時間である。使用時間は、例えば、語句が含まれる内容のスケジュールが設定された時間であってもよい。
【0052】
(グループDB600の記憶内容)
次に、図6を用いて、グループDB600の記憶内容の一例について説明する。グループDB600は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0053】
図6は、グループDB600の記憶内容の一例を示す説明図である。図6に示すように、グループDB600は、グループと、ユーザとのフィールドを有する。グループDB600は、各フィールドに情報を設定することにより、グループ情報がレコードとして記憶される。
【0054】
グループのフィールドには、グループを識別する名称が設定される。ユーザのフィールドには、グループに所属するユーザを識別する名称が設定される。
【0055】
(特徴語候補DB700の記憶内容)
次に、図7を用いて、特徴語候補DB700の記憶内容の一例について説明する。特徴語候補DB700は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0056】
図7は、特徴語候補DB700の記憶内容の一例を示す説明図である。図7に示すように、特徴語候補DB700は、特徴語のフィールドを有する。特徴語候補DB700は、各フィールドに情報を設定することにより、特徴語候補がレコードとして記憶される。
【0057】
特徴語のフィールドには、特徴語であると判定された語句が設定される。
【0058】
(フィードバックDB800の記憶内容)
次に、図8を用いて、フィードバックDB800の記憶内容の一例について説明する。フィードバックDB800は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
【0059】
図8は、フィードバックDB800の記憶内容の一例を示す説明図である。図8に示すように、フィードバックDB800は、特徴語と、分類先カテゴリとのフィールドを有する。フィードバックDB800は、各フィールドに情報を設定することにより、フィードバック情報がレコードとして記憶される。
【0060】
特徴語のフィールドには、特徴語であると判定された語句が設定される。分類先カテゴリのフィールドには、特徴語に対応するログを分類するカテゴリを識別する名称が設定される。特徴語に対応するログは、特徴語を含むテキストを含むログである。
【0061】
(クライアント装置201のハードウェア構成例)
クライアント装置201のハードウェア構成例は、図3に示した情報処理装置100のハードウェア構成例と同様であるため、説明を省略する。
【0062】
(情報処理装置100の機能的構成例)
次に、図9を用いて、情報処理装置100の機能的構成例について説明する。
【0063】
図9は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部900と、取得部901と、生成部902と、分類部903と、第1の算出部904と、第2の算出部905と、判定部906と、出力部907とを含む。
【0064】
記憶部900は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部900が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部900が、情報処理装置100とは異なる装置に含まれ、記憶部900の記憶内容が情報処理装置100から参照可能である場合があってもよい。
【0065】
取得部901〜出力部907は、制御部の一例として機能する。取得部901〜出力部907は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。
【0066】
記憶部900は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部900は、例えば、複数のユーザのそれぞれのユーザによる語句ごとの使用履歴を記憶してもよい。使用履歴は、例えば、ログである。記憶部900は、例えば、複数のユーザのそれぞれのユーザによる語句ごとの使用傾向を示す情報を記憶してもよい。使用傾向は、使用頻度または使用時間である。使用頻度は、例えば、使用回数または使用率である。
【0067】
記憶部900は、例えば、複数のユーザを複数のグループに分類した結果を記憶してもよい。記憶部900は、例えば、特徴語であると判定された語句を記憶してもよい。記憶部900は、例えば、特徴語に対応付ける分類先カテゴリを記憶してもよい。記憶部900は、具体的には、図4図8に示した各種DBを記憶する。
【0068】
取得部901は、各機能部の処理に用いられる各種情報を取得する。取得部901は、取得した各種情報を、記憶部900に記憶し、または、各機能部に出力する。また、取得部901は、記憶部900に記憶しておいた各種情報を、各機能部に出力してもよい。取得部901は、例えば、作成者の操作入力に基づき、各種情報を取得する。取得部901は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。
【0069】
取得部901は、具体的には、それぞれのユーザによる語句の使用履歴を取得し、生成部902および分類部903に出力してもよい。取得部901は、具体的には、生成部902で情報を生成しない場合、それぞれのユーザによる語句ごとの使用傾向を示す情報を取得し、第1の算出部904に出力してもよい。取得部901は、具体的には、分類部903でユーザを分類しない場合、複数のユーザを複数のグループに分類した結果を取得し、第1の算出部904に出力してもよい。
【0070】
生成部902は、それぞれのユーザによる語句の使用履歴に基づいて、それぞれのユーザによる対象の語句の使用傾向を示す情報を生成する。対象の語句は、ログに含まれる語句である。対称の語句は、作成者から指定された語句であってもよい。生成部902は、例えば、業務ログDB400に記憶されたログに基づいて、それぞれのユーザによる語句ごとの使用傾向を示す情報を生成し、統計情報DB500を用いて記憶する。これにより、生成部902は、特徴語を判定する基準を算出するための情報を生成することができる。
【0071】
分類部903は、それぞれのユーザによる語句の使用履歴に基づいて、複数のユーザを、複数のグループに分類する。分類部903は、例えば、統計情報DB500に記憶されたログに基づいて、複数のユーザのそれぞれのユーザの語句の使用傾向を示す特徴ベクトルを生成し、特徴ベクトルに基づいて、複数のユーザを複数のグループに分類する。そして、分類部903は、分類した結果を、グループDB600を用いて記憶する。これにより、分類部903は、特徴語を判定する基準を算出するための情報を生成することができる。
【0072】
第1の算出部904は、それぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出する。第1の算出部904は、例えば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間に基づいて、第1の指標値を算出してもよい。
【0073】
第1の算出部904は、具体的には、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、第1の指標値を算出する。第1の算出部904は、より具体的には、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間を確率変数としたエントロピーに基づいて、第1の指標値を算出する。これにより、第1の算出部904は、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0074】
第1の算出部904は、例えば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度、および、グループに含まれるユーザごとの対象の語句の使用頻度の統計値に基づいて、第1の指標値を算出してもよい。第1の算出部904は、具体的には、ユーザごとの対象の語句の使用頻度に、統計値に基づく仮想ユーザの使用頻度を追加して、使用頻度についてのエントロピーに基づいて、第1の指標値を算出する。これにより、第1の算出部904は、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0075】
第1の算出部904は、例えば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用時間、および、グループに含まれるユーザごとの対象の語句の使用時間の統計値に基づいて、第1の指標値を算出してもよい。第1の算出部904は、具体的には、ユーザごとの対象の語句の使用時間に、統計値に基づく仮想ユーザの使用時間を追加して、ユーザごとの対象の語句の使用時間についてのエントロピーに基づいて、第1の指標値を算出する。これにより、第1の算出部904は、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0076】
第2の算出部905は、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出する。第2の算出部905は、例えば、グループについてのユーザ間における対象の語句の使用傾向のばらつき度合いが小さいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出する。第2の算出部905は、例えば、グループ間における対象の語句の使用傾向のばらつき度合いが大きいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出する。
【0077】
第2の算出部905は、具体的には、それぞれのグループについて算出した第1の指標値についてのエントロピーに基づいて、第2の指標値を算出する。第2の算出部905は、より具体的には、それぞれのグループについて算出した第1の指標値を確率変数としたエントロピーに基づいて、第2の指標値を算出する。これにより、第2の算出部905は、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮した基準を算出することができる。
【0078】
第2の算出部905は、それぞれのグループについて算出した第1の指標値、および、それぞれのグループについて算出した第1の指標値の統計値に基づいて、第2の指標値を算出してもよい。第2の算出部905は、具体的には、算出した第1の指標値に、統計値に基づく仮想グループの指標値を追加して、指標値についてのエントロピーに基づいて、第2の指標値を算出する。これにより、第2の算出部905は、ユーザ間における対象の語句の使用傾向のばらつき度合いと、グループ間における対象の語句の使用傾向のばらつき度合いとのいずれも考慮した基準を算出することができる。
【0079】
判定部906は、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定する。判定部906は、算出した第2の指標値が閾値以下である場合、対象の語句が、特徴語であると判定する。これにより、判定部906は、特徴語を精度よく判定することができる。
【0080】
出力部907は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。
【0081】
出力部907は、判定部906の判定結果を出力する。出力部907は、例えば、特徴語であると判定された語句を表示する。これにより、出力部907は、作成者が特徴語を把握しやすくすることができ、作成者が分類規則を作成しやすくすることができる。
【0082】
出力部907は、算出した第2の指標値を、対象の語句に対応付けて出力する。出力部907は、例えば、算出した第2の指標値を、対象の語句に対応付けて表示する。これにより、出力部907は、作成者が特徴語を判定する指標を得ることができるようにして、作成者が特徴語を判定しやすくすることができ、作成者が分類規則を作成しやすくすることができる。
【0083】
出力部907は、算出した第2の指標値に対応する表示態様で、対象の語句を表示する。表示態様は、例えば、色や装飾である。表示態様は、例えば、表示順であってもよい。出力部907は、例えば、対象の語句が複数ある場合、算出した第2の指標値が小さい順に対象の語句を表示する。これにより、出力部907は、作成者が特徴語を判定する指標を得ることができるようにして、作成者が特徴語を判定しやすくすることができ、作成者が分類規則を作成しやすくすることができる。
【0084】
(情報処理装置100の具体的構成例)
次に、図10を用いて、情報処理装置100の具体的構成例について説明する。
【0085】
図10は、情報処理装置100の具体的構成例を示すブロック図である。図10において、情報処理装置100は、統計処理器1001と、グループ認識器1002と、特徴語候補検出器1003と、分類規則生成器1004とを有する。
【0086】
図10の例では、N人のユーザU={u1,u2,・・・,uN}が存在し、σ1,σ2,tの値が予め設定済みである場合について説明する。σ1,σ2,tの値は、正の値である。例えば、σ1=0.1,σ2=0.01,t=0.3である。
【0087】
以下の説明では、N人のユーザUのうちの任意のユーザを「ユーザu」と表記する場合がある。また、以下の説明では、N人のユーザUのうちの特定のユーザを「ユーザui」と表記する場合がある。i=1〜Nの整数である。
【0088】
統計処理器1001は、業務ログDB400に記憶されたログに基づいて、それぞれのユーザuiについてのログ中に、特徴語であるか否かを判定する対象の語句が出現する頻度F(ui)を算出し、統計情報DB500を用いて記憶する。
【0089】
グループ認識器1002は、統計情報DB500に記憶された、それぞれのユーザuについての使用頻度F(u)に基づいて、特徴ベクトルを生成する。グループ認識器1002は、それぞれのユーザuについての特徴ベクトルに基づいて、N人のユーザU={u1,u2,・・・,uN}を、M個のグループG={g1,g2,・・・,gM}に分類し、グループDB600を用いて記憶する。
【0090】
ここで、グループ内のユーザは、使用する語句が共通する傾向がある。例えば、同じ業務にかかるグループでは、ユーザ間で業務に関して使用する語句を統一する傾向がある。業務に関して使用する語句は、例えば、組織や企業の呼び名、および、製品や技術の呼び名などである。グループ認識器1002は、この傾向を利用して、特徴ベクトルを利用することにより、ユーザをグループに分類することができる。
【0091】
特徴語候補検出器1003は、統計情報DB500およびグループDB600を参照する。特徴語候補検出器1003は、それぞれのグループgm∈Gに、仮想ユーザvmを追加する。m=1〜Mの整数である。特徴語候補検出器1003は、下記式(1)および下記式(2)に基づいて、仮想ユーザvmについての使用頻度F(vm)を算出する。
【0092】
特徴語候補検出器1003は、例えば、グループgmに所属するユーザuの使用頻度F(u)の最大値が0より大きければ、グループgmに所属する全ユーザuの使用頻度F(u)の中央値にσ1を加算した値を、使用頻度F(vm)として算出する。一方で、特徴語候補検出器1003は、例えば、グループgmに所属する全ユーザuの使用頻度F(u)が0である場合、σ1を仮想ユーザvmについての使用頻度F(vm)として算出する。
【0093】
【数1】
【0094】
【数2】
【0095】
次に、特徴語候補検出器1003は、下記式(3)〜下記式(5)に基づいて、各グループgmに所属する各ユーザuのログ中における対象の語句の出現分布Eu(gm)を算出する。ここで、0×log0は、0とする。これにより、特徴語候補検出器1003は、特徴語を判定する基準として、各グループgmに所属するユーザu間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0096】
ここで、特徴語は、いずれかのグループに対応する特徴を表すため、いずれかのグループに所属するユーザにより使用されやすい性質を有する。このため、いずれかのグループに対応する特徴を表す特徴語は、例えば、いずれかのグループに所属する複数のユーザには共通して使用されやすく、他のグループに所属するユーザには使用されにくいという性質を有する。特徴語候補検出器1003は、この性質を利用して、特定のグループ内のユーザ間で平均的に使用される語句ほど、特徴語とすることが好ましいことを示すように、基準となる出現分布Eu(gm)を算出することができる。
【0097】
【数3】
【0098】
【数4】
【0099】
【数5】
【0100】
ここで、特徴語候補検出器1003は、グループgmに所属する全ユーザuの使用頻度F(u)が0であっても、仮想ユーザvmについての使用頻度F(vm)を用いるため、上記式(3)〜上記式(5)を演算可能にすることができる。これに対し、グループgmに所属する全ユーザuの使用頻度F(u)に微小値を加算し、上記式(3)〜上記式(5)を演算可能にする場合も考えられる。
【0101】
しかしながら、この場合では、グループgmに所属する全ユーザuが、対象の語句を使用する傾向があることを表してしまい、特徴語を判定する基準を精度よく算出することが難しくなる。一方で、特徴語候補検出器1003は、仮想ユーザvmについての使用頻度F(vm)を用いるため、特徴語を判定する基準として、ユーザ間における対象の語句の使用傾向のばらつき度合いの観点からの基準を、精度よく算出することができる。
【0102】
次に、特徴語候補検出器1003は、グループ集合Gに、仮想グループg’を追加する。特徴語候補検出器1003は、下記式(6)および下記式(7)に基づいて、仮想グループg’についての出現分布Eu(g’)を算出する。
【0103】
特徴語候補検出器1003は、例えば、グループ集合G中の各グループgmの出現分布Eu(gm)の最大値が0より大きければ、各グループgmの出現分布Eu(gm)の平均値にσ2を乗算した値を、仮想グループg’の出現分布Eu(g’)として算出する。一方で、特徴語候補検出器1003は、全グループgmの出現分布Eu(gm)が0であれば、σ2を、仮想グループg’の出現分布Eu(g’)として算出する。
【0104】
【数6】
【0105】
【数7】
【0106】
特徴語候補検出器1003は、下記式(8)および下記式(9)に基づいて、対象の語句のグループレベルの出現分布Eu+gを算出する。これにより、特徴語候補検出器1003は、特徴語を判定する基準として、グループgm間における対象の語句の使用傾向のばらつき度合いの観点からの基準を算出することができる。
【0107】
ここで、特徴語は、いずれかのグループに対応する特徴を表すため、いずれかのグループに所属するユーザにより使用されやすい性質を有する。このため、いずれかのグループに対応する特徴を表す特徴語は、例えば、いずれかのグループに所属する複数のユーザには共通して使用されやすく、他のグループに所属するユーザには使用されにくいという性質を有する。特徴語候補検出器1003は、この性質を利用して、複数のグループに跨って使用される語句ほど、特徴語とすることが好ましくないことを示すように、基準となる出現分布Eu+gを算出することができる。
【0108】
この際、特徴語候補検出器1003は、出現分布Eu(gm)を利用するため、ユーザu間における使用傾向のばらつき度合いの観点と、グループgm間における使用傾向のばらつき度合いの観点のいずれも考慮した基準を得ることができる。
【0109】
ここで、下記式(8)は、log部分に、Eu(gm)の乗算項を含む。このため、下記式(8)は、3グループの出現分布Eu(gm)が{1.0,0.0,0.0}である場合と、{0.1,0.0,0.0}である場合とで、出現分布Eu+gの値が異なるようにすることができる。結果として、下記式(8)は、一部のグループ内では多くのユーザが使用し、他のグループ内では使用されにくい語句であるか否かを考慮した出現分布Eu+gを算出可能にすることができる。
【0110】
【数8】
【0111】
【数9】
【0112】
特徴語候補検出器1003は、算出した出現分布Eu+gがtより小さい場合、対象の語句を特徴語であると判定し、対象の語句を特徴語候補として、特徴語候補DB700を用いて記憶する。
【0113】
作成者は、特徴語候補DB700を参照して、特徴語に対応付ける分類先カテゴリを、フィードバックDB800に書き込む。分類規則生成器1004は、フィードバックDB800を参照して、分類規則を作成し、分類規則DB1010を用いて記憶する。
【0114】
(情報処理装置100の動作例)
次に、図11図17を用いて、情報処理装置100の動作例について説明する。
【0115】
図11図17は、情報処理装置100の動作例を示す説明図である。図11図18の例では、10人のユーザu1〜u10が存在し、10人のユーザu1〜u10が業務内容に基づき3つのグループg1〜g3に分類された場合について説明する。
【0116】
また、図11図18の例では、語句「Xプロジェクト」、語句「Yシステム」、語句「秘密」、語句「来客対応」のそれぞれの語句が、ユーザu1〜u10のいずれかにより使用される。ここで、語句「Xプロジェクト」は、ユーザu1,u2,u3により10回ずつ使用された語句であるとする。このため、語句「Xプロジェクト」は、特定のグループ内のユーザ間で平均的に使用される語句であり、特徴語とすることが好ましいと考えられる語句の一例である。
【0117】
また、語句「Yシステム」は、ユーザu1,u2により10回ずつ使用された語句であるとする。このため、語句「Yシステム」は、ユーザu3が使用していないが、特定のグループ内のユーザ間で平均的に使用されやすい語句であり、特徴語とすることが好ましいと考えられる語句の一例である。一方で、語句「Yシステム」は、ユーザu3が使用していないため、語句「Xプロジェクト」に比べると、特徴語としての好ましさは低くなる。
【0118】
また、語句「秘密」は、ユーザu1により10回使用された語句であるとする。このため、語句「秘密」は、特定のグループ内の一部のユーザにより使用される語句であり、特徴語とすることが好ましくないと考えられる語句の一例である。また、語句「来客対応」は、ユーザu1,u4により10回ずつ使用された語句であるとする。このため、語句「来客対応」は、複数のグループに跨って使用される語句であり、特徴語とすることが好ましくないと考えられる語句の一例である。
【0119】
以下の説明では、情報処理装置100が、語句「Xプロジェクト」、語句「Yシステム」、語句「秘密」、語句「来客対応」のそれぞれの語句について、特徴語であるか否かを、どのように判定するかを示す一例について説明する。次に、図11の説明に移行する。
【0120】
図11において、情報処理装置100は、語句「Xプロジェクト」を判定対象として設定する。情報処理装置100は、統計情報DB500を参照して、語句「Xプロジェクト」のユーザu1〜u10についての使用頻度を取得し、表1100のように記憶する。
【0121】
情報処理装置100は、各グループgm∈Gに、仮想ユーザvmを追加する。そして、情報処理装置100は、グループgmに所属する全ユーザのログ中における語句「Xプロジェクト」の使用頻度の中央値にσ1を加算した値を、仮想ユーザvmについての使用頻度F(vm)として算出し、表1101のように記憶する。ここで、例えば、σ1=0.1である。そして、情報処理装置100は、各グループgmに所属する各ユーザのログ中における語句「Xプロジェクト」の出現分布Eu(gm)を算出し、表1101のように記憶する。次に、図12の説明に移行する。
【0122】
図12において、情報処理装置100は、グループ集合Gに仮想グループg’を追加する。情報処理装置100は、表1101を参照して、グループ集合G中の各グループの出現分布の平均値にσ2を乗算した値を、仮想グループg’についての出現分布Eu(gm)として算出し、表1200のように記憶する。ここで、例えば、σ2=0.01である。次に、情報処理装置100は、語句「Xプロジェクト」のグループレベルの出現分布Eu+gを算出し、表1200のように記憶する。そして、情報処理装置100は、出現分布Eu+gがtより小さい場合、語句「Xプロジェクト」を特徴語候補とする。ここで、例えば、t=0.3である。
【0123】
図12の例では、情報処理装置100は、出現分布Eu+gがtより小さいため、語句「Xプロジェクト」を特徴語候補とする。これにより、情報処理装置100は、特定のグループ内のユーザ間で平均的に使用される語句であり、特徴語とすることが好ましいと考えられる語句「Xプロジェクト」を、特徴語候補とすることができる。次に、図13の説明に移行する。
【0124】
図13において、情報処理装置100は、語句「Xプロジェクト」と同様に、語句「Yシステム」について出現分布Eu(gm)を算出し、出現分布Eu+gを算出し、表1300のように記憶する。図13の例では、情報処理装置100は、出現分布Eu+gがtより小さいため、語句「Yシステム」を特徴語候補とする。これにより、情報処理装置100は、特定のグループ内のユーザ間で平均的に使用される語句であり、特徴語とすることが好ましいと考えられる語句「Yシステム」を、特徴語候補とすることができる。次に、図14の説明に移行する。
【0125】
図14において、情報処理装置100は、語句「Xプロジェクト」と同様に、語句「秘密」について出現分布Eu(gm)を算出し、出現分布Eu+gを算出し、表1400のように記憶する。図14の例では、情報処理装置100は、出現分布Eu+gがt以上であるため、語句「秘密」を特徴語候補としない。これにより、情報処理装置100は、特定のグループ内の一部のユーザにより使用される語句であり、特徴語とすることが好ましくないと考えられる語句「秘密」を、特徴語候補としないことができる。次に、図15の説明に移行する。
【0126】
図15において、情報処理装置100は、語句「Xプロジェクト」と同様に、語句「来客対応」について出現分布Eu(gm)を算出し、出現分布Eu+gを算出し、表1500のように記憶する。図15の例では、情報処理装置100は、出現分布Eu+gがt以上であるため、語句「来客対応」を特徴語候補としない。これにより、情報処理装置100は、複数のグループに跨って使用される語句であり、特徴語とすることが好ましくないと考えられる語句「来客対応」を、特徴語候補としないことができる。次に、図16の説明に移行する。
【0127】
図16において、情報処理装置100が、出現分布Eu+gに基づいて特徴語を判定した結果について説明する。また、特徴語を判定した結果との比較対象として、ユーザによる語句の使用頻度についてのエントロピーEuに基づいて特徴語を判定する場合と、グループにおける語句の使用頻度についてのエントロピーEgに基づいて特徴語を判定する場合とについても説明する。
【0128】
表1600に示すように、情報処理装置100は、語句「Xプロジェクト」や語句「Yシステム」についての出現分布Eu+gが比較的小さいため、特徴語として好ましい語句「Xプロジェクト」や語句「Yシステム」を、特徴語であると判定することができる。また、情報処理装置100は、語句「秘密」や語句「来客対応」についての出現分布Eu+gが比較的大きいため、特徴語として好ましくない語句「秘密」や語句「来客対応」を、特徴語ではないと判定することができる。さらに、情報処理装置100は、出現分布Eu+gの大小関係から、語句「Xプロジェクト」が、語句「Yシステム」よりも特徴語として好ましいことも判定することができる。
【0129】
これに対し、表1600に示すように、エントロピーEuに基づいて特徴語を判定する場合では、語句「Xプロジェクト」についてのエントロピーEuが比較的大きいため、語句「Xプロジェクト」を、特徴語ではないと判定してしまう可能性がある。また、表1600に示すように、エントロピーEgに基づいて特徴語を判定する場合では、語句「秘密」についてのエントロピーEgが比較的小さいため、語句「秘密」を、特徴語であると判定してしまう可能性がある。このように、情報処理装置100は、エントロピーEuやエントロピーEgを利用する場合に比べて、精度よく特徴語を判定することができる。次に、図17の説明に移行する。
【0130】
図17において、ユーザによる対象の語句の使用頻度の分布に応じて、出現分布Eu+gがどのような値になるかについて説明する。例えば、表1700に示すように、出現分布Eu+gは、特定のグループ内のユーザに平均的に使用されるほど、値が小さくなる傾向がある。
【0131】
また、例えば、出現分布Eu+gは、特定のグループ内のユーザの使用頻度が大きいほど、値が小さくなる傾向がある。また、例えば、出現分布Eu+gは、特定のグループ内の使用人数が大きいほど、値が小さくなる傾向がある。また、例えば、出現分布Eu+gは、複数のグループに跨って使用されるほど、値が大きくなる傾向がある。
【0132】
このように、出現分布Eu+gは、いずれかのカテゴリに関する属性を有するユーザにより使用されやすいという特徴語の性質を、値に反映することができる。例えば、出現分布Eu+gは、いずれかのカテゴリに関する属性を有する複数のユーザには共通して使用されやすく、他のカテゴリに関する属性を有するユーザには使用されにくいという特徴語の性質を、値に反映することができる。このため、情報処理装置100は、出現分布Eu+gに基づいて、特徴語を精度よく判定することができる。そして、情報処理装置100は、特徴語を作成者に把握可能に表示し、作成者が分類規則を作成しやすくすることができる。
【0133】
これに対し、表1700に示すように、エントロピーEu、および、エントロピーEgは、単独では、特徴語の性質を、値に反映することが難しい。このため、エントロピーEuに基づいて特徴語を判定する場合、および、エントロピーEgに基づいて特徴語を判定する場合では、精度よく特徴語を判定することは難しい。
【0134】
また、情報処理装置100は、語句ごとに、出現分布Eu+gを対応付けて表示する場合があってもよい。この場合、作成者は、いずれの語句が、どのくらい特徴語として好ましいかを判断可能になり、特徴語を精度よく判定可能になる。結果として、情報処理装置100は、作成者が、分類規則を作成しやすくすることができる。
【0135】
また、情報処理装置100は、出現分布Eu+gの小さい順に、語句をソートして表示する場合があってもよい。この場合、作成者は、いずれの語句が、どのくらい特徴語として好ましいかを判断可能になり、特徴語を精度よく判定可能になる。結果として、情報処理装置100は、作成者が、分類規則を作成しやすくすることができる。
【0136】
(全体処理手順)
次に、図18を用いて、情報処理装置100が実行する、全体処理手順の一例について説明する。全体処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0137】
図18は、全体処理手順の一例を示すフローチャートである。図18において、情報処理装置100は、図19に後述する統計処理を実行する(ステップS1801)。
【0138】
次に、情報処理装置100は、図20に後述する分類処理を実行する(ステップS1802)。そして、情報処理装置100は、統計処理の処理結果、および、分類処理の処理結果に基づいて、図21に後述する検出処理を実行する(ステップS1803)。
【0139】
次に、情報処理装置100は、検出処理の処理結果として特徴語候補DB700を出力する(ステップS1804)。そして、情報処理装置100は、特徴語に対応付ける分類先カテゴリの入力を受け付け、フィードバックDB800に記憶する(ステップS1805)。
【0140】
次に、情報処理装置100は、フィードバックDB800に基づいて、分類規則を生成する(ステップS1806)。そして、情報処理装置100は、全体処理を終了する。これにより、情報処理装置100は、分類規則を生成することができる。
【0141】
(統計処理手順)
次に、図19を用いて、情報処理装置100が実行する、統計処理手順の一例について説明する。統計処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0142】
図19は、統計処理手順の一例を示すフローチャートである。図19において、情報処理装置100は、業務ログDB400を、Dに設定し、統計情報DB500を、Sに設定する。まず、情報処理装置100は、Sの使用頻度を初期化し、すべて0に設定する(ステップS1901)。
【0143】
次に、情報処理装置100は、D中のログをすべて取得し、D’に設定する(ステップS1902)。そして、情報処理装置100は、D’が空であるか否かを判定する(ステップS1903)。
【0144】
ここで、空である場合(ステップS1903:Yes)、情報処理装置100は、統計処理を終了する。一方で、空ではない場合(ステップS1903:No)、情報処理装置100は、ステップS1904の処理に移行する。
【0145】
ステップS1904では、情報処理装置100は、D’からログを1つ取り出し、dに設定する(ステップS1904)。次に、情報処理装置100は、dに含まれるテキストを単語分割し、w1,w2,・・・,wnに設定する(ステップS1905)。
【0146】
そして、情報処理装置100は、dのユーザと各語句との組み合わせに対応するS中のフィールドの値を更新する(ステップS1906)。その後、情報処理装置100は、ステップS1903の処理に戻る。これにより、情報処理装置100は、作成者が使用頻度を算出せずに済むようにし、作成者にかかる作業負担の低減化を図ることができる。
【0147】
(分類処理手順)
次に、図20を用いて、情報処理装置100が実行する、分類処理手順の一例について説明する。分類処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0148】
図20は、分類処理手順の一例を示すフローチャートである。図20において、情報処理装置100は、統計情報DB500を、Sに設定し、グループDB600を、Cに設定する。まず、情報処理装置100は、Cを初期化し、すべてのユーザが所属するグループを空に設定する(ステップS2001)。
【0149】
次に、情報処理装置100は、S中の各ユーザについて、各語句の使用頻度から特徴ベクトルを生成する(ステップS2002)。そして、情報処理装置100は、すべてのユーザの特徴ベクトルに基づいて、ユーザをグループに分類する(ステップS2003)。
【0150】
次に、情報処理装置100は、分類結果をCに記憶する(ステップS2004)。そして、情報処理装置100は、分類処理を終了する。これにより、情報処理装置100は、作成者がユーザをグループに分類せずに済むようにし、作成者にかかる作業負担の低減化を図ることができる。
【0151】
(判定処理手順)
次に、図21を用いて、情報処理装置100が実行する、判定処理手順の一例について説明する。判定処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0152】
図21は、判定処理手順の一例を示すフローチャートである。図21において、情報処理装置100は、統計情報DB500を、Sに設定し、グループDB600を、Cに設定し、特徴語候補DB700を、Wに設定する。まず、情報処理装置100は、Wを初期化する(ステップS2101)。
【0153】
次に、情報処理装置100は、Sから語句集合を取得し、Vに設定する(ステップS2102)。そして、情報処理装置100は、Vが空であるか否かを判定する(ステップS2103)。
【0154】
ここで、空である場合(ステップS2103:Yes)、情報処理装置100は、判定処理を終了する。一方で、空ではない場合(ステップS2103:No)、情報処理装置100は、ステップS2104の処理に移行する。
【0155】
ステップS2104では、情報処理装置100は、Vから語句を1つ取り出し、wに設定する(ステップS2104)。次に、情報処理装置100は、図22に後述する算出処理を実行する(ステップS2105)。そして、情報処理装置100は、wが特徴語候補であるか否かを判定する(ステップS2106)。
【0156】
ここで、特徴語候補ではない場合(ステップS2106:No)、情報処理装置100は、ステップS2103の処理に戻る。一方で、特徴語候補である場合(ステップS2106:Yes)、情報処理装置100は、ステップS2107の処理に移行する。
【0157】
ステップS2107では、情報処理装置100は、Wにwを追加する(ステップS2107)。そして、情報処理装置100は、ステップS2103の処理に戻る。これにより、情報処理装置100は、特徴語を精度よく判定することができる。
【0158】
(算出処理手順)
次に、図22を用いて、情報処理装置100が実行する、算出処理手順の一例について説明する。算出処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
【0159】
図22は、算出処理手順の一例を示すフローチャートである。図22において、情報処理装置100は、統計情報DB500を、Sに設定し、グループDB600を、Cに設定する。まず、情報処理装置100は、Eを初期化し、空に設定する(ステップS2201)。
【0160】
次に、情報処理装置100は、Cからグループ集合を取得し、Gに設定する(ステップS2202)。そして、情報処理装置100は、Gが空であるか否かを判定する(ステップS2203)。ここで、空である場合(ステップS2203:Yes)、情報処理装置100は、ステップS2208の処理に移行する。一方で、空ではない場合(ステップS2203:No)、情報処理装置100は、ステップS2204の処理に移行する。
【0161】
ステップS2204では、情報処理装置100は、Gからグループを1つ取り出し、gに設定し、gに対応するユーザのリストを取り出し、Uに設定する(ステップS2204)。次に、情報処理装置100は、U中の各ユーザについて、Sから語句wの使用頻度を取得し、Fに設定する(ステップS2205)。そして、情報処理装置100は、Fの中央値にσ1を加算した値を、Fに追加する(ステップS2206)。次に、情報処理装置100は、Fに基づいてEu(g)を算出し、Eに追加する(ステップS2207)。そして、情報処理装置100は、ステップS2203の処理に戻る。
【0162】
ステップS2208では、情報処理装置100は、Eの平均値にσ2を乗算した値を、Eに追加する(ステップS2208)。次に、情報処理装置100は、Eに基づいてEu+gを算出する(ステップS2209)。そして、情報処理装置100は、Eu+gがtより小さいか否かを出力する(ステップS2210)。その後、情報処理装置100は、算出処理を終了する。
【0163】
ここで、情報処理装置100は、図18図22のいずれかのフローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップS1801,S1802の処理の順序は入れ替え可能である。
【0164】
また、情報処理装置100は、図18図22のいずれかのフローチャートの一部ステップの処理を省略してもよい。例えば、使用頻度が算出済みであれば、ステップS1801の処理は省略可能である。また、例えば、ユーザがグループに分類済みであれば、ステップS1802の処理は省略可能である。
【0165】
以上説明したように、情報処理装置100によれば、複数のユーザを分類した複数のグループのそれぞれのグループについて、ユーザ間における対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出することができる。情報処理装置100によれば、それぞれのグループについて算出した第1の指標値に基づいて、グループ間における対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出することができる。情報処理装置100によれば、算出した第2の指標値に基づいて、対象の語句が、特徴語であるか否かを判定することができる。これにより、情報処理装置100は、特徴語を精度よく判定することができる。
【0166】
情報処理装置100によれば、グループについてのユーザ間における対象の語句の使用傾向のばらつき度合いが小さいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出することができる。情報処理装置100によれば、グループ間における対象の語句の使用傾向のばらつき度合いが大きいほど、対象の語句が特徴語である可能性が高いことを示すように、第2の指標値を算出することができる。これにより、情報処理装置100は、第2の指標値が、特徴語としての好ましさを精度よく反映するようにすることができる。
【0167】
情報処理装置100によれば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間の統計値に基づいて、第1の指標値を算出することができる。これにより、情報処理装置100は、第1の指標値を精度よく算出可能にすることができる。
【0168】
情報処理装置100によれば、それぞれのグループについて、グループに含まれるユーザごとの対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、第1の指標値を算出することができる。これにより、情報処理装置100は、第1の指標値が、特徴語としての好ましさを精度よく反映するようにすることができる。
【0169】
情報処理装置100によれば、それぞれのグループについて算出した第1の指標値、および、それぞれのグループについて算出した第1の指標値の統計値に基づいて、第2の指標値を算出することができる。これにより、情報処理装置100は、第2の指標値を精度よく算出可能にすることができる。
【0170】
情報処理装置100によれば、それぞれのグループについて算出した第1の指標値についてのエントロピーに基づいて、第2の指標値を算出することができる。これにより、情報処理装置100は、第2の指標値が、特徴語としての好ましさを精度よく反映するようにすることができる。
【0171】
情報処理装置100によれば、それぞれのユーザによる語句の使用履歴に基づいて、それぞれのユーザによる対象の語句の使用傾向を示す情報を生成することができる。これにより、情報処理装置100は、作成者が使用傾向を示す情報を作成せずに済むようにして、作成者の作業負担の低減化を図ることができる。
【0172】
情報処理装置100によれば、それぞれのユーザによる語句の使用履歴に基づいて、複数のユーザを、複数のグループに分類することができる。これにより、情報処理装置100は、作成者がユーザを分類せずに済むようにして、作成者の作業負担の低減化を図ることができる。
【0173】
情報処理装置100によれば、算出した第2の指標値を、対象の語句に対応付けて出力することができる。これにより、情報処理装置100は、作成者が、対象の語句の特徴語らしさを判断可能にすることができ、特徴語を判定しやすくすることができる。
【0174】
情報処理装置100によれば、算出した第2の指標値に対応する表示態様で、対象の語句を表示することができる。これにより、情報処理装置100は、作成者が、対象の語句の特徴語らしさを判断可能にすることができ、特徴語を判定しやすくすることができる。
【0175】
なお、本実施の形態で説明した判定方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した判定プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した判定プログラムは、インターネット等のネットワークを介して配布してもよい。
【0176】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0177】
(付記1)複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、
前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、
算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する、
処理をコンピュータが実行することを特徴とする判定方法。
【0178】
(付記2)前記第2の指標値を算出する処理は、
前記グループについての前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いが小さいほど、または、前記グループ間における前記対象の語句の使用傾向のばらつき度合いが大きいほど、前記対象の語句が前記特徴語である可能性が高いことを示すように、前記第2の指標値を算出する、ことを特徴とする付記1に記載の判定方法。
【0179】
(付記3)前記情報は、前記対象の語句の使用頻度または使用時間であり、
前記第1の指標値を算出する処理は、
前記それぞれのグループについて、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間、および、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間の統計値に基づいて、前記第1の指標値を算出する、ことを特徴とする付記1または2に記載の判定方法。
【0180】
(付記4)前記情報は、前記対象の語句の使用頻度または使用時間であり、
前記第1の指標値を算出する処理は、
前記それぞれのグループについて、前記グループに含まれる前記ユーザごとの前記対象の語句の使用頻度または使用時間についてのエントロピーに基づいて、前記第1の指標値を算出する、ことを特徴とする付記1〜3のいずれか一つに記載の判定方法。
【0181】
(付記5)前記第2の指標値を算出する処理は、
前記それぞれのグループについて算出した前記第1の指標値、および、前記それぞれのグループについて算出した前記第1の指標値の統計値に基づいて、前記第2の指標値を算出する、ことを特徴とする付記1〜4のいずれか一つに記載の判定方法。
【0182】
(付記6)前記第2の指標値を算出する処理は、
前記それぞれのグループについて算出した前記第1の指標値についてのエントロピーに基づいて、前記第2の指標値を算出する、ことを特徴とする付記1〜5のいずれか一つに記載の判定方法。
【0183】
(付記7)前記それぞれのユーザによる語句の使用履歴に基づいて、前記それぞれのユーザによる前記対象の語句の使用傾向を示す情報を生成する、処理を前記コンピュータが実行することを特徴とする付記1〜6のいずれか一つに記載の判定方法。
【0184】
(付記8)前記それぞれのユーザによる語句の使用履歴に基づいて、前記複数のユーザを、前記複数のグループに分類する、処理を前記コンピュータが実行することを特徴とする付記1〜7のいずれか一つに記載の判定方法。
【0185】
(付記9)算出した前記第2の指標値を、前記対象の語句に対応付けて出力する、処理を前記コンピュータが実行することを特徴とする付記1〜8のいずれか一つに記載の判定方法。
【0186】
(付記10)算出した前記第2の指標値に対応する表示態様で、前記対象の語句を表示する、処理を前記コンピュータが実行することを特徴とする付記1〜9のいずれか一つに記載の判定方法。
【0187】
(付記11)複数のユーザのそれぞれのユーザによる対象の語句の使用傾向を示す情報に基づいて、前記複数のユーザを分類した複数のグループのそれぞれのグループについて、前記ユーザ間における前記対象の語句の使用傾向のばらつき度合いを示す第1の指標値を算出し、
前記それぞれのグループについて算出した前記第1の指標値に基づいて、前記グループ間における前記対象の語句の使用傾向のばらつき度合いを示す第2の指標値を算出し、
算出した前記第2の指標値に基づいて、前記対象の語句が、特徴語であるか否かを判定する、
処理をコンピュータに実行させることを特徴とする判定プログラム。
【符号の説明】
【0188】
100 情報処理装置
110 情報
200 情報分類システム
201 クライアント装置
210 ネットワーク
300 バス
301 CPU
302 メモリ
303 ネットワークI/F
304 記録媒体I/F
305 記録媒体
400 業務ログDB
500 統計情報DB
600 グループDB
700 特徴語候補DB
800 フィードバックDB
900 記憶部
901 取得部
902 生成部
903 分類部
904,905 算出部
906 判定部
907 出力部
1001 統計処理器
1002 グループ認識器
1003 特徴語候補検出器
1004 分類規則生成器
1010 分類規則DB
1100,1101,1200,1300,1400,1500,1600,1700 表
【国際調査報告】