IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特開-情報処理システム及びプログラム 図1
  • 特開-情報処理システム及びプログラム 図2
  • 特開-情報処理システム及びプログラム 図3
  • 特開-情報処理システム及びプログラム 図4
  • 特開-情報処理システム及びプログラム 図5
  • 特開-情報処理システム及びプログラム 図6
  • 特開-情報処理システム及びプログラム 図7
  • 特開-情報処理システム及びプログラム 図8
  • 特開-情報処理システム及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046051
(43)【公開日】2024-04-03
(54)【発明の名称】情報処理システム及びプログラム
(51)【国際特許分類】
   G06F 16/28 20190101AFI20240327BHJP
【FI】
G06F16/28
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022151207
(22)【出願日】2022-09-22
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】100104880
【弁理士】
【氏名又は名称】古部 次郎
(74)【代理人】
【識別番号】100118108
【弁理士】
【氏名又は名称】久保 洋之
(72)【発明者】
【氏名】小村 晃雅
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175GA03
5B175KA11
(57)【要約】
【課題】複数の単語をグループ分けして得られる複数の単語群の各単語群に容易に情報を付与する。
【解決手段】1又は複数のプロセッサを備え、1又は複数のプロセッサは、ユーザの操作記録に基づいて、複数の単語を特定し、複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、複数の枝の各枝に対応する単語群が配置された各枝の最下位に配置された単語の節点群とを含む樹形図を、複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する、情報処理システム。
【選択図】図3
【特許請求の範囲】
【請求項1】
1又は複数のプロセッサを備え、
前記1又は複数のプロセッサは、
ユーザの操作記録に基づいて、複数の単語を特定し、
前記複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、当該複数の枝の各枝に対応する単語群が配置された当該各枝の最下位に配置された単語の節点群とを含む樹形図を、当該複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する、
情報処理システム。
【請求項2】
前記1又は複数のプロセッサは、前記操作記録に含まれるテキストデータから前記複数の単語を特定する、請求項1に記載の情報処理システム。
【請求項3】
前記テキストデータは、前記情報処理システムの表示部に表示されたウィンドウのタイトルである、請求項2に記載の情報処理システム。
【請求項4】
前記1又は複数のプロセッサは、前記操作記録に含まれるイメージデータの文字認識を行うことにより、前記複数の単語を特定する、請求項1に記載の情報処理システム。
【請求項5】
前記イメージデータは、前記情報処理システムの表示部に表示された画面のキャプチャ画像である、請求項4に記載の情報処理システム。
【請求項6】
前記1又は複数のプロセッサは、前記ユーザが作成又は編集した文書に含まれる前記複数の単語を特定する、請求項1に記載の情報処理システム。
【請求項7】
前記ユーザが作成又は編集した文書は、当該ユーザがキー入力を行っている際にアクティブなウィンドウに表示されている文書である、請求項6に記載の情報処理システム。
【請求項8】
前記ユーザが作成又は編集した文書は、当該ユーザが保存する操作を行った文書である、請求項6に記載の情報処理システム。
【請求項9】
前記1又は複数のプロセッサは、前記複数の単語の階層クラスタ分析を行うことにより、前記樹形図を生成する、請求項1に記載の情報処理システム。
【請求項10】
前記1又は複数のプロセッサは、前記複数の単語が同じ時間帯に出現する頻度に基づいて、前記階層クラスタ分析を行う、請求項9に記載の情報処理システム。
【請求項11】
前記1又は複数のプロセッサは、前記複数の枝の各枝の最下位に配置された単語の節点群に配置された単語群と、当該各枝に関連して配置された入力領域に入力された作業名とを関連付けた作業定義情報を生成する、請求項1に記載の情報処理システム。
【請求項12】
コンピュータに、
ユーザの操作記録に基づいて、複数の単語を特定する機能と、
前記複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、当該複数の枝の各枝に対応する単語群が配置された当該各枝の最下位に配置された単語の節点群とを含む樹形図を、当該複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する機能と
を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム及びプログラムに関する。
【背景技術】
【0002】
特許文献1には、各評価対象の文書から単語を抽出すると共に、ポジティブ評価文書中のみに出現するポジティブ単語、ネガティブ評価文書中のみに出現するネガティブ単語、ポジティブ評価文書とネガティブ評価文書の双方に出現する共通単語に分類し、ポジティブ単語の対象テーマに対するテーマ関連度を算出し、共通単語の対象テーマに対するテーマ関連度を算出し、ネガティブ単語の対象テーマに対するテーマ関連度を算出する単語テーマ関連度算出装置が記載されている。
特許文献2には、各文書の特徴ベクトルの組を特異値分解し、特異値分解の結果から文書間の類似度を計算するための文書類似ベクトルを作成し、対象文書に対して文書類似ベクトルを用いて、文書とクラスタ重心との距離を算出し、さらに同一の対象文書に対して一回目の分類に利用した文書類似ベクトルの次元数を増加させて二回目の分類を行い、双方の結果を比較し変化の少ないクラスタを安定クラスタとする文書クラスタリングシステムが記載されている。
特許文献3には、操作内容と操作時間とに基づいて、特徴的なキーワードの重要度を算出し、辞書サイトの見出し語のリンクスコアを算出し、見出し語の最終スコアを算出し、見出し語をキーワードとして扱い最終スコアに基づいてキーワード固有の重要度を算出し、特徴的なキーワードの各々に対して、特徴的なキーワードの重要度とキーワード固有の重要度とに基づいて、最終的なキーワード重要度を決定する特徴的キーワード検出装置が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許5424393号公報
【特許文献2】特開2002-183171号公報
【特許文献3】特許4917061号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
複数の単語をグループ分けして得られる複数の単語群の各単語群に情報を付与する場合がある。例えば、タスクマイニングで業務プロセスの現状を把握する際、業務で用いる複数の単語をグループ分けして得られる複数の単語群の各単語群に業務名を付与する場合等である。この場合に、各単語群に手作業で情報を付与したのでは、容易に情報を付与することができない。
【0005】
本発明の目的は、複数の単語をグループ分けして得られる複数の単語群の各単語群に容易に情報を付与することにある。
【課題を解決するための手段】
【0006】
請求項1に記載の発明は、1又は複数のプロセッサを備え、前記1又は複数のプロセッサは、ユーザの操作記録に基づいて、複数の単語を特定し、前記複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、当該複数の枝の各枝に対応する単語群が配置された当該各枝の最下位に配置された単語の節点群とを含む樹形図を、当該複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する、情報処理システムである。
請求項2に記載の発明は、前記1又は複数のプロセッサは、前記操作記録に含まれるテキストデータから前記複数の単語を特定する、請求項1に記載の情報処理システムである。
請求項3に記載の発明は、前記テキストデータは、前記情報処理システムの表示部に表示されたウィンドウのタイトルである、請求項2に記載の情報処理システムである。
請求項4に記載の発明は、前記1又は複数のプロセッサは、前記操作記録に含まれるイメージデータの文字認識を行うことにより、前記複数の単語を特定する、請求項1に記載の情報処理システムである。
請求項5に記載の発明は、前記イメージデータは、前記情報処理システムの表示部に表示された画面のキャプチャ画像である、請求項4に記載の情報処理システムである。
請求項6に記載の発明は、前記1又は複数のプロセッサは、前記ユーザが作成又は編集した文書に含まれる前記複数の単語を特定する、請求項1に記載の情報処理システムである。
請求項7に記載の発明は、前記ユーザが作成又は編集した文書は、当該ユーザがキー入力を行っている際にアクティブなウィンドウに表示されている文書である、請求項6に記載の情報処理システムである。
請求項8に記載の発明は、前記ユーザが作成又は編集した文書は、当該ユーザが保存する操作を行った文書である、請求項6に記載の情報処理システムである。
請求項9に記載の発明は、前記1又は複数のプロセッサは、前記複数の単語の階層クラスタ分析を行うことにより、前記樹形図を生成する、請求項1に記載の情報処理システムである。
請求項10に記載の発明は、前記1又は複数のプロセッサは、前記複数の単語が同じ時間帯に出現する頻度に基づいて、前記階層クラスタ分析を行う、請求項9に記載の情報処理システムである。
請求項11に記載の発明は、前記1又は複数のプロセッサは、前記複数の枝の各枝の最下位に配置された単語の節点群に配置された単語群と、当該各枝に関連して配置された入力領域に入力された作業名とを関連付けた作業定義情報を生成する、請求項1に記載の情報処理システムである。
請求項12に記載の発明は、コンピュータに、ユーザの操作記録に基づいて、複数の単語を特定する機能と、前記複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、当該複数の枝の各枝に対応する単語群が配置された当該各枝の最下位に配置された単語の節点群とを含む樹形図を、当該複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する機能とを実現させるためのプログラムである。
【発明の効果】
【0007】
請求項1の発明によれば、複数の単語をグループ分けして得られる複数の単語群の各単語群に容易に情報を付与することができる。
請求項2の発明によれば、ユーザの操作記録に基づいて、複数の単語を容易に特定することができる。
請求項3の発明によれば、情報処理システムの表示部に表示されたウィンドウのタイトルを用いて、複数の単語を容易に特定することができる。
請求項4の発明によれば、ユーザの操作記録に基づいて、多くの単語を特定することができる。
請求項5の発明によれば、情報処理システムの表示部に表示された画面のキャプチャ画像を用いて、多くの単語を特定することができる。
請求項6の発明によれば、ユーザの操作記録に基づいて、ユーザの作業に関係する可能性が高い複数の単語を特定することができる。
請求項7の発明によれば、ユーザがキー入力を行っている際にアクティブなウィンドウに表示されている文書に含まれる複数の単語を、ユーザの作業に関係する可能性が高い複数の単語として特定することができる。
請求項8の発明によれば、ユーザが保存する操作を行った文書に含まれる複数の単語を、ユーザの作業に関係する可能性が高い複数の単語として特定することができる。
請求項9の発明によれば、複数の単語をグループ分けして得られる複数の単語群同士の類似度のレベルが分かる樹形図を作成することができる。
請求項10の発明によれば、ユーザの同じ作業を特徴付ける複数の単語が同じ単語群に属するようにした樹形図を作成することができる。
請求項11の発明によれば、単語群と作業名とを関連付けた作業定義情報を生成することができる。
請求項12の発明によれば、複数の単語をグループ分けして得られる複数の単語群の各単語群に容易に情報を付与することができる。
【図面の簡単な説明】
【0008】
図1】本実施の形態における業務辞書作成システムの全体構成例を示す図である。
図2】本実施の形態における業務辞書作成装置のハードウェア構成例を示す図である。
図3】本実施の形態における業務辞書作成装置の機能構成例を示すブロック図である。
図4】文書作成中のキャプチャ画面に含まれる特徴語の出現状況を示した図である。
図5】全てのウィンドウタイトルについての特徴語間の類似度を示す図である。
図6】クラスタ分析部が生成した樹形図を示す図である。
図7】分析結果送信部が送信して入力領域に業務名が入力された樹形図の具体例を示す図である。
図8】業務辞書作成部が作成する業務辞書の具体例を示す図である。
図9】本実施の形態における業務辞書作成装置の動作例を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
【0010】
[本実施の形態の概要]
本実施の形態は、ユーザの操作記録に基づいて、複数の単語を特定し、複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、複数の枝の各枝に対応する単語群が配置された各枝の最下位に配置された単語の節点群とを含む樹形図を、複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示する情報処理システムを提供する。
そして、この情報処理システムは、複数の枝の各枝の最下位に配置された単語の節点群に配置された単語群と、各枝に関連して配置された入力領域に入力された作業名とを関連付けた作業定義情報を生成する。
【0011】
以下、作業として業務を例にとり、作業名と単語群とを関連付けた作業定義情報を業務辞書として説明する。ここで、業務辞書とは、業務プロセスの効率化のためのタスクマイニングやプロセスマイニングにおいて、業務名(プロジェクト名やタスク名を含む)を規定する特徴量を定義する辞書のことをいう。業務名とは、業務を識別できる言葉である。特徴量には、キーワード、組織、ワーカー、場所、端末装置の操作等があるが、ここでは、特徴量を端末装置の操作として説明する。そして、業務辞書は、業務中に収集されたユーザの操作ログから業務名を推定するために用いられる。
【0012】
[業務辞書作成システムの全体構成]
図1は、本実施の形態における業務辞書作成システム1の全体構成例を示す図である。図示するように、業務辞書作成システム1は、業務辞書作成装置10と、端末装置40とが通信回線80に接続されることにより構成されている。尚、図では、業務辞書作成装置10及び端末装置40を1つずつしか示していないが、各装置は2つ以上設けられていてもよい。
【0013】
業務辞書作成装置10は、端末装置40におけるユーザの操作ログをその端末装置40から受信し、このユーザの操作ログに基づいて業務辞書を作成する。業務辞書作成装置10としては、例えば、汎用のパーソナルコンピュータを用いるとよい。
端末装置40は、業務辞書を用いて業務名を推定する対象のユーザによって操作される装置である。端末装置40としては、例えば、デスクトップPC、ノートPC、携帯情報端末等を用いるとよい。
通信回線80は、業務辞書作成装置10と端末装置40との間の情報通信に用いられる回線である。通信回線80としては、例えば、LAN(Local Area Network)やインターネットを用いるとよい。
【0014】
[業務辞書作成装置のハードウェア構成]
図2は、本実施の形態における業務辞書作成装置10のハードウェア構成例を示す図である。図示するように、業務辞書作成装置10は、プロセッサ11と、RAM(Random Access Memory)12と、HDD(Hard Disk Drive)13と、通信インターフェース(以下、「通信I/F」と表記する)14と、表示デバイス15と、入力デバイス16とを備える。
プロセッサ11は、OS(Operating System)やアプリケーション等の各種ソフトウェアを実行し、後述する各機能を実現する。
RAM12は、プロセッサ11の作業用メモリ等として用いられるメモリである。
HDD13は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する例えば磁気ディスク装置である。
通信I/F14は、通信回線を介して他のシステム又は他の装置との間で各種情報の送受信を行う。
表示デバイス15は、各種情報を表示する例えばディスプレイである。
入力デバイス16は、ユーザが情報を入力するために用いる例えばキーボードやマウスである。
【0015】
[業務辞書作成装置の機能構成]
図3は、本実施の形態における業務辞書作成装置10の機能構成例を示すブロック図である。図示するように、業務辞書作成装置10は、操作ログ受信部21と、操作ログ記憶部22と、単語抽出部23と、単語記憶部24と、文書特定部25と、特徴語抽出部26と、クラスタ分析部27と、分析結果送信部28とを備える。また、業務辞書作成装置10は、業務名受信部29と、業務辞書作成部30とを備える。
【0016】
操作ログ受信部21は、端末装置40におけるユーザの操作ログをその端末装置40から受信する。ここで、操作ログには、ユーザ、操作日時、マウス操作、キー入力、起動アプリケーション、表示ウィンドウ等に関する情報が含まれる。
【0017】
操作ログ記憶部22は、操作ログ受信部21が受信した端末装置40におけるユーザの操作ログを記憶する。
【0018】
単語抽出部23は、ユーザの操作ログに基づいて、ユーザが操作した文書に含まれる複数の単語を抽出する。本実施の形態では、ユーザの操作記録に基づいて、複数の単語を特定することの一例として、単語抽出部23の処理を行っている。
具体的には、単語抽出部23は、ユーザの操作ログに含まれるテキストデータから複数の単語を抽出するとよい。ここで、テキストデータは、操作ログに含まれるテキスト形式のデータであれば如何なるデータであってもよいが、例えば、ユーザが端末装置40を操作中にその表示部に表示されたウィンドウのタイトルであってよい。本実施の形態では、操作記録に含まれるテキストデータから複数の単語を特定することの一例として、単語抽出部23のこの処理を行っている。
また、単語抽出部23は、ユーザの操作ログに含まれるイメージデータの文字認識を行うことにより、複数の単語を抽出してもよい。ここで、イメージデータは、操作ログに含まれるイメージ形式のデータであれば如何なるデータであってもよいが、例えば、端末装置40の表示部に表示された画面のキャプチャ画像であってよい。そして、このキャプチャ画像は、アクティブウィンドウのキャプチャ画像であってもよいし、画面全体のキャプチャ画像であってもよい。後者の場合、単語抽出部23は、画面全体のキャプチャ画像を解析することにより、アクティブウィンドウのキャプチャ画像を切り出してもよい。本実施の形態では、操作記録に含まれるイメージデータの文字認識を行うことにより、複数の単語を特定することの一例として、単語抽出部23のこの処理を行っている。
【0019】
尚、業務辞書作成装置10がユーザの操作ログを受信しながら業務辞書を作成する場合は、単語抽出部23は、ユーザの操作ログを操作ログ受信部21から直接受け取るとよい。一方、業務辞書作成装置10がユーザの操作ログを受信した後の特定のタイミングで業務辞書を作成する場合、単語抽出部23は、ユーザの操作ログを操作ログ記憶部22から読み出すとよい。この場合、単語抽出部23は、予め定められた期間におけるユーザの操作ログを読み出すとよい。
【0020】
単語記憶部24は、単語抽出部23が抽出した、ユーザが操作した文書に含まれる複数の単語を記憶する。
【0021】
文書特定部25は、ユーザの操作ログに基づいて、業務に関係する可能性が高い文書を特定する。ユーザが参照した全ての文書に含まれる単語をクラスタリングしてもよいが、単語ベクトルをクラスタリングする場合は、関係性の薄い文書に含まれる単語を除外する必要がある。例えば、ユーザが閲覧のみ行った文書には、業務を特徴付ける単語が含まれる可能性が低いため、ユーザが閲覧のみ行った文書は除外して、ユーザが作成又は編集を行った文書に絞り込むことが考えられる。そこで、文書特定部25は、ユーザの操作ログに基づいて、ユーザが作成又は編集を行った文書を特定する。このような文書には、例えば、ユーザがキー入力を行っている際にアクティブなウィンドウに表示されていた文書、ユーザが保存する操作を行った文書等がある。ここで、保存する操作は、上書き保存と、名前を付けて保存とを含む。そして、文書特定部25は、抽出された単語を、ユーザが作成又は編集を行った文書に含まれる単語に絞り込む。本実施の形態では、ユーザが作成又は編集した文書に含まれる複数の単語を特定することの一例として、文書特定部25の処理を行っている。
【0022】
尚、業務辞書作成装置10がユーザの操作ログを受信しながら業務辞書を作成する場合は、文書特定部25は、ユーザの操作ログを操作ログ受信部21から直接受け取り、抽出された単語を単語抽出部23から直接受け取るとよい。一方、業務辞書作成装置10がユーザの操作ログを受信した後の特定のタイミングで業務辞書を作成する場合、文書特定部25は、ユーザの操作ログを操作ログ記憶部22から読み出し、抽出された単語を単語記憶部24から読み出すとよい。この場合、文書特定部25は、予め定められた期間におけるユーザの操作ログ及び抽出された単語を読み出すとよい。
【0023】
特徴語抽出部26は、文書特定部25が絞り込んだ単語から特徴語を抽出する。例えば、特徴語抽出部26は、tf-idf(term frequency - inverse document frequency)等の一般的な特徴語抽出処理を用いて、特徴語を抽出する。
【0024】
クラスタ分析部27は、特徴語抽出部26が抽出した特徴語のクラスタ分析を行う。具体的には、クラスタ分析部27は、特徴語抽出部26が抽出した特徴語に対して、階層クラスタ分析の凝集型分析を適用する。例えば、クラスタ分析部27は、凝集型分析における特徴語間の類似度として、コサイン係数により定義される距離を用いるとよく、クラスタ連結方法として、ウォード法を用いるとよい。これは、明確なクラスタが出易い代表的な方法である。そして、クラスタ分析部27は、クラスタ分析の結果である樹形図(デンドログラム)を生成する。本実施の形態では、複数の単語の階層クラスタ分析を行うことにより、樹形図を生成することの一例として、クラスタ分析部27の処理を行っている。
尚、クラスタ分析部27によるクラスタ分析の詳細については、後述する。
【0025】
分析結果送信部28は、クラスタ分析部27によるクラスタ分析の結果である樹形図を端末装置40へ送信して表示させる。その際、分析結果送信部28は、樹形図中の複数の特徴語を要素に持つクラスタに関連付けて、業務名を入力するための入力領域を配置した状態で、樹形図を送信する。例えば、分析結果送信部28は、樹形図中のクラスタに対応する枝に関連付けて入力領域を配置するとよい。ここで、枝に関連付けて入力領域を配置するとは、枝に入力領域を配置することだけでなく、例えば矢印等で枝と関連付けられた別の領域に入力領域を配置することも含む。また、入力領域は、全ての枝ではなく、少なくとも1つの枝に関連付けられてもよい。本実施の形態では、樹形図を、複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御することの一例として、分析結果送信部28の処理を行っている。
尚、分析結果送信部28が送信する樹形図の詳細についても、後述する。
【0026】
業務名受信部29は、端末装置40に表示された樹形図の入力領域に入力された業務名を受信する。その際、業務名受信部29は、業務名を、業務名が入力された入力領域が関連付けられたクラスタを特定した形で受信する。例えば、業務名受信部29は、業務名が入力された入力領域が関連付けられたクラスタとして、業務名が入力された入力領域が関連付けられた枝を特定してもよい。
【0027】
業務辞書作成部30は、業務名受信部29が受信した業務名と、業務名受信部29が業務名を受信した際に特定されたクラスタに含まれる特徴語群とを対応付けた業務辞書を作成する。例えば、業務辞書作成部30は、業務名受信部29が受信した業務名と、業務名受信部29が業務名を受信した際に特定された枝の最下位の節点に配置された特徴語群とを対応付けた業務辞書を作成するとよい。本実施の形態では、複数の枝の各枝の最下位に配置された単語の節点群に配置された単語群と、各枝に関連して配置された入力領域に入力された作業名とを関連付けた作業定義情報を生成することの一例として、業務辞書作成部30の処理を行っている。
【0028】
ここで、クラスタ分析部27について詳細に説明する。
Word2vec等により特徴語をベクトル化してクラスタリング処理に用いると、言語的な類似度が高い特徴語が同じクラスタに分類されることになる。しかし、業務辞書に用いる特徴語は、業務を特徴付けるものであり、同じ業務を特徴付ける特徴語の言語的な類似度は必ずしも高いわけではない。そこで、クラスタ分析部27は、特徴語をベクトル化する場合の要素を特殊な方法で決定するようにした。
具体的には、端末装置40の操作において、ある業務を実行中に出現する業務を特徴付ける特徴語群は、同一時間帯に、作業対象ウインドウ(即ちアクティブウインドウ)に同時に出現することが多い。そこで、クラスタ分析部27は、時間帯毎の出現の有無を特徴語ベクトルの要素として設定する。
例えば、クラスタ分析部27は、定期的にキャプチャされた画面から得られる、時刻と、ウィンドウタイトルと、時刻毎のウィンドウ内に表示された文書における特徴語の出現の有無とを紐付ける。時刻は、画面をキャプチャした時刻である。ウィンドウタイトルは、アクティブウインドウのタイトルである。特徴語は、キャプチャ画面を一文書として、td-idf等により抽出されたものであり、時刻毎の特徴語の出現の有無は「0」又は「1」で表される。「0」は特徴語が出現しなかったことを表し、「1」は特徴語が出現したことを表す。
【0029】
図4は、文書作成中のキャプチャ画面に含まれる特徴語の出現状況を示した図である。図4では、上述したように、時刻と、ウィンドウタイトルと、時刻毎のウィンドウ内に表示された文書における特徴語の出現の有無とが対応付けられている。例えば、9時2分には、アクティブウィンドウのタイトルは「文書A」となっており、「文書A」に「特徴語1」、「特徴語2」、「特徴語3」が出現していることが示されている。また、例えば、9時6分には、アクティブウィンドウのタイトルは「文書B」となっており、「文書B」に「特徴語5」、「特徴語6」、「特徴語7」が出現していることが示されている。尚、特徴語は10個以上あり、時刻は9時11分以降もあることが考えられるが、ここでは、特徴語は9個、時刻は9時10分までとしている。
【0030】
図5は、全てのウィンドウタイトルについての特徴語間の類似度を示す図である。例えば、「特徴語1」と「特徴語2」との類似度は0.942809(=8/√9・√8)となっていることが示されている。また、例えば、「特徴語6」と「特徴語7」との類似度が1(=2/√2・√2)となっていることが示されている。
【0031】
図6は、図5に基づいて生成された樹形図を示す図である。この樹形図は、「特徴語2」と「特徴語3」とを連結する枝31aと、「特徴語8」と「特徴語9」とを連結する枝31bと、「特徴語6」と「特徴語7」とを連結する枝31cとを含む。また、この樹形図は、枝31aと「特徴語1」とを連結する枝32aと、「特徴語4」と枝31bとを連結する枝32bとを含む。更に、この樹形図は、枝32aと枝32bとを連結する枝33aと、「特徴語5」と枝31cとを連結する枝33bとを含む。更にまた、この樹形図は、枝33aと枝33bとを連結する枝34を含む。これにより、例えば、「特徴語2」、「特徴語3」が同じ時刻に同じ文書に出現する度合いが非常に高く、これらと「特徴語1」も同じ時刻に同じ文書に出現する度合いが高いことが分かる。また、例えば、「特徴語6」、「特徴語7」が同じ時刻に同じ文書に出現する度合いが非常に高く、これらと「特徴語5」も同じ時刻に同じ文書に出現する度合いがやや高いことも分かる。
【0032】
本実施の形態では、複数の単語が同じ時間帯に出現する頻度に基づいて、階層クラスタ分析を行うことの一例として、クラスタ分析部27のこの処理を行っている。また、例えば、「特徴語1」、「特徴語2」、「特徴語3」からなる特徴語群、「特徴語4」、「特徴語8」、「特徴語9」からなる特徴語群、「特徴語5」、「特徴語6」、「特徴語7」からなる特徴語群は、複数の単語をグループ分けして得られる複数の単語群の一例である。この場合、枝32a,32b,33bは、複数の単語群にそれぞれ対応する複数の枝の一例である。そして、「特徴語1」、「特徴語2」、「特徴語3」が配置された葉ノード群、「特徴語4」、「特徴語8」、「特徴語9」が配置された葉ノード群、「特徴語5」、「特徴語6」、「特徴語7」が配置された葉ノード群は、複数の枝の各枝に対応する単語群が配置された各枝の最下位に配置された単語の節点群の一例である。
【0033】
次に、分析結果送信部28が送信して端末装置40に表示され入力領域に業務名が入力された樹形図について説明する。
図7は、入力領域に業務名が入力された樹形図の具体例を示す図である。
図には、業務名を特徴付ける特徴語のクラスタリングが行われた結果である樹形図が示される。そして、複数の特徴語から構成されるクラスタに対応して業務名を設定するための入力領域41(41a~41j)が非類似度のレベルに応じて準備される。図では、左側になる程、非類似度のレベルが高くなっている。例えば、入力領域41bに入力される業務名と入力領域41cに入力される業務名との非類似度は、入力領域41eに入力される業務名と入力領域41fに入力される業務名との非類似度よりも高くなっている。
ユーザは、適切な特徴語群のまとまりに対する入力領域41に業務名を入力する。尚、ユーザは、全ての入力領域41に業務名を入力する必要はなく、効率化を検討する階層の入力領域41にのみ業務名を入力するようにしてよい。
【0034】
次いで、業務辞書作成部30が作成する業務辞書について説明する。
図8は、業務辞書の具体例を示す図である。ユーザが図7の樹形図上で特徴語群に応じて入力領域41a~41jに業務名を入力すると、業務辞書作成部30は業務辞書を生成し、保存する。但し、図7の樹形図からは、図8の業務辞書のうち、業務名「状態推定技術」に対する部分が生成され、業務名「ワークログ活用」、「特許出願」、「周辺業務」を含む樹形図から、図8の業務辞書の全体が生成される。
尚、上述したように、ユーザは図7の樹形図上で必ずしも全ての入力領域に業務名を入力する必要はなく、分析する階層の入力領域にのみ業務名を入力してよい。例えば、業務解析を上位の業務分類で行いたいときは、「業務名1」を入力し、より細かい業務項目について業務解析を行いたい場合は、「業務名2」及び「業務名3」を入力するとよい。従って、業務辞書作成部30も、「業務名2」及び「業務名3」は設定しないことがある。
【0035】
[業務辞書作成装置の動作例]
図9は、本実施の形態における業務辞書作成装置10の動作例を示すフローチャートである。
業務辞書作成装置10では、まず、操作ログ受信部21が、端末装置40におけるユーザの操作ログを、その端末装置40から受信する(ステップ201)。
【0036】
次に、単語抽出部23が、ステップ201で受信されたユーザの操作ログに基づいて、ユーザが操作した文書に含まれる複数の単語を抽出する(ステップ202)。例えば、単語抽出部23は、ユーザの操作ログに含まれるテキストデータから複数の単語を抽出してもよいし、ユーザの操作ログに含まれるイメージデータの文字認識を行うことにより、複数の単語を抽出してもよい。
【0037】
次に、文書特定部25が、ステップ201で受信されたユーザの操作ログに基づいて、ユーザが作成又は編集を行った文書を特定し、ステップ202で抽出された単語を、この特定された文書に含まれる単語に絞り込む(ステップ203)。
【0038】
次に、特徴語抽出部26が、ステップ203で絞り込まれた単語から、例えば、tf-idfを用いて、特徴語を抽出する(ステップ204)。
【0039】
次に、クラスタ分析部27が、ステップ204で抽出された特徴語のクラスタ分析を行って、クラスタ分析の結果である樹形図を生成する(ステップ205)。例えば、クラスタ分析部27は、ステップ204で抽出された特徴語に対して、階層クラスタ分析の凝集型分析を行うことにより、樹形図を生成するとよい。
【0040】
次に、分析結果送信部28が、ステップ205で生成された樹形図を、その樹形図中のクラスタに入力領域を関連付けて配置した状態で、端末装置40へ送信する(ステップ206)。
これにより、端末装置40には、クラスタに入力領域が関連付けられた樹形図が表示され、ユーザは、入力領域に業務名を入力できるようになる。そして、ユーザが業務名の入力を確定させると、端末装置40は、業務名と、業務名が入力された入力領域が関連付けられたクラスタとの対応を業務辞書作成装置10へ送信する。
【0041】
これにより、業務辞書作成装置10では、業務名受信部29が、業務名と、業務名が入力された入力領域が関連付けられたクラスタとの対応を受信する(ステップ207)。
そして、業務辞書作成部30が、ステップ207で受信した業務名と、ステップ207で受信したクラスタに含まれる特徴語群とを対応付けた業務辞書を作成する(ステップ208)。
【0042】
[本実施の形態の変形例]
上記では、業務辞書の作成についてのみ述べた。即ち、ユーザが業務やプロジェクトを開始する際に、業務辞書作成装置10は、活動初期のユーザの操作ログを解析して新たに業務辞書を作成する。しかしながら、業務辞書が作成された後も、随時、特徴語のクラスタリング処理を行い、業務辞書を更新して、業務辞書の精度を向上するようにしてよい。
その場合、新たな業務名が追加されていなければ、既存の業務名に対する特徴語の追加であるので、前回業務名に対応付けられた特徴語との類似性を評価すればよい。
一方、新たな業務名が追加されていれば、前回のクラスタリング処理に用いた特徴語が、異なる業務名に重複して登録されることを回避するために、前回のクラスタリング処理に用いた特徴語に新たな特徴語を追加して再度クラスタリング処理することが好ましい。
【0043】
また、上記では、業務辞書作成装置10と端末装置40とからなる業務辞書作成システム1が本実施の形態を実現することとしたが、これには限らない。例えば、業務辞書作成装置10が本実施の形態を実現することとしてもよい。この場合、業務辞書作成装置10の分析結果送信部28が端末装置40へ樹形図を送信して端末装置40に樹形図を表示させるのではなく、業務辞書作成装置10の表示制御部が自装置の表示デバイス15に樹形図を表示させる。また、業務辞書作成装置10の分析結果送信部28が端末装置40で入力された業務名を受信するのではなく、業務辞書作成装置10の操作受付部が自装置の入力デバイス16で入力された業務名を受け付ける。
【0044】
[本実施の形態の効果]
従来は、業務辞書を作成する際、ユーザ自身が、業務名とそれに対応した適切な特徴語を設定する必要があった。
これに対し、本実施の形態では、不足なく適切な業務名が設定され、対応する特徴語がユーザにより設定する操作が行われなくても設定される。そのため、1つの特徴語が複数の業務名に対応付けられることがなく、業務分類に有効な特徴語の設定が可能となり、ユーザが特徴語設定に迷うことなく、適切な業務辞書を容易に作成できる。
また、特徴語のクラスタリング処理を用いることで、業務の複層構造を表示して、上位業務と下位業務の登録が可能となる。その際、業務数を多くすれば、より詳細な(下位階層の)業務登録が可能となり、業務数を少なくすれば、1つの業務の複数の詳細項目に横断して特徴語が含まれることになるので、上位の業務の登録が可能となる。これは、クラスタリング処理後の樹形図の表示において、切断する非類似度(結合レベル)を任意に設定することで容易に実現される。
【0045】
[プロセッサ]
本実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また、本実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は、本実施の形態において記載した順序のみに限定されるものではなく、変更してもよい。
【0046】
[プログラム]
本実施の形態における業務辞書作成システム1が行う処理は、例えば、アプリケーションソフトウェア等のプログラムとして用意される。
この場合、本実施の形態を実現するプログラムは、コンピュータに、ユーザの操作記録に基づいて、複数の単語を特定する機能と、複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、複数の枝の各枝に対応する単語群が配置された各枝の最下位に配置された単語の節点群とを含む樹形図を、複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する機能とを実現させるためのプログラムとして捉えられる。
尚、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD-ROM等の記録媒体に格納して提供することも可能である。
【0047】
[付記]
(((1)))
1又は複数のプロセッサを備え、
前記1又は複数のプロセッサは、
ユーザの操作記録に基づいて、複数の単語を特定し、
前記複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、当該複数の枝の各枝に対応する単語群が配置された当該各枝の最下位に配置された単語の節点群とを含む樹形図を、当該複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する、
情報処理システム。
(((2)))
前記1又は複数のプロセッサは、前記操作記録に含まれるテキストデータから前記複数の単語を特定する、(((1)))に記載の情報処理システム。
(((3)))
前記テキストデータは、前記情報処理システムの表示部に表示されたウィンドウのタイトルである、(((2)))に記載の情報処理システム。
(((4)))
前記1又は複数のプロセッサは、前記操作記録に含まれるイメージデータの文字認識を行うことにより、前記複数の単語を特定する、(((1)))に記載の情報処理システム。
(((5)))
前記イメージデータは、前記情報処理システムの表示部に表示された画面のキャプチャ画像である、(((4)))に記載の情報処理システム。
(((6)))
前記1又は複数のプロセッサは、前記ユーザが作成又は編集した文書に含まれる前記複数の単語を特定する、(((1)))乃至(((5)))の何れかに記載の情報処理システム。
(((7)))
前記ユーザが作成又は編集した文書は、当該ユーザがキー入力を行っている際にアクティブなウィンドウに表示されている文書である、(((6)))に記載の情報処理システム。
(((8)))
前記ユーザが作成又は編集した文書は、当該ユーザが保存する操作を行った文書である、(((6)))に記載の情報処理システム。
(((9)))
前記1又は複数のプロセッサは、前記複数の単語の階層クラスタ分析を行うことにより、前記樹形図を生成する、(((1)))乃至(((8)))の何れかに記載の情報処理システム。
(((10)))
前記1又は複数のプロセッサは、前記複数の単語が同じ時間帯に出現する頻度に基づいて、前記階層クラスタ分析を行う、(((9)))に記載の情報処理システム。
(((11)))
前記1又は複数のプロセッサは、前記複数の枝の各枝の最下位に配置された単語の節点群に配置された単語群と、当該各枝に関連して配置された入力領域に入力された作業名とを関連付けた作業定義情報を生成する、(((1)))乃至(((10)))の何れかに記載の情報処理システム。
(((12)))
コンピュータに、
ユーザの操作記録に基づいて、複数の単語を特定する機能と、
前記複数の単語をグループ分けして得られる複数の単語群にそれぞれ対応する複数の枝と、当該複数の枝の各枝に対応する単語群が配置された当該各枝の最下位に配置された単語の節点群とを含む樹形図を、当該複数の枝の少なくとも1つに関連して入力領域が配置された状態で表示するように制御する機能と
を実現させるためのプログラム。
【0048】
(((1)))の発明によれば、複数の単語をグループ分けして得られる複数の単語群の各単語群に容易に情報を付与することができる。
(((2)))の発明によれば、ユーザの操作記録に基づいて、複数の単語を容易に特定することができる。
(((3)))の発明によれば、情報処理システムの表示部に表示されたウィンドウのタイトルを用いて、複数の単語を容易に特定することができる。
(((4)))の発明によれば、ユーザの操作記録に基づいて、多くの単語を特定することができる。
(((5)))の発明によれば、情報処理システムの表示部に表示された画面のキャプチャ画像を用いて、多くの単語を特定することができる。
(((6)))の発明によれば、ユーザの操作記録に基づいて、ユーザの作業に関係する可能性が高い複数の単語を特定することができる。
(((7)))の発明によれば、ユーザがキー入力を行っている際にアクティブなウィンドウに表示されている文書に含まれる複数の単語を、ユーザの作業に関係する可能性が高い複数の単語として特定することができる。
(((8)))の発明によれば、ユーザが保存する操作を行った文書に含まれる複数の単語を、ユーザの作業に関係する可能性が高い複数の単語として特定することができる。
(((9)))の発明によれば、複数の単語をグループ分けして得られる複数の単語群同士の類似度のレベルが分かる樹形図を作成することができる。
(((10)))の発明によれば、ユーザの同じ作業を特徴付ける複数の単語が同じ単語群に属するようにした樹形図を作成することができる。
(((11)))の発明によれば、単語群と作業名とを関連付けた作業定義情報を生成することができる。
(((12)))の発明によれば、複数の単語をグループ分けして得られる複数の単語群の各単語群に容易に情報を付与することができる。
【符号の説明】
【0049】
1…業務辞書作成システム、10…業務辞書作成装置、21…操作ログ受信部、22…操作ログ記憶部、23…単語抽出部、24…単語記憶部、25…文書特定部、26…特徴語抽出部、27…クラスタ分析部、28…分析結果送信部、29…業務名受信部、30…業務辞書作成部、40…端末装置
図1
図2
図3
図4
図5
図6
図7
図8
図9