(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024154756
(43)【公開日】2024-10-31
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06Q 10/04 20230101AFI20241024BHJP
G06Q 10/00 20230101ALI20241024BHJP
【FI】
G06Q10/04
G06Q10/00
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2023068776
(22)【出願日】2023-04-19
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】渡邊 元気
【テーマコード(参考)】
5L010
5L049
【Fターム(参考)】
5L010AA01
5L010AA04
5L049AA01
5L049AA04
(57)【要約】
【課題】情報の収集に関する利便性をより向上させること。
【解決手段】情報処理装置は、複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価部と、複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価部と、前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成部と、を有する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価部と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価部と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記表示情報生成部は、前記類似性の評価結果と、前記入力情報において指定されている前記ばらつきの状態に対する評価基準に対して前記第1の特徴情報のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記ばらつき評価部は、前記集合に属する前記データの前記第1の特徴情報に対する主成分分析によって得られる各主成分の寄与率と、前記寄与率の上位からの累積値に対する閾値とに基づいて、前記ばらつきの状態を評価する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項4】
前記ばらつき評価部は、予め設定された情報に応じて、前記入力情報が入力される前における前記ばらつきの状態の評価結果を取得する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項5】
前記ばらつきの状態に対する評価基準は、ばらつきが大きいほど評価を高くするか、ばらつきが小さいほど評価を高くするか、ばらつきの状態を評価しないか、のいずれかを含む、
ことを特徴とする請求項2記載の情報処理装置。
【請求項6】
前記入力情報は、第2の文字列を含み、
前記ばらつき評価部は、前記第1の特徴情報について、前記第2の文字列の特徴におけるばらつきの状態を評価する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項7】
前記表示情報生成部は、前記画面の表示情報を生成した後に前記評価基準が変更されると、前記類似性の評価結果と、変更後の前記評価基準に対して前記第1の特徴情報のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する、
ことを特徴とする請求項2記載の情報処理装置。
【請求項8】
前記入力情報は、第3の文字列を含み、
前記ばらつき評価部は、前記第1の特徴情報について、前記第3の文字列の特徴を除去した場合のばらつきの状態を評価する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項9】
前記入力情報は、第2の文字列及び第3の文字列を含み、
前記ばらつき評価部は、前記第1の特徴情報について、前記第3の文字列の特徴を除去した場合の前記第2の文字列の特徴におけるばらつきの状態を評価する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項10】
前記入力情報は、データの種別ごとに前記評価基準を含み、
前記ばらつき評価部は、複数の集合のそれぞれについて、当該集合に属する前記データの種別ごとに前記第1の特徴情報のばらつきの状態を評価し、
前記表示情報生成部は、前記類似性の評価結果と、前記データの種別ごとの前記評価基準に対して前記データの種別ごとの前記第1の特徴情報のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する、
ことを特徴とする請求項2記載の情報処理装置。
【請求項11】
いずれかの前記集合に属する前記データの前記第1の特徴情報に対する主成分分析によって得られる主成分のうち、寄与率が相対的に低い主成分に基づいてデータを収集する不足データ収集部と、
前記不足データ収集部が収集したデータに関する情報を出力する出力部と、
を有することを特徴とする請求項1記載の情報処理装置。
【請求項12】
前記出力部は、寄与率が相対的に低い主成分に基づいて収集されたデータに関する書籍の購入を促す情報を出力する、
ことを特徴とする請求項11記載の情報処理装置。
【請求項13】
前記表示情報生成部は、前記ばらつきの状態を示す画面の表示情報を生成する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項14】
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価部と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価部と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。
【請求項15】
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価手順と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価手順と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成手順と、
をコンピュータが実行することを特徴とする情報処理方法。
【請求項16】
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価手順と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価手順と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成手順と、
をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
オフィス内外での業務に従事する者等(以下「利用者」という。)にとって、自身の業務に有用な資料や人材、組織の知見などさまざまな情報を収集して活用したいことがある。
【0003】
例えば、企画部門、研究開発部門、人事部門などさまざまな各部門では、日々多くの企画書、提案書等が作成されているため、さまざまな情報(過去の議事録、企画書、提案書、設計書、論文など)が社内資産として存在している。そのように散在する情報(ドキュメントや人材等を含む情報)は膨大であるため、利用者にとってそのような情報資産を企画や提案の作成に活用することが困難な場合がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
情報の収集結果は入力として与えられる文字列にのみ依存する。情報収集に関する利用者の経験又はスキル等によって相当な時間を要したり、適切な情報が見つからなかったりすることがある。従来技術(例えば、特許文献1)によっても、このような課題を解決するのは困難であり、所望の情報を収集するための利便性の向上が必要であると考えられる。
【0005】
本発明は、上記の点に鑑みてなされたものであって、情報の収集に関する利便性をより向上させることを目的とする。
【課題を解決するための手段】
【0006】
そこで上記課題を解決するため、情報処理装置は、複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価部と、複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価部と、前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成部と、を有する。
【発明の効果】
【0007】
情報の収集に関する利便性をより向上させることができる。
【図面の簡単な説明】
【0008】
【
図1】第1の実施の形態における情報処理システムの構成例を示す図である。
【
図2】第1の実施の形態における情報収集装置10のハードウェア構成例を示す図である。
【
図3】第1の実施の形態における情報処理システムの機能構成例を示す図である。
【
図4】第1の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
【
図5】第1の実施の形態における収集条件入力画面の一例を示す図である。
【
図6】文書ベクトル記憶部141の構成例を示す図である。
【
図7】ワークスペース記憶部22の構成例を示す図である。
【
図8】各ワークスペースのばらつきの状態を説明するためのイメージ図である。
【
図9】ワークスペースのばらつき度の計算方法を説明するためのワークスペースの一例を示す図である。
【
図10】各ワークスペースの主成分分析の結果の一例を示す図である。
【
図11】検索結果画面の第1の表示例を示す図である。
【
図12】検索結果画面の第2の表示例を示す図である。
【
図13】検索結果画面の第3の表示例を示す図である。
【
図14】第2の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
【
図15】第2の実施の形態における収集条件入力画面の一例を示す図である。
【
図16】評価軸上におけるワークスペースのばらつきの状態の評価を説明するための図である。
【
図17】第3の実施の形態における設定画面の一例を示す図である。
【
図18】第3の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
【
図19】第4の実施の形態における収集条件入力画面の一例を示す図である。
【
図20】除去項目が除去された意味空間上におけるワークスペースばらつきの状態の評価を説明するための図である。
【
図21】第6の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
【
図22】第7の実施の形態における情報処理システムの機能構成例を示す図である。
【
図23】第7の実施の形態において情報収集装置10が実行する処理手順の一例を説明するためのフローチャートである。
【発明を実施するための形態】
【0009】
以下、図面に基づいて本発明の実施の形態を説明する。
図1は、第1の実施の形態における情報処理システムの構成例を示す図である。
図1において、情報処理システムは、情報管理装置20、情報収集装置10及び1以上のユーザ端末30等を含む。情報収集装置10は、ネットワークN1を介して情報管理装置20に接続する。ユーザ端末30は、ネットワークN2を介して情報管理装置20に接続し、ネットワークN3を介して情報収集装置10に接続する。
【0010】
ユーザ端末30は、或る情報の収集(或る情報へのアクセス)を所望するユーザが利用する端末である。例えば、PC(Personal Computer)、タブレット端末又はスマートフォン等がユーザ端末30として利用されてもよい。本実施の形態では、1以上の文書情報(文書データ)の集合であるワークスペースが、ユーザが収集を所望する情報の一例として挙げられる。
【0011】
文書情報とは、文書が記録されている電子的なデータ(以下、「文書データ」という。)に関する属性情報又は書誌情報等を含む情報である。文書とは、1以上の単語又は文の集合である(また、当然ながら英数字等その他多言語が含まれていてもよい)。文書データは、文を表現できる形式であればどの様な形式のデータであってもよい。例えば、文書データは、文書をテキスト形式で表現するデータであってもよいし、特定のアプリケーションに特化した形式のデータであってよい。又は、文書データは、単語又は文そのものや単語又は文に対応する概念を画像、音声又は映像(動画)等によって表現するデータであってもよい。すなわち、文書データは、画像データ、音声データ又は映像データであってもよい。更に、文書データの保存形式も特定のものに限定されない。例えば、文書データはファイルに格納されて保存されてもよいし、データベースのレコードとして保存されてもよいし、他の形式で保存されてもよい。本実施の形態では、文書データがファイル(以下、単に「ファイル」という。)に格納される例について説明する。
【0012】
ワークスペースとは、過去において情報処理システムを利用して行われた文書情報の収集において、同一の条件に基づいて収集(検索)された文書情報の集合を関連付けるデータである。すなわち、1つのワークスペースは、1以上の文書情報(文書データ)を要素とする集合である。ワークスペースは編集が可能であり、ユーザによる指示に応じてワークスペースへの文書情報の追加やワークスペースからの文書情報の削除等が行われてもよい。ワークスペースは、同一の条件に基づいて収集(検索)されたという共通性を有する文書情報の集合であるため、ワークスペースを収集することで、所定の関連性を有する複数の文書情報の収集を効率的に行うことができる。
【0013】
情報管理装置20は、文書情報及び文書情報の実態であるファイルや、ワークスペースに関する情報等を記憶する1以上のコンピュータである。
【0014】
情報収集装置10は、ユーザによって入力される要求に応じた情報をユーザ端末30へ提供する1以上のコンピュータである。例えば、情報収集装置10は、文書情報の収集要求に応じ、当該収集要求に指定された条件に応じた文書情報を検索し、検索結果をユーザ端末30へ送信する。情報収集装置10は、また、ワークスペースの収集要求に応じ、当該収集要求に指定された条件に応じたワークスペースを検索し、検索結果をユーザ端末30へ送信する。
【0015】
なお、情報管理装置20及び情報収集装置10は、同じコンピュータを用いて実現されてもよい。この場合、ネットワークN1は、情報管理装置20及び情報収集装置10を構成するコンピュータ内のバス等の信号線に相当する。又は、各ユーザ端末30が情報収集装置10を兼ねてもよい。この場合、ネットワークN3は、ユーザ端末30内のバス等の信号線に該当する。
【0016】
情報処理システムが利用されるシーン(状況)は、所定の形態に限定されないが、例えば、企業内において利用されてもよい。すなわち、企業における各社員(企業のほか官公庁、各種団体、組合等を含み、社員のほか派遣社員、パート、アルバイト等も含む)がユーザであってもよい(本実施の形態では、企業における各社員をユーザとして説明されるがこれに限定されるものではなく、一般ユーザにより本情報処理システムが利用される場合にも適用することができる。)。
【0017】
この場合、情報管理装置20は、企業内のファイルを記憶するコンピュータ群である。例えば、情報管理装置20は、企業内において作成される各種の文書データに関する文書情報や、企業内において行われた文書情報の収集結果としてのワークスペース等を管理する。この場合、ネットワークN2は、例えば、企業内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。
【0018】
情報収集装置10は、企業内に設置されてもよいし、企業外(例えば、データセンタ等のように企業内のネットワークとインターネットを介して接続されるクラウド環境等)に設置されてもよい。情報収集装置10が企業内に設置される場合、ネットワークN1及びネットワークN3は、例えば、企業内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。情報収集装置10が企業内に設置される場合、ネットワークN1及びネットワークN3は、例えば、インターネットに相当する。なお、情報収集装置10は、企業外において公開されている情報から、ユーザが所望する情報を収集してもよい。
【0019】
図2は、第1の実施の形態における情報収集装置10のハードウェア構成例を示す図である。
図2の情報収集装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
【0020】
情報収集装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0021】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って情報収集装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
【0022】
なお、情報管理装置20及びユーザ端末30も
図2と同様のハードウェア構成を有してもよい。
【0023】
図3は、第1の実施の形態における情報処理システムの機能構成例を示す図である。
図3において、ユーザ端末30は、表示制御部31を有する。表示制御部31は、ユーザ端末30にインストールされた1以上のプログラム(例えば、Webブラウザのプログラム)が、ユーザ端末30のプロセッサに実行させる処理により実現される。
【0024】
表示制御部31は、情報収集装置10から送信される表示情報に基づいて画面を表示したり、当該画面に対する入力に応じた要求を情報収集装置10へ送信したりする。
【0025】
情報管理装置20は、文書情報記憶部21及びワークスペース記憶部22等を有する。これら各記憶部は、例えば、情報管理装置20の補助記憶装置等を用いて実現可能である。
【0026】
文書情報記憶部21は、各文書データの文書情報を記憶する。各文書データは、例えば、情報管理装置20の補助記憶装置等に記憶される。
【0027】
ワークスペース記憶部22は、ワークスペースに関する情報を記憶する。ワークスペースに関する情報とは、例えば、当該ワークスペースに対応する情報の収集結果に含まれる文書情報の集合である。
【0028】
情報収集装置10は、受付部121、ベクトル変換部122、類似性評価部123、ワークスペース収集部124、ばらつき評価部125、総合評価部126、表示情報生成部127及び出力部128を有する。これら各部は、情報収集装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。情報収集装置10は、また、文書ベクトル記憶部141を利用する。文書ベクトル記憶部141は、例えば、補助記憶装置102、又は情報収集装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
【0029】
受付部121は、ユーザが所望する情報の収集要求をユーザ端末30から受信する(受け付ける)。情報の収集要求は、情報(本実施の形態ではワークスペース)の収集に関する条件(収集条件)を入力情報として含む。収集条件は、収集対象とする情報を自然言語で表現する文字列(以下、「クエリ」という。)と、ワークスペースに属する文書データの内容の意味的なばらつきに対する評価基準(以下、「ばらつき評価基準」という。)とを含む。ばらつき評価基準は、ばらつきが大きいほど評価を高くするか、ばらつきが小さいほど評価を高くするか、ばらつきの状態を評価しないか、のいずれかを含む。
【0030】
クエリは、例えば、1以上の単語の集合である。クエリは、1以上の単語の羅列であってもよいし、1以上の文の形式を有してもよい。ばらつき評価基準は、文書データの内容の意味的なばらつきが小さいワークスペースを優先的に収集対象とするか、当該ばらつきが大きいワークスペースを優先的に収集対象とするかについての条件である。
【0031】
ベクトル変換部122は、収集条件に含まれるクエリや、文書情報記憶部21に記憶されている各文書情報に係る文書データを解析して、クエリ又は文書データを、それぞれの意味的な特徴を示す特徴情報(特徴量)の一例である数値ベクトル形式のデータ(以下、「意味ベクトル」という。)へ変換する。意味ベクトルは、分散表現又は埋め込み表現ともよばれ、変換元のデータ(クエリ又は文書データ等)が含む意味に応じた表現である。例えば、ベクトル変換部122は、BERTなど自然言語処理を用いて意味ベクトルを生成する。ユーザの属性を利用してBERTのモデルが切り替えられてもよい。ベクトル変換部122は、各文書データのベクトルについては予め生成し、文書ベクトル記憶部141に記録しておく。以下、クエリに基づく意味ベクトルを「クエリベクトル」といい、文書データに基づく意味ベクトルを「文書ベクトル」という。
【0032】
類似性評価部123は、複数の文書データ(データの一例)ごとに文書ベクトル記憶部141に記憶されている、当該文書データの特徴を示す文書ベクトル(第1の特徴情報の一例)と、入力情報において指定されているクエリ(第1の文字列の一例)の特徴を示すクエリベクトル(第2の特徴情報の一例)との類似性を評価する。クエリベクトルと文書ベクトルとの類似性の評価は、クエリと文書データとの類似性の評価と等価である。本実施の形態において「評価」とは、評価の対象(ここでは、類似性)を所定の指標又は尺度(以下、「指標」で統一する。)に応じた値によって表現すること(又は当該値を算出すること)をいう。本実施の形態において、類似性とは、前述の複数の文書データにおける第1の特徴情報が、入力情報における第2の特徴情報と似ている度合いを示し、類似性の評価指標を「類似度」という。
【0033】
ワークスペース収集部124は、類似性評価部123による類似性の評価結果に基づいて、クエリに関連するワークスペースを収集する。クエリに関連するワークスペースとは、クエリとの類似性が相対的に高い文書データが属するワークスペースをいう。
【0034】
ばらつき評価部125は、ワークスペース収集部124によって収集された、それぞれに1以上の文書データ(データの一例)が属する複数のワークスペース(データの集合の一例)について、当該ワークスペース(集合の一例)に属する文書データの文書ベクトル(第1の特徴情報の一例)のばらつきの状態を評価する。本実施の形態において、ばらつきの状態の評価指標を「ばらつき度」という。
【0035】
総合評価部126は、クエリベクトルと各文書ベクトルとの類似性の評価結果と、ばらつきの状態の評価結果とに基づく総合的な評価値(以下、「総合スコア」という。)を、ワークスペース収集部124によって収集されたワークスペースごとに算出する。ばらつきの状態の評価結果とは、例えば、入力情報において指定されているばらつき評価基準に対して文書ベクトル(第1の特徴情報の一例)のばらつきの状態の評価結果を適用した結果である。
【0036】
表示情報生成部127は、ユーザ端末30に表示させるための表示情報を生成する。例えば、表示情報生成部127は、ワークスペース収集部124によって収集されたワークスペース(集合の一例)を、総合評価部126によって算出された総合スコアに応じた態様で表示させる画面の表示情報を生成する。例えば、ユーザ端末30の表示制御部31がWebブラウザによって実現されるのであれば、Webページが表示情報の一例である。但し、他の形式によって表示情報が生成されてもよい。
【0037】
出力部128は、表示情報生成部127が生成した表示情報をユーザ端末30へ出力(送信)する。
【0038】
以下、情報処理システムが実行する処理手順について説明する。
図4は、第1の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
【0039】
ステップS110において、ユーザ端末30の表示制御部31は、ユーザ端末30の表示装置に表示されている収集条件入力画面を介して、収集条件の入力をユーザから受け付ける。
【0040】
図5は、第1の実施の形態における収集条件入力画面の一例を示す図である。
図5が示すように、収集条件入力画面510は、クエリ入力領域511、ばらつき評価基準指定領域512、及び検索ボタン513等を含む。
【0041】
クエリ入力領域511は、クエリの入力を受け付けるための領域である。クエリの入力は、ユーザ端末30のキーボード等(タッチパネルによる直接入力を含む)を用いて行われてもよいし、ユーザ端末30のマイクを介して音声入力されてもよい。
【0042】
ばらつき評価基準指定領域512は、ばらつき評価基準の指定を受け付けるための領域であり、ゲージ5121及びつまみ5122を含む。ゲージ5121は、ばらつき評価基準の範囲及び方向を示す。
図5において、ゲージ51211は、「無し」を中央として、右側が「拡張」の方向に対応し、左側が「絞り込み」の方向に対応する。つまみ5112は、ゲージ5121上を水平に移動可能であり、ゲージ51211上における位置の指定(つまり、ばらつきに対する評価基準の指定)を受け付けるための表示部品である。
【0043】
「絞り込み」は、クエリに対して意味的に特化したワークスペース(所属する文書データの意味的なばらつきが小さいワークスペース)を優先的に探索する評価基準であり、「拡張」は、クエリに対して意味的に広がりのあるワークスペース(所属する文書データの意味的なばらつきが大きいワークスペース)を優先的に探索する評価基準である。「無し」は、ワークスペースのばらつきの状態をワークスペースの評価に影響させないという評価基準である。ワークスペースの総合的な評価は、クエリに対する類似性と、ばらつきの状態とに基づく。この際、つまみ5112が「拡張」側に寄っていればいる程、ばらつきが大きいことに対する高評価の度合いが高くなる(重みが大きくなる)という評価基準を意味する。つまみ5112が「絞り込み」側に寄っていればいる程、ばらつきが小さいことに対する高評価の度合いが高くなる(重みが大きくなる)という評価基準を意味する。
【0044】
ユーザが特定の事柄に対して周辺情報を含む意味的に広い範囲の情報がまとめられたワークスペースを探したいのであれば「拡張」側へつまみ5112を移動させ、特定の情報に特化した詳細な情報がまとめられたワークスペースを探したいのであれば「絞り込み」側へつまみ5112を移動させることで、所望のワークスペースが検索結果において上位に表示される可能性が高くなる。
【0045】
本実施の形態では、ばらつき評価基準の範囲を-5~+5とし、「絞り込み」の方向を負とし、「拡張」の方向を正とし、「無し」を0とする。ばらつき評価基準の絶対値が大きければ大きいほど、ばらつき評価基準の符号(負又は正)が示す方向に対する指定が大きいこととする。
【0046】
検索ボタン513は、情報収集の実行指示(検索実行)を受け付けるためのボタンである。
【0047】
なお、収集条件入力画面510は、例えば、ユーザによる情報収集装置10に対するログインに応じて、ユーザ端末30に表示されてもよい。
【0048】
クエリ入力領域511にクエリが入力され、ばらつき評価基準指定領域512においてばらつき評価基準が指定された後で、検索ボタン513がユーザによって押下されると、表示制御部31は、入力されたクエリ及び指定されたばらつき評価基準を情報収集条件として含む情報収集要求を情報収集装置10へ送信する。
【0049】
情報収集装置10の受付部121が情報収集要求を受信すると、ベクトル変換部122は、当該情報収集要求(以下、「対象収集要求」という。)に含まれているクエリ(以下、「対象クエリ」という。)を意味ベクトル(クエリベクトル)へ変換する(S120)。
【0050】
続いて、類似性評価部123は、情報管理装置20によって管理されている文書データごとに、クエリベクトルと当該文書データの文書ベクトルとを比較して、クエリベクトルと当該文書ベクトルとの類似度を算出する(S130)。情報管理装置20によって管理されている各文書データに対応する文書ベクトルは、文書ベクトル記憶部141に記憶されている。
【0051】
図6は、文書ベクトル記憶部141の構成例を示す図である。
図6が示すように、文書ベクトル記憶部141は、文書データごとに文書ID、文書名及び文書ベクトルを記憶する。文書IDは、文書データに係る文書情報の識別情報であり、情報管理装置20における文書情報と文書ベクトル記憶部141の文書ベクトルとを関連付ける。文書名は、文書データの名称又はタイトルである。例えば、文書データがファイル形式で保存されている場合には、ファイル名が文書名として利用されてもよい。文書ベクトルは、上記したように文書データの内容の意味的な特徴を示す意味ベクトルである。
【0052】
クエリベクトルと文書ベクトルとの類似度は、一般的なベクトル間の類似度の算出と同様に、クエリベクトルと文書ベクトルとの角度(コサイン類似度)や距離を用いて算出可能である。例えば、コサイン類似度を用いる場合、ベクトルaとベクトルbとのコサイン類似度は、以下の式に基づいて算出可能である。
【0053】
【数1】
全ての文書ベクトルについてクエリベクトルとの類似度が算出されると、類似性評価部123は、類似度が上位N件である文書ベクトルを抽出する(S140)。すなわち、クエリベクトルとの類似性が高い順においてN件の文書ベクトルが抽出される。なお、Nの値は、1以上の整数であって予め設定される。又は、類似度に対して閾値が設定され、類似度が当該閾値以上である文書ベクトルの件数がN件であってもよい。
【0054】
続いて、ワークスペース収集部124は、上位N件の文書ベクトルに係る文書情報(文書データ)ごとに、当該文書情報に関連するワークスペースをワークスペース記憶部22(
図7)から収集する(S150)。
【0055】
図7は、ワークスペース記憶部22の構成例を示す図である。
図7が示すように、ワークスペース記憶部22は、ワークスペースごとに、ワークスペースID、ワークスペース名、ラベル、作成者、更新者、クエリ、利用数、評価点、所属データID及び所属データパス等を含むワークスペースを記憶する。
【0056】
ワークスペースIDは、ワークスペースの識別情報である。ワークスペース名は、ワークスペースの名前である。ラベルは、ワークスペースに属する文書データが含む単語の中で、相対的に重要な一部の単語である。相対的な重要性は、例えば、TF-IDF等を用いて判定される。作成者は、ワークスペースの作成者の識別情報(ユーザID又は氏名等)である。更新者は、ワークスペースが更新された場合に、その更新を行った者の識別情報(ユーザID又は氏名等)である。クエリは、ワークスペースの生成元となった文書情報の収集において入力されたクエリである。したがって、クエリは、ワークスペースがどのような観点又は意図に基づく文書情報の集合であるかを示す情報であるともいえる。利用数は、ワークスペースが利用された(参照された)回数である。評価点は、ワークスペースを参照したユーザによって入力される評価の値である。例えば、5段階評価での数値の平均値が評価点である。所属データIDは、ワークスペースに属する各文書情報の文書IDである。所属データパスは、各文書情報に係る文書データのファイルパスである。
【0057】
或る文書情報に関連するワークスペースの識別情報とは、当該文書情報の文書IDを所属データIDとして含むワークスペースである。複数のワークスペースが同じ文書情報に関連する可能性があり、一つのワークスペースが複数の文書情報に関連する可能性が有る。なお、上位N件の文書情報に関連するワークスペースの数が、閾値M件を超えている場合(多すぎる場合)、収集された全てのワークスペースではなく、対象クエリとの類似度が上位M件までのワークスペースが、ステップS160以降の処理対象とされてもよい。或るワークスペースと対象クエリとの類似度は、当該ワークスペースに属する各文書データに係る各文書ベクトルと対象クエリのクエリベクトルとの類似度の平均若しくは最大値である。又は、当該ワークスペースに属する文書データのうち上位N件に含まれる各文書データに係る各文書ベクトルと対象クエリのクエリベクトルとの類似度の平均が、当該ワークスペースと対象クエリのクエリベクトルとの類似度とされてもよい。
【0058】
続いて、ばらつき評価部125は、対象収集要求に含まれているばらつき評価基準(以下、「対象ばらつき評価基準」という。)の値が0でないかを判定する(S160)。対象ばらつき評価基準が0でない場合(S160でYes)、ばらつき評価部125は、収集されたワークスペースごとに、当該ワークスペースのばらつきの状態を評価する(S170)。或るワークスペースのばらつきの状態とは、当該ワークスペースに属する文書データ群に係る文書ベクトル群のばらつき(つまり、意味的な分散)の状態をいう。
【0059】
図8は、各ワークスペースのばらつきの状態を説明するためのイメージ図である。
図8には、ワークスペースw1及びワークスペースw2のそれぞれに属する文書ベクトルが、意味ベクトルに対応した空間(以下、「意味空間」という。)上に点としてプロットされた状態のイメージが示されている。
図8では、便宜上、意味空間が2次元で表現されているが、意味空間は、意味ベクトルの次元数と同じ次元数(例えば、1024)を有する。
図8の例では、ワークスペースw1の方が、ワークスペースw2よりもばらつきが大きいことが分かる。ばらつきが大きいワークスペースは、多用な情報を含む(つまり、情報量が大きい)ワークスペースであるといえる。ばらつきが小さいワークスペースは、或る意味に特化された情報で構成されるワークスペースであるといえる。
【0060】
文書ベクトルは多次元なので、ばらつきの状態の代表的な指標である分散を計算することはできない。そこで、ばらつき評価部125は、主成分分析を利用してワークスペースのばらつきの状態を評価する。ばらつき評価部125は、ワークスペース(集合の一例)に属する文書データ(データの一例)の文書ベクトル(第1の特徴情報の一例)に対する主成分分析によって得られる各主成分の寄与率と、当該寄与率の上位からの累積値に対する閾値とに基づいて、ばらつきの状態を評価する。
【0061】
或るワークスペースの主成分分析は、例えば、当該ワークスペースに属する文書ベクトル群の分散共分散行列の固有値及び固有ベクトルで得ることができる。つまり、或るワークスペースについて得られる複数の固有ベクトル及び固有値の組のうち、各組の固有ベクトルが主成分ベクトル(以下、単に「主成分」という。)であり、各組の固有値の合計のうちの各組の固有値の割合が、各組の主成分の寄与率を示す。
【0062】
ばらつき評価部125は、各ワークスペースの主成分を寄与率の降順にソートし、上位の寄与率の累積値が、予め閾値として設定されている累積寄与率に達するまでの主成分の数を当該ワークスペースのばらつき度とする。ばらつき度は、値が小さいほどばらつきが小さことを示し、値が大きいほどばらつきが大きいことを示す。
【0063】
具体例を用いて説明する。以下のような2つのワークスペースが収集された場合を想定する。
図9は、ワークスペースのばらつき度の計算方法を説明するためのワークスペースの一例を示す図である。
図9において、所属データ名は、所属データID(
図7)に対応する文書名(
図6)である。
【0064】
図9に示される2つのワークスペースに対して主成分分析をした結果が
図10の通りであるとする。
図10は、各ワークスペースの主成分分析の結果の一例を示す図である。
【0065】
図10では、1つ目のワークスペース(ワークスペース「複合機の省エネ機能」)について主成分A~Eが得られ、2つ目のワークスペース(ワークスペース「複合機の省エネ制御」)について主成分1~7が得られた例が示されている。また、
図10には、各主成分の寄与率が示されており、各主成分は寄与率の降順にソートされている。なお、便宜上、
図10では
図9における3つ目のワークスペースに対する主成分分析の結果は省略されている。
【0066】
ここで、閾値として予め設定されている積寄与率が80%であるとする。
【0067】
ワークスペース「複合機の省エネ機能」では、主成分A、主成分B及び主成分Cの寄与率を合計すると80%以上となる。
30%+28%+25%=103%≧80%
ばらつき評価部125は、上位2番目までの寄与率の合計が累積寄与率に足りない分について、3番目の寄与率に対する割合を算出する。
(80%-(30%+28%))÷25%=22%÷25%=0.88
この場合、2つの主成分の寄与率の全部と、3つ目の主成分の88%との合計によって、上位の寄与率からの累積値が、閾値としての累積寄与率に一致する。よって、ばらつき評価部125は、ワークスペース「複合機の省エネ機能」のばらつき度を2.88として算出する。
【0068】
同様に、ワークスペース「複合機の省エネ制御」では、主成分1、主成分2、主成分3及び主成分4の寄与率を合計すると80%以上となる。
40%+20%+15%+12%=87%≧80%
ばらつき評価部125は、上位3番目までの寄与率の合計が累積寄与率に足りない分について、4番目の寄与率に対する割合を算出する。
(80%-(40%+20%+15%))÷12%=5%÷12%=0.42
この場合、3つの主成分の寄与率の全部と、4つ目の主成分の42%との合計によって、上位の寄与率からの累積値が、閾値としての累積寄与率に一致する。よって、ばらつき評価部125は、ワークスペース「複合機の省エネ制御」のばらつき度を3.42として算出する。
【0069】
図10の例では、ワークスペース「複合機の省エネ機能」の方がばらつきが小さく、ワークスペース「複合機の省エネ制御」の方がばらつきが大きいという評価結果とになる。
【0070】
なお、閾値としての寄与率累積値は、0~100(%)の間で設定可能である。但し、0や100は実質的に意味が無いため、例えば、{30、60、90}のような3つの選択肢や{10、30、50、70、90}のような5つの選択肢をユーザに提示して閾値が選択されるようにしてもよい。
【0071】
なお、ばらつき評価部125は、
図4の処理手順とは無関係なタイミング(例えば、ワークスペースがワークスペース記憶部22に登録されたタイミング、ワークスペースが更新されたタイミング、又は定期的なタイミング等)で、ワークスペース記憶部22に記憶されている各ワークスペースのばらつき度を算出し、各ワークスペースのワークスペースIDに関連付けて当該ばらつき度を補助記憶装置102等に記憶しておいてもよい。この場合、ステップS170において、ばらつき評価部125は、収集された各ワークスペースに関して予め記憶されているばらつき度を取得してもよい。
【0072】
続いて、ばらつき評価部125は、収集されたワークスペースごとに、当該ワークスペースのばらつき度を、対象ばらつき評価基準に基づいてばらつきスコアに変換する(S180)。ばらつきスコアとは、対象ばらつき評価基準において指定されっているばらつきの方向(絞り込み又は拡張)への適合の度合いを示す指標である。したがって、ばらつきスコアは、対象ばらつき評価基準の符号が正((「拡張」の方向)であれば、ばらつき度が大きければ大きい程大きい値となり、対象ばらつき評価基準の符号が負((「絞り込み」の方向)であれば、ばらつき度が小さければ小さいほど大きい値となればよい。例えば、対象ばらつき評価基準の符号が正である場合、ばらつき度の昇順の各順番の値が、各ワークスペースのばらつきスコアとされてもよい。又は、各ワークスペースのばらつき度の差がばらつきスコアに反映されるようにしてもよい。また、対象ばらつき評価基準の符号が負である場合、ばらつき度の降順の各順番の値が、各ワークスペースのばらつきスコアとされてもよい。又は、各ワークスペースのばらつき度の差がばらつきスコアに反映されるようにしてもよい。
【0073】
なお、ばらつき評価部125は、対象ばらつき評価基準の値が0である場合(S160でNo)、ばらつき評価部125は、ステップS170及びS180を実行しない。
【0074】
ステップS180、又はステップS160でNoの場合に続いて、総合評価部126は、収集されたワークスペースごとに総合スコアを算出する(S190)。総合スコアとは対象クエリとの類似度と、ばらつきスコアとに基づく、各ワークスペースの総合的な評価値をいう。或るワークスペースの総合スコアの算出方法は、当該ワークスペースと対象クエリとの類似度をxとし、当該ワークスペースのばらつきスコアをyとした場合、例えば、以下のように算出されてもよい。
総合スコア=x'+α×y'
但し、x'、y'は、x及びyの尺度(最小値から最大値の範囲)を合わせるためにx、yが正規化された値である。αは、対象ばらつき評価基準の絶対値である。
【0075】
続いて、総合評価部126は、総合スコアの降順にワークスペースをソートする(S200)。
【0076】
なお、ワークスペースが閾値M件を超えて収集されている場合、総合評価部126は、総合スコアにおいて上位M番目までのワークスペースを抽出してもよい。この場合、抽出されたワークスペースのみが以降のステップにおける処理対象とされてもよい。
【0077】
続いて、表示情報生成部127は、ソート結果をワークスペースの収集結果として表示させるための画面(以下、「検索結果画面」という。)の表示情報を生成する(S210)。
【0078】
続いて、出力部128は、当該表示情報をユーザ端末30へ送信する(S220)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース検索結果画面を表示する。
【0079】
図11は、検索結果画面の第1の表示例を示す図である。
図11が示すように、検索結果画面520は、ばらつき評価基準表示領域521、クエリ表示領域522及び検索結果表示領域523を含む。
【0080】
ばらつき評価基準表示領域521は、対象ばらつき評価基準を表示する領域である。クエリ表示領域522は、対象クエリを表示する領域である。検索結果表示領域523は、総合スコアに基づいてソートされたワークスペースの一覧が表示される領域であり、当該一覧に含まれるワークスペースごとにばらつき度を示す数値等を含む。
【0081】
ユーザは、検索結果画面520を参照することで、収集条件に応じて収集されたワークスペースの一覧を確認することができる。
【0082】
例えば、
図9に示したようなワークスペースがワークスペース記憶部22に登録されているとする。「複合機の省エネ機能」は、省エネ機能の中でもモジュールAに関する詳細な情報(文書データ)を含むワークスペースである。「複合機の省エネ制御」は、省エネ機能を実現するモジュールA~J全体の仕様や、全体の仕様を受けて各モジュールがどのような設計になるかを示した文書データを含むワークスペースである。「省エネ制御」は、複合機以外の家電等のデバイスを含んだ省エネ機能に関する情報(文書データ)をまとめたワークスペースである。
【0083】
複合機の省エネ機能に対して新たな機能の追加を検討する場合、どのモジュールに影響が及びそうか等、全体への影響を調査したい場合は、「複合機の省エネ制御」のワークスペースの情報を参照するのが好適であり、モジュールAへの詳細な影響を確認したい場合は「複合機の省エネ機能」のワークスペースを参照するのが好適である。
【0084】
対象クエリが「複合機の省エネ機能」である場合、「複合機の省エネ機能」及び「複合機の省エネ制御」の対象クエリに対する類似度は同程度になる可能性があり、ユーザは、各ワークスペースをそれぞれ確認しないと、所望のワークスペースにたどりつけない。
【0085】
そこで、本実施の形態では、ばらつき評価基準の指定が可能とされている。
【0086】
ここで、情報管理装置20には、多様なデバイスの省エネに関する文書データが登録されているとする。この場合、ユーザは、「複合機の省エネ機能」というクエリと、「絞り込み」側のばらつき評価基準とを指定することで、「複合機の省エネ機能」を上位の検索結果として得ることができる。
【0087】
又は、ユーザは、「複合機の省エネ機能」というクエリと、「拡張」側のばらつき評価基準とを指定することで、「複合機の省エネ制御」を上位の検索結果として得ることができる。
【0088】
又は、ユーザは、「省エネ制御」というクエリと、「拡張」側のばらつき評価基準とを指定することで、「省エネ制御」を上位の検索結果として得ることができる。
【0089】
なお、絞り込みについては、一般的に、クエリを「複合機の省エネ機能 モジュールA」と指定するように、クエリに含めるキーワードを追加する方法で実現することも出きる。しかし、拡張方向の検索に関しては、具体的にどのような内容に拡張するのか分からない場合があるため、キーワードの追加での実現は困難である。クエリに関連がある情報を全部調べたいといった漠然とした要求が有る場合、追加で指定すべきキーワードをユーザが事前に把握することは困難だからである。
【0090】
なお、
図11のばらつき評価基準表示領域521を利用して、ユーザは、ばらつき評価基準の変更が可能である。
【0091】
例えば、ばらつき評価基準表示領域521において、
図5において説明した操作と同様の操作によりばらつき評価基準が指定されてボタン5211が押下されると、ユーザ端末30の表示制御部31は、ばらつき評価基準表示領域521において指定されたばらつき評価基準(変更後のばらつき評価基準)を情報収集装置10へ送信する。情報収集装置10の受付部121が当該ばらつき評価基準を受信すると、当該ばらつき評価基準に基づいて、
図4のステップS160以降が再実行される。この場合、各ワークスペースのばらつきスコアが変化する。その結果、検索結果画面520の検索結果表示領域523には、同じワークスペースの集合について異なるソート結果が表示される。つまり、表示情報生成部127は、検索結果画面520(
図11)の表示情報を生成した後にばらつき評価基準が変更されると、類似性の評価結果と、変更後のばらつき評価基準に対して文書ベクトル(第1の特徴情報の一例)のばらつきの状態を適用した結果とに応じた態様でワークスペース(集合の一例)を表示させる検索結果画面520の表示情報を生成する。したがって、ユーザは、ばらつき評価基準を調整しながら、所望のワークスペースを探すことができる。
【0092】
また、クエリ表示領域522に対して新たなクエリが入力されてボタン5221が押下されると、表示制御部31は、当該クエリとばらつき評価基準表示領域521において指定されているばらつき評価基準とを含む情報収集要求を情報収集装置10へ送信する。この場合、
図4のステップS110以降が再実行されて、新たな検索結果を含む検索結果画面520がユーザ端末30に表示される。
【0093】
なお、
図11の検索結果表示領域523には、各ワークスペースのばらつき度の数値が示されているが、表示情報生成部127は、ばらつきの状態を(ばらつき度の大きさ)が他の方法によって表現されるように検索結果画面520の表示情報を生成してもよい。
【0094】
例えば、各ワークスペースのワークスペース名が、当該ワークスペースのばらつき度に応じた色によって表示されてもよい。例えば、ばらつき度が小さい程、ワークスペース名の色が赤に近くなり、ばらつき度が大きい程、ワークスペース名の色が青に近くなるようにされてもよい。
【0095】
また、
図12は、検索結果画面の第2の表示例を示す図である。
図12の検索結果表示領域523には、ワークスペースごとに、各主成分に対応するラベルと寄与率とが含まれている。例えば、或るワークスペースに属する文書データに含まれる単語の中からTF-IDFを用いて抽出された単語の中で、その意味ベクトルと或る主成分との類似度が最小である単語が当該主成分のラベルとされてもよい。
【0096】
更に、
図13は、検索結果画面の第3の表示例を示す図である。
図13の検索結果表示領域523には、ワークスペースごとに、各主成分のラベルをWordCloudのような形式で配置することで当該ワークスペースのばらつきが表現されている。
【0097】
上述したように、第1の実施の形態によれば、クエリに基づくワークスペース(文書データの集合)の収集結果について、ばらつき評価基準の指定により、文書データの意味的なばらつきが小さいワークスペースを優先的に(上位に)表示させたり、文書データの意味的なばらつきが大きいワークスペースを優先的に(上位に)表示させたりすることができる。例えば、ユーザは、クエリに特化したワークスペースを収集したい場合や、クエリの周辺に関する情報をも含むワークスペースを収集したい場合等に応じてばらつき評価基準を調整することで、所望の収集結果(検索結果)が得られる可能性が高めることができる。したがって、情報の収集に関する利便性を向上させることができる。
【0098】
ワークスペースはワークスペースの作成者の視点でまとめられるデータの集合であるため、「テーマAの機能B」に関するワークスペースでも機能Bの詳細をまとめたワークスペースや、機能Bに関連する周辺機能についてまとめたワークスペースなど、粒度が異なる可能性が有る。本実施の形態によれば、情報の密度という観点でユーザの目的に合致するワークスペースを優先的に検索することができることから、ユーザの情報の収集に関する利便性をより向上させることができる。
【0099】
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第1の実施の形態と同様でもよい。
【0100】
図14は、第2の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
図14中、
図4と同一ステップには同一ステップ番号を付し、その説明は省略する。
図14では、
図4のステップS110、S170が、S110a、S170aに置き換わる。
【0101】
ステップS110aにおいて、ユーザ端末30の表示制御部31は、ユーザ端末30の表示装置に表示されている収集条件入力画面を介して、収集条件の入力をユーザから受け付ける。第2の実施の形態では、収集条件入力画面の構成が第1の実施の形態(
図5)とは異なる。
【0102】
図15は、第2の実施の形態における収集条件入力画面の一例を示す図である。
図15中、
図5と同一部分には同一符号を付し、その説明は省略する。
【0103】
図15が示す収集条件入力画面510aは、更に、評価項目指定領域514を含む。評価項目指定領域514は、ワークスペースのばらつきの状態をどの項目(意味)において評価するのかを示す文字列(以下、当該文字列を「評価項目」という。)の入力(指定)を受け付けるための領域である。
図15では、「機能」という文字列が入力された例が示されている。なお、評価項目としては、単語だけではなく、自由な文字列(例えば、文等)が入力されてもよい。
【0104】
検索ボタン513がユーザによって押下されると、表示制御部31は、入力されたクエリ(対象クエリ)、指定されたばらつき評価基準(対象ばらつき評価基準)及び入力された評価項目(第2の文字列の一例。以下、「対象評価項目」という。)を情報収集条件として含む情報収集要求を情報収集装置10へ送信する。
【0105】
ステップS170aにおいて、ばらつき評価部125は、収集されたワークスペースごとに、指定に応じたばらつきの状態を評価する。指定に応じたばらつき状態の評価とは、評価項目が入力されていない場合には、第1の実施の形態と同様にばらつき状態を評価することを意味し、対象評価項目(第2の文字列の一例)が入力された場合には、各ワークスペースに属する文書ベクトル(第1の特徴情報の一例)について対象評価項目(第2の文字列の一例)の特徴におけるばらつきの状態を評価することを意味する。対象評価項目の特徴におけるばらつきの状態とは、対象評価項目の意味ベクトルに対応する軸(以下、「評価軸」という。)上におけるばらつきの状態をいう。
【0106】
図16は、評価軸上におけるワークスペースのばらつきの状態の評価を説明するための図である。
図16には、
図8と同様に、意味空間が便宜的に2次元によって表現されている。
【0107】
評価軸は、意味空間上において評価項目の意味ベクトルに対応する軸である。評価軸上におけるワークスペースのばらつきの状態とは、当該ワークスペースに属する各文書データの、評価軸上における(評価項目に関する)意味的なばらつきの状態をいう。ばらつき評価部125は、当該各文書データの各文書ベクトルを1次元の評価軸上に射影することで得られるスカラー値の分散を算出することで、評価軸上におけるワークスペースのばらつきの状態を評価する。すなわち、第2の実施の形態では、当該分散の値がばらつき度である。
【0108】
ステップS180以降では、ステップS170aにおいて算出されたばらつき度を利用して第1の実施の形態と同様の処理が実行される。
【0109】
上述したように、第2の実施の形態によれば、特定の意味(空間)において各ワークスペースのばらつきの状態を評価し、その評価結果に基づいてワークスペースの収集結果の表示態様を変化させることができる。
【0110】
次に、第3の実施の形態について説明する。第3の実施の形態では第2の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第2の実施の形態と同様でもよい。
【0111】
第3の実施の形態では、予め、ばらつきの状態の評価方法に関して設定情報が設定される。当該設定情報は、例えば、
図17に示されるような設定画面を介してユーザによって設定される。
【0112】
図17は、第3の実施の形態における設定画面の一例を示す図である。
図17が示すように、設定画面530は、設定領域531~534を含む。
【0113】
設定領域531は、収集条件入力画面510a(
図15)のばらつき評価基準指定領域512におけるばらつき評価基準の指定を有効とするか否かの設定(以下、「評価基準指定設定」という。)を受け付けるために領域である。設定領域531において「有効」が選択されなかった場合、ばらつき評価基準指定領域512は、例えば、グレーアウトされて操作不能となる。又は、ばらつき評価基準指定領域512は操作可能であるが、ばらつき評価基準の指定が無効とされてもよい。
【0114】
設定領域532は、収集条件入力画面510a(
図15)の評価項目指定領域514における評価項目の指定を有効とするか否かの設定(以下、「評価項目指定設定」という。)を受け付けるために領域である。設定領域531において「有効」が選択されなかった場合、評価項目指定領域514は、例えば、グレーアウトされて操作不能となる。又は、評価項目指定領域514は操作可能であるが、評価項目の指定が無効とされてもよい。
【0115】
設定領域533は、検索結果画面520(
図11)のばらつき評価基準表示領域521におけるばらつき評価基準の変更を有効とするか否かの設定(以下、「評価基準変更設定」という。)を受け付けるために領域である。設定領域533において「有効」が選択されなかった場合、ばらつき評価基準表示領域521は、例えば、グレーアウトされて操作不能となる。又は、ばらつき評価基準表示領域521は操作可能であるが、ばらつき評価基準の指定が無効とされてもよい。
【0116】
設定領域534は、ばらつき度の精度に関する設定(以下、「ばらつき度精度設定」という。)を受け付けるための領域であり、選択肢として「精度優先」、「速度優先」及び「ハイブリッド」が有る。「精度優先」は、ステップS150において収集された全てのワークスペースについて現在のばらつき度を計算することを意味する。「速度優先」は、定期的(例えば、毎日夜間)に(つまり、入力情報が入力される前に)全てのワークスペースのばらつき度(第1の実施の形態におけるばらつき度)をバッチ的に計算しておき、情報収集要求を受け付けた際には前日の計算結果を利用することを意味する。「ハイブリッド」は、「精度優先」と「速度優先」との組み合わせを意味する。具体的には、「ハイブリッド」は、ステップS150において収集されたワークスペースのうち、クエリとの類似度が上位の一部のワークスペースについては現在のばらつき度を計算し、その他のワークスペースについては前日の計算結果を利用することを意味する。すなわち、ばらつき度精度設定は、ばらつきの状態について情報収集要求後の評価結果を採用するか、情報収集要求の前の評価結果を取得するかについての設定でもある。なお、各ワークスペースは編集(文書データの追加や削除等)が可能であるため、時間の経過に応じてばらつき度が変化しうる。
【0117】
設定画面530に対する設定結果は、例えば、補助記憶装置102に記憶される。
【0118】
図18は、第3の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
図18中、
図14と同一ステップには同一ステップ番号を付し、その説明は省略する。
図18では、
図14のステップS160がステップS160aに置き換わり、
図14のステップS170aがステップS171~S174に置き換わる。
【0119】
ステップS160aにおいて、ばらつき評価部125は、評価基準指定設定又は評価基準変更設定が「有効」であり(条件1)、かつ、対象収集要求に含まれているばらつき評価基準(以下、「対象ばらつき評価基準」という。)の値が0でない(条件2)という2つの条件が満たされているか否かを判定する(S160)。なお、ステップS160aが、収集条件入力画面510a(
図15)の操作に応じて実行される場合、条件1は、評価基準指定設定が「有効」であるという条件になる。ステップS160aが、検索結果画面520(
図11)のばらつき評価基準表示領域521の操作に応じて実行される場合、条件1は、評価基準変更設定が「有効」であるという条件になる。
【0120】
条件1及び条件2の少なくともいずれか一方が満たされない場合(S160aでNo)、ステップS190へ進む。この場、ばらつき状態の評価は行われない。
【0121】
条件1及び条件2の双方が満たされる場合(S160aでYes)、ばらつき評価部125は、ばらつき度精度設定(予め設定された情報の一例)に応じて処理を分岐させる(S171)。
【0122】
ばらつき度精度設定が「ハイブリッド」である場合(S171で「ハイブリッド」)、ばらつき評価部125は、指定に応じたばらつき状態をハイブリッド形式で評価する(S172)。指定に応じたばらつき状態の評価とは、評価項目指定設定及び収集条件入力画面510a(
図15)に対する評価項目の指定に応じたばらつき状態の評価をいう。ハイブリッド形式でのばらつき状態の評価とは、収集されたワークスペースの中で対象クエリとの類似度が上位の一部(例えば、上位M件)のワークスペース(以下、「上位ワークスペース」という。)についてのみ、現時点でのばらつき状態を評価することをいう。したがって、評価項目指定設定が「有効」でない場合、又は評価項目が指定(入力)されていない場合、ばらつき評価部125は、上位ワークスペースについては
図4のステップS170と同様にばらつき度を算出し、収集されたワークスペースの中で上位ワークスペース以外のワークスペース(以下、「下位ワークスペース」という。)については過去(例えば、前日)に算出されているばらつき度を評価結果(入力情報が入力されるにおけるばらつきの状態の評価結果)とする。一方、評価項目指定設定が「有効」であり、かつ、評価項目が指定(入力)されている場合、ばらつき評価部125は、各上位ワークスペースについては
図14のステップS170aと同様にばらつき度を算出し、下位ワークスペースについてはばらつき度を0とする。定期的なばらつき状態での評価においては、評価項目が未知であるため、評価項目に応じばらつき状態は過去(例えば、前日)に評価できないからである。
【0123】
又は、ばらつき度精度設定が「精度優先」である場合(S171で「精度優先」)、ばらつき評価部125は、指定に応じたばらつき状態を精度優先で評価する(S173)。指定に応じたばらつき状態の評価については、ステップS172において説明した通りである。精度優先でのばらつき状態の評価とは、収集された全てのワークスペースについて現時点でのばらつき状態を評価することをいう。したがって、評価項目指定設定が「有効」でない場合、又は評価項目が指定(入力)されていない場合、ばらつき評価部125は、収集された各ワークスペースについて
図4のステップS170と同様にばらつき度を算出する。一方、評価項目指定設定が「有効」であり、かつ、評価項目が指定(入力)されている場合、ばらつき評価部125は、収集された各ワークスペースについては
図14のステップS170aと同様にばらつき度を算出する。
【0124】
又は、ばらつき度精度設定が「速度優先」である場合(S171で「速度優先」)、ばらつき評価部125は、指定に応じたばらつき状態を速度優先で評価する(S174)。指定に応じたばらつき状態の評価については、ステップS172において説明した通りである。速度優先でのばらつき状態の評価とは、収集された全てのワークスペースについて過去(例えば、前日)に算出されているばらつき度を評価結果とすることをいう。したがって、評価項目指定設定が「有効」でない場合、又は評価項目が指定(入力)されていない場合、ばらつき評価部125は、収集された各ワークスペースについて過去(例えば、前日)に算出されているばらつき度を評価結果とする。一方、評価項目指定設定が「有効」であり、かつ、評価項目が指定(入力)されている場合、ばらつき評価部125は、この場合におけるハイブリッドでの評価と同様に、収集された各ワークスペースのばらつき度を算出する。したがって、この場合、下位ワークスペースのばらつき度は0となる。
【0125】
ステップS172、S173又はS174に続いてステップS180へ進む。
【0126】
なお、ばらつき評価部125は、「ハイブリッド」又は「精度優先」の場合において、現時点でのばらつき度を算出する場合であっても、ばらつき度の算出対象のワークスペースの構成が過去(例えば、前日)におけるばらつき度の算出時から変化していないワークスペースについては、当該ばらつき度を評価結果として採用してもよい。
【0127】
上述したように、第3の実施の形態によれば、ワークスペースのばらつきの状態の評価方法を設定情報に応じて変化させることができる。したがって、ユーザは、ワークスペースのばらつき状態の評価方法を自らの意志でコントロールすることができる。例えば、高速に検索結果を得たいユーザは、ばらつき度精度設定を「速度優先」に設定すればよい。検索結果に正確性を求めるユーザは、ばらつき度精度設定を「精度優先」に設定すればよい。検索の処理時間を或る程度抑えつつ、その時点での最新の情報に基づく検索結果を得たいユーザは、ばらつき度精度設定を「ハイブリッド」に設定すればよい。
【0128】
次に、第4の実施の形態について説明する。第4の実施の形態では第2の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第2の実施の形態と同様でもよい。
【0129】
第4の実施の形態では、第2の実施の形態における
図14を参照して処理手順を説明する。第4の実施の形態では、ステップS110a及びS170aの内容が第2の実施の形態と異なる。
【0130】
具体的には、ステップS110aにおいて、ユーザ端末30の表示制御部31は、
図19に示される収集条件入力画面を介して収集条件の入力をユーザから受け付ける。
【0131】
図19は、第4の実施の形態における収集条件入力画面の一例を示す図である。
図19中、
図15と同一部分には同一符号を付し、その説明は省略する。
図19が示すように、収集条件入力画面510bは、評価項目指定領域514の代わりに除去項目指定領域515を含む。除去項目指定領域515は、ワークスペースのばらつきの状態をどの項目(意味)を除去(捨象)した意味空間において評価するのかを示す文字列(以下、当該文字列を「除去項目」という。)の入力(指定)を受け付けるための領域である。
図19では、「制御」という文字列が入力された例が示されている。なお、除去項目としては、単語だけではなく、自由な文字列(文)が入力されてもよい。
【0132】
検索ボタン513がユーザによって押下されると、表示制御部31は、入力されたクエリ(対象クエリ)、指定されたばらつき評価基準(対象ばらつき評価基準)及び入力された除去項目(以下、「対象除去項目」という。)を情報収集条件として含む情報収集要求を情報収集装置10へ送信する。
【0133】
ステップS170aにおいて、ばらつき評価部125は、収集されたワークスペースごとに、指定に応じたばらつきの状態を評価する。指定に応じたばらつき状態の評価とは、除去項目が入力されていない場合には、第1の実施の形態と同様にばらつき状態が評価されることを意味し、対象除去項目(第3の文字列の一例)が入力されている場合には、各ワークスペースに属する文書ベクトル(第1の特徴情報の一例)について、当該文書ベクトルから対象除去項目の特徴を除去した場合のばらつきの状態を評価することを意味する。対象除去項目の特徴を除去した場合のばらつきの状態とは、対象除去項目が除去された意味空間上におけるばらつきの状態をいう。
【0134】
図20は、除去項目が除去された意味空間上におけるワークスペースばらつきの状態の評価を説明するための図である。
図16には、
図8と同様に、意味空間が便宜的に2次元によって表現されている。
【0135】
除去項目が除去された意味空間とは、意味空間上において除去項目の意味ベクトルに対応する軸(以下、「除去軸」という。)に対する補空間である。なお、
図20では、意味空間が2次元で表現されているため、除去軸に対する補空間は1次元の直線によって表現されているが、実際には、補空間は意味空間の全空間(意味ベクトルの全次元)から除去軸に対応する1次元が除去された次元数を有する空間となる。例えば、意味空間(意味ベクトル)が1024次元である場合、補空間は1023次元となる。
【0136】
補空間上におけるワークスペースのばらつきの状態とは、当該ワークスペースに属する各文書データの各文書ベクトルを当該補空間上に射影することで得られるベクトル(以下、「補空間文書ベクトル」という。)の意味的なばらつきの状態をいう。ばらつき評価部125は、補空間文書ベクトルを文書ベクトルの代わりに用いて、第1の実施の形態と同様の方法で、各ワークスペースのばらつき度を算出する。すなわち、当該ばらつき度は、累積寄与度の閾値までに達する、主成分の数に基づく。
【0137】
ステップS180以降では、ステップS170aにおいて算出されたばらつき度を利用して第1の実施の形態と同様の処理が実行される。
【0138】
例えば、
図9が示すワークスペースを例とすると、「複合機」が除去項目として指定された場合、「複合機」の意味ベクトルに対する補空間に3つのワークスペースのそれぞれに属する文書ベクトルが射影される。この時、「複合機」の意味ベクトルが除去された空間で3つのワークスペースのばらつきの状態が評価されることになる。「複合機の省エネ機能」及び「複合機の省エネ制御」は複合機に関する内容が大半であるため、補空間上では、「省エネ制御」に比べてより多くの情報が欠落することになる。よって、ばらつき状態評価基準が「拡張」の方向である場合、「省エネ制御」のワークスペースの総合スコアが高くなることが考えられる。
【0139】
なお、第4の実施の形態は、第3の実施の形態と組合わされてもよい。
【0140】
上述したように、第4の実施の形態によれば、除去項目に関する意味を除去した意味空間において、各ワークスペースのばらつきの状態を評価することができ、その評価結果に応じてワークスペースの収集結果の表示態様を変化させることができる。
【0141】
次に、第5の実施の形態について説明する。第5の実施の形態では第2又は第4の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第2又は第4の実施の形態と同様でもよい。第5の実施の形態では、第2の実施の形態における
図14を参照して処理手順を説明する。第5の実施の形態では、ステップS110a及びS170aの内容が第2の実施の形態と異なる。
【0142】
第5の実施の形態では、第2の実施の形態において説明した評価項目と、第4の実施の形態において説明した除去項目との双方の指定が可能とされる。ステップS110aにおいて、ユーザ端末30の表示制御部31は、
図19の収集条件入力画面510bに対して
図15に示した評価項目指定領域514が追加された収集条件入力画面を介して収集条件の入力をユーザから受け付ける。検索ボタン513がユーザによって押下されると、表示制御部31は、入力されたクエリ(対象クエリ)、指定されたばらつき評価基準(対象ばらつき評価基準)、入力された評価項目(以下、「対象評価項目」という。)、入力された除去項目(以下、「対象除去項目」という。)を情報収集条件として含む情報収集要求を情報収集装置10へ送信する。
【0143】
ステップS170aにおいて、ばらつき評価部125は、収集されたワークスペースごとに、指定に応じたばらつきの状態を評価する。指定に応じたばらつき状態の評価とは、評価項目及び除去項目の双方が入力されていない場合には、第1の実施の形態と同様にばらつき状態を評価することを意味する。評価項目が入力されて除去項目が入力されていない場合には、第2の実施の形態と同様にばらつき状態を評価することが、指定に応じたばらつき状態の評価に相当する。除去項目が入力されて評価項目が入力されていない場合には、第4の実施の形態と同様にばらつき状態を評価することが、指定に応じたばらつき状態の評価に相当する。
【0144】
評価項目(第2の文字列の一例)及び除去項目(第3の文字列の一例)の双方が入力された場合、ばらつき評価部125は、各ワークスペースに属する文書ベクトル(第1の特徴情報の一例)について、当該文書ベクトルから対象除去項目の特徴を除去した場合の対象評価項目の特徴におけるばらつきの状態を評価する。具体的には、ばらつき評価部125は、対象除去項目に対応する除去軸の補空間(除去項目の特徴を除去した意味空間)上における、対象評価項目に対応する評価軸に対して各ワークスペースに属する文書ベクトルを射影することで得られるスカラー値の分散を、各ワークスペースのばらつき度として算出する。
【0145】
ステップS180以降では、ステップS170aにおいて算出されたばらつき度を利用して第1の実施の形態と同様の処理が実行される。
【0146】
なお、第5の実施の形態は、第3の実施の形態と組合わされてもよい。
【0147】
上述したように、第5の実施の形態によれば、第2の実施の形態による効果と第4の実施の形態による効果とを合わせた効果を得ることができる。
【0148】
次に、第6の実施の形態について説明する。第6の実施の形態では第1の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第1の実施の形態と同様でもよい。
【0149】
図21は、第6の実施の形態における情報収集処理の処理手順の一例を説明するためのフローチャートである。
図21中、
図4と同一ステップには同一ステップ番号を付し、その説明は省略する。
【0150】
図21では、
図4におけるステップS110、S160、S170、S180及びS190が、ステップS110b、S160b、S170b、S180b及びS190bに置き換わる。
【0151】
第6の実施の形態における収集条件入力画面510(
図5)は、文書データの種別(以下、「データ種別」という。)ごとに、ばらつき評価基準指定領域512を含む。データ種別とは、文書データの内容や属性に基づいて区別される文書データの種類の別をいう。例えば、「議事録」、「仕様書」、「日報」等が種別の一例として挙げられる。また、文書データの出所(どこで記録されたのか)に基づいてデータ種別が区別されてもよい。例えば、特定の会議デバイスで記録された議事録であるか否かに基づいてデータ種別が区別されてもよい。各データ種別は、各文書データの文書IDに関連付けられて文書情報記憶部21に記憶されていてもよい。
【0152】
ステップS110bにおいて、ユーザ端末30の表示制御部31は、入力されたクエリに加えて、データ種別ごとのばらつき評価基準を情報収集条件として含む情報収集要求(対象収集要求)を情報収集装置10へ送信する。
【0153】
ステップS160bにおいて、ばらつき評価部125は、対象収集要求に含まれている全てのデータ種別のばらつき評価基準の値が0でないかを判定する。全てのデータ種別のばらつき評価基準が0である場合(S160bでNo)、ステップS190bへ進み、いずれかのばらつき評価基準が0でない場合(S160bでYes)、ステップS170b及びS180b実行された後でステップS190bへ進む。
【0154】
ステップS170bにおいて、ばらつき評価部125は、収集された各ワークスペースに属する文書データのうち、ばらつき評価基準が0ではないデータ種別に係る文書データの集合ごとに(つまり、当該データ種別ごとに)ばらつきの状態を評価する。或るデータ種別に係る文書データの集合についてのばらつき度の算出方法は、第1の実施の形態と同様である。
【0155】
例えば、或るワークスペースに、データ種別1の文書データ群とデータ種別2の文書データ群とが属しているとする。この場合、ばらつき評価部125は、データ種別1のばらつき評価基準が0でなければ、データ種別1の文書データ群について、第1の実施の形態におけるワークスペースのばらつき度の算出方法と同じ方法でばらつき度を算出する。ばらつき評価部125は、また、データ種別2のばらつき評価基準が0でなければ、データ種別1の文書データ群について、第1の実施の形態におけるワークスペースのばらつき度の算出方法と同じ方法でばらつき度を算出する。
【0156】
ステップS180bにおいて、ばらつき評価部125は、収集されたワークスペースごと、かつ、データ種別ごとに、当該データ種別に係るばらつき度を、当該データ種別に対して指定されたばらつき評価基準に基づいてばらつきスコアに変換する。ばらつき度のばらつきスコアへの変換方法は、第1の実施の形態と同様でよい。ステップS180bでは、ワークスペースごとではなく、各ワークスペースについてデータ種別ごとにばらつきスコアが算出される点が異なる。
【0157】
ステップS190bにおいて、総合評価部126は、収集されたワークスペースごとに総合スコアを算出する。或るワークスペースの総合スコアの算出方法は、当該ワークスペースと対象クエリとの類似度をxとし、当該ワークスペースに属するデータ種別のうちばらつき評価基準が指定されたデータ種別iのばらつきスコアをyiとし、当該ワークスペースに属するデータ種別iの数をKとした場合、例えば、以下のように算出されてもよい。
総合スコア=x'+Σ(αi×yi')÷K
ここで、Σは、当該ワークスペースに属する全てのデータ種別iについての(αi×yi')の総和である。x'、yi'は、x及びyiの尺度(最小値から最大値の範囲)を合わせるためにx、yiが正規化された値である。αiは、データ種別iに対するばらつき評価基準の絶対値である。
【0158】
ステップS210において、表示情報生成部は、類似性の評価結果と、データ種別ごとのばらつき評価基準に対してデータ種別ごとの文書ベクトル(第1の特徴情報の一例)のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる検索結果画面520の表示情報を生成する。
【0159】
なお、第6の実施の形態は、第2~第5の実施の形態と組合わされてもよい。
【0160】
上述したように、第6の実施の形態によれば、特定のデータ種別係る文書データの意味的なばらつきの状態に応じて、ワークスペースの収集結果の表示態様を変化させることができる。
【0161】
次に、第7の実施の形態について説明する。第7の実施の形態では第1の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第1の実施の形態と同様でもよい。
【0162】
図22は、第7の実施の形態における情報処理システムの機能構成例を示す図である。
図22中、
図3と同一部分には同一符号を付し、その説明は省略する。
【0163】
図22において、情報収集装置10は、更に、不足データ収集部129を有する。不足データ収集部129は、いずれかのワークスペース(集合の一例)に属する文書データ(データの一例)の文書ベクトル(第1の特徴情報の一例)に対する主成分分析によって得られる主成分のうち、寄与率が相対的に低い主成分に基づいてデータを収集することで、当該ワークスペースにおいて不十分なデータを収集する。ワークスペースとは、或るクエリに基づいて検索された文書情報(文書データ)の集合である。また、ワークスペースは、ユーザによって文書情報の追加又は削除が可能である。したがって、ワークスペースは、ユーザが何らかの意図を持って作成されたデータの集合であるといえる。不足データ収集部129は、斯かるユーザの意図に対して不十分であると推定されるデータに関する情報を、各種の情報源から収集する。
【0164】
図23は、第7の実施の形態において情報収集装置10が実行する処理手順の一例を説明するためのフローチャートである。
図23の処理手順は、例えば、検索結果画面520(
図16)の検索結果表示領域523においていずれかのワークスペース(以下、「対象ワークスペース」という。)の詳細ボタンの押下に応じて実行される。この場合、ユーザ端末30の表示制御部31は、対象ワークスペースのワークスペースIDを情報収集装置10へ送信する。
【0165】
情報収集装置10の受付部121が対象ワークスペースのワークスペースIDを受信すると、ばらつき評価部125は、対象ワークスペースのばらつきの状態を評価する(S301)。対象ワークスペースのばらつきの状態の評価方法は、
図4のステップS170と同様である。したがって、対象ワークスペースについて既にステップS170が実行されている場合、ステップS170における評価結果がステップS302以降において利用されてもよい。
【0166】
続いて、不足データ収集部129は、対象ワークスペースのばらつきの状態の評価において実行された主成分分析の結果に基づいて、対象ワークスペースについて不足している項目を特定する(S302)。具体的には、不足データ収集部129は、当該主成分分析によって得られた主成分のうち、寄与率が相対的に低い主成分(以下、「対象主成分」という。)を当該項目として特定する。例えば、寄与率が最下位からL個の主成分が対象主成分として特定される。なお、寄与率が閾値以下の主成分が対象主成分として特定されてもよい。
【0167】
続いて、不足データ収集部129は、それぞれの対象主成分に関連するデータを収集する(S303)。或る主成分に関連するデータとは、当該主成分と当該データの意味ベクトルとの類似度(例えば、コサイン類似度)が閾値以内であるデータをいう。このようなデータの候補は、文書データ、Webページ、若しくは書籍情報等、又はこれら全てでもよい。文書データについては、文書ベクトル記憶部141(
図6)に記憶されている各文書ベクトルが対象主成分との類似度の算出対象とされればよい。Webページについては、所定の方法でアクセスされる各Webページの表示内容のテキストの意味ベクトルが対象主成分との類似度の算出対象とされればよい。書籍情報については、予め登録されている書籍の販売サイトにおける書籍の紹介文の意味ベクトルが対象主成分との類似度の算出対象とされればよい。
【0168】
続いて、表示情報生成部127は、対象ワークスペースに対して不足データ収集部129が収集したデータの補充を促す(提案する)画面の表示情報を生成する(S304)。書籍情報については書籍の購入を促す情報(例えば、メッセージ)を含む表示情報が生成されてもよい。
【0169】
続いて、出力部128は、当該表示情報をユーザ端末30へ送信する(S305)。ユーザ端末30の表示制御部31は、当該表示情報に基づいて当該画面を表示する。ユーザは、当該画面を参照することで、対象ワークスペースに不足しているデータを確認することができる。
【0170】
上述したように、第7の実施の形態によれば、ワークスペースの内容を、ユーザの意図により沿ったものにするための支援を行うことができる。
【0171】
また、第2~第7の実施の形態によれば、第1の実施の形態と同様に、情報の収集に関する利便性をより向上させることができる。
【0172】
なお、情報収集装置10は、プロセッサ104を備えた装置であれば、汎用的なコンピュータに限定されない。情報収集装置10は、例えば、画像形成装置、PJ(Projector:プロジェクタ)、IWB(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。
【0173】
各実施形態のワークスペースは、機械学習の学習効果によって生成されたものでもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり,コンピュータが,データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0174】
各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0175】
各実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0176】
ある実施形態では、情報収集装置10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、ユーザ端末30は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0177】
さらに、情報収集装置10およびユーザ端末30は、開示された処理ステップ、例えば
図4、
図14、
図18、
図21、
図23を様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、ユーザ端末30によって実行され得る。同様に、所定のユニットの機能は、ユーザ端末30によって実行することができる。また、情報収集装置10とユーザ端末30の各要素は、1つのサーバ装置にまとめられていても良いし、複数の装置に分けられていても良い。
【0178】
なお、本実施の形態において、情報収集装置10は、情報処理装置及び情報処理システムの一例である。
【0179】
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0180】
本発明の態様は、例えば、以下の通りである。
<1>
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価部と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価部と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理装置。
<2>
前記表示情報生成部は、前記類似性の評価結果と、前記入力情報において指定されている前記ばらつきの状態に対する評価基準に対して前記第1の特徴情報のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する、
ことを特徴とする<1>記載の情報処理装置。
<3>
前記ばらつき評価部は、前記集合に属する前記データの前記第1の特徴情報に対する主成分分析によって得られる各主成分の寄与率と、前記寄与率の上位からの累積値に対する閾値とに基づいて、前記ばらつきの状態を評価する、
ことを特徴とする<1>又は<2>記載の情報処理装置。
<4>
前記ばらつき評価部は、予め設定された情報に応じて、前記入力情報が入力される前における前記ばらつきの状態の評価結果を取得する、
ことを特徴とする<1>乃至<3>いずれか記載の情報処理装置。
<5>
前記ばらつきの状態に対する評価基準は、ばらつきが大きいほど評価を高くするか、ばらつきが小さいほど評価を高くするか、ばらつきの状態を評価しないか、のいずれかを含む、
ことを特徴とする<2>記載の情報処理装置。
<6>
前記入力情報は、第2の文字列を含み、
前記ばらつき評価部は、前記第1の特徴情報について、前記第2の文字列の特徴におけるばらつきの状態を評価する、
ことを特徴とする<1>乃至<5>いずれか記載の情報処理装置。
<7>
前記表示情報生成部は、前記画面の表示情報を生成した後に前記評価基準が変更されると、前記類似性の評価結果と、変更後の前記評価基準に対して前記第1の特徴情報のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する、
ことを特徴とする<2>記載の情報処理装置。
<8>
前記入力情報は、第3の文字列を含み、
前記ばらつき評価部は、前記第1の特徴情報について、前記第3の文字列の特徴を除去した場合のばらつきの状態を評価する、
ことを特徴とする<1>乃至<7>いずれか記載の情報処理装置。
<9>
前記入力情報は、第2の文字列及び第3の文字列を含み、
前記ばらつき評価部は、前記第1の特徴情報について、前記第3の文字列の特徴を除去した場合の前記第2の文字列の特徴におけるばらつきの状態を評価する、
ことを特徴とする<1>乃至<8>いずれか記載の情報処理装置。
<10>
前記入力情報は、データの種別ごとに前記評価基準を含み、
前記ばらつき評価部は、複数の集合のそれぞれについて、当該集合に属する前記データの種別ごとに前記第1の特徴情報のばらつきの状態を評価し、
前記表示情報生成部は、前記類似性の評価結果と、前記データの種別ごとの前記評価基準に対して前記データの種別ごとの前記第1の特徴情報のばらつきの状態を適用した結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する、
ことを特徴とする<2>記載の情報処理装置。
<11>
いずれかの前記集合に属する前記データの前記第1の特徴情報に対する主成分分析によって得られる主成分のうち、寄与率が相対的に低い主成分に基づいてデータを収集する不足データ収集部と、
前記不足データ収集部が収集したデータに関する情報を出力する出力部と、
を有することを特徴とする<1>乃至<10>いずれか記載の情報処理装置。
<12>
前記出力部は、寄与率が相対的に低い主成分に基づいて収集されたデータに関する書籍の購入を促す情報を出力する、
ことを特徴とする<11>記載の情報処理装置。
<13>
前記表示情報生成部は、前記ばらつきの状態を示す画面の表示情報を生成する、
ことを特徴とする<1>乃至<12>いずれか記載の情報処理装置。
<14>
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価部と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価部と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成部と、
を有することを特徴とする情報処理システム。
<15>
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価手順と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価手順と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成手順と、
をコンピュータが実行することを特徴とする情報処理方法。
<16>
複数のデータごとに、前記データの特徴を示す第1の特徴情報と、入力情報において指定されている第1の文字列の特徴を示す第2の特徴情報との類似性を評価する類似性評価手順と、
複数の前記データの集合について、当該集合に属する前記データの前記第1の特徴情報のばらつきの状態を評価するばらつき評価手順と、
前記類似性の評価結果と、前記ばらつきの状態の評価結果とに応じた態様で前記集合を表示させる画面の表示情報を生成する表示情報生成手順と、
をコンピュータに実行させることを特徴とするプログラム。
【符号の説明】
【0181】
10 情報収集装置
20 情報管理装置
21 文書情報記憶部
22 ワークスペース記憶部
30 ユーザ端末
31 表示制御部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 プロセッサ
105 インタフェース装置
121 受付部
122 ベクトル変換部
123 類似性評価部
124 ワークスペース収集部
125 ばらつき評価部
126 総合評価部
127 表示情報生成部
128 出力部
129 不足データ収集部
141 文書ベクトル記憶部
B バス
【先行技術文献】
【特許文献】
【0182】