IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2024-132683情報処理装置、情報処理システム、情報処理方法及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132683
(43)【公開日】2024-10-01
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20240920BHJP
【FI】
G06F16/906
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023043554
(22)【出願日】2023-03-17
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】岩佐 圭祐
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FA03
(57)【要約】
【課題】データの分類に要する負担を軽減すること。
【解決手段】情報処理装置は、第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択部と、前記所属先の候補を示す情報を出力する出力部と、を有する。
【選択図】図3
【特許請求の範囲】
【請求項1】
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択部と、
前記所属先の候補を示す情報を出力する出力部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記候補選択部は、前記情報が示す前記候補の中から選択された候補に係る前記管理単位を分割する1以上のグループのそれぞれに属するデータの特徴量と、前記第1のデータの特徴量とに基づいて、前記第1のデータの配置先の候補とするグループを選択し、
前記出力部は、前記配置先の候補を示す情報を出力する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
複数の第2のデータのそれぞれの特徴量に基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする請求項1又は2記載の情報処理装置。
【請求項4】
前記候補選択部は、前記出力部が出力した情報が示す前記候補の中から選択された候補に係る前記管理単位を分割する1以上のグループのそれぞれに属するデータの特徴量と、前記第1のデータの特徴量とに基づいて、当該管理単位と同じグループによって分割された新たな前記管理単位において前記第1のデータの配置先の候補とするグループを選択し、
前記出力部は、前記配置先の候補を示す情報を出力する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項5】
前記候補選択部は、前記出力部が出力した情報が示す前記候補の中から選択された候補に係る前記管理単位を分割する1以上のグループのそれぞれに属するデータの特徴量と、前記第1のデータの特徴量とに基づいて、当該管理単位と同じデータが所属し、当該管理単位と同じグループによって分割された新たな前記管理単位において前記第1のデータの配置先の候補とするグループを選択し、
前記出力部は、前記配置先の候補を示す情報を出力する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項6】
前記候補選択部は、更に、前記第1のデータについていずれかの前記管理単位への割り当てを要求するユーザと前記複数の管理単位のそれぞれとの関連性に基づいて、前記一部の前記管理単位を選択する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項7】
前記候補選択部は、更に、前記第1のデータについていずれかの前記管理単位への割り当てを要求するユーザが属する組織において開催された会議と前記複数の管理単位のそれぞれとの関連性に基づいて、前記一部の前記管理単位を選択する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項8】
複数の第2のデータのそれぞれが関連する組織が、前記第2のデータについていずれかの前記管理単位への割り当てを要求するユーザが属する組織と同じであるか否かに基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする請求項1又は2記載の情報処理装置。
【請求項9】
複数の第2のデータのそれぞれが関連する組織に基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする請求項1又は2記載の情報処理装置。
【請求項10】
複数の第2のデータのそれぞれが関連する会議に基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする請求項1又は2記載の情報処理装置。
【請求項11】
前記管理単位は、前記データが、入力情報に対する共通性に基づいて分類されることで生成される、前記データの集合である、
ことを特徴とする請求項1記載の情報処理装置。
【請求項12】
前記グループは、前記管理単位に所属するデータの集合を前記データの特徴量の類似性に基づいて分割することで形成される、
ことを特徴とする請求項2記載の情報処理装置。
【請求項13】
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択部と、
前記所属先の候補を示す情報を出力する出力部と、
を有することを特徴とする情報処理システム。
【請求項14】
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択手順と、
前記所属先の候補を示す情報を出力する出力手順と、
をコンピュータが実行することを特徴とする情報処理方法。
【請求項15】
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択手順と、
前記所属先の候補を示す情報を出力する出力手順と、
をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来、組織慣習や個人の裁量で管理・整理をされてきたさまざまなデータも、例えば、管理対象とされるデータについて、フォルダ等のグループを利用して、ユーザが利用しやすい状態に分類されて管理することで、ユーザは、必要なデータ(例えばユーザの担当または関心分野ごとに収集したい情報または知識)の所在を容易に特定することができ、業務等の効率化を図ることができる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、ユーザは、新たに管理対象とするデータが発生するたびに、当該データをいずれのグループへ割り当てるべきであるかを考えなければならない。このような負担は、グループの増加にともなって増加する。
【0004】
本発明は、上記の点に鑑みてなされたものであって、データの分類に要する負担を軽減することを目的とする。
【課題を解決するための手段】
【0005】
そこで上記課題を解決するため、情報処理装置は、第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択部と、前記所属先の候補を示す情報を出力する出力部と、を有する。
【発明の効果】
【0006】
データの分類に要する負担を軽減することができる。
【図面の簡単な説明】
【0007】
図1】第1の実施の形態における情報収集システムの構成例を示す図である。
図2】第1の実施の形態における情報収集装置10のハードウェア構成例を示す図である。
図3】第1の実施の形態における情報収集システムの機能構成例を示す図である。
図4】情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。
図5】収集条件入力画面の一例を示す図である。
図6】文書ベクトル記憶部141の構成例を示す図である。
図7】文書情報記憶部22の構成例を示す図である。
図8】文書情報のソート結果の一例を示す図である。
図9】検索結果画面の表示例を示す図である。
図10】登録先照会画面の表示例を示す図である。
図11】ワークスペース生成方法照会画面の表示例を示す図である。
図12】ワークスペース記憶部23の構成例を示す図である。
図13】ワークスペース詳細画面の表示例を示す図である。
図14】既存のワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
図15】ワークスペース抽出方法照会画面の表示例を示す図である。
図16】ワークスペース検索画面の表示例を示す図である。
図17】ワークスペースの検索結果の表示例を示す図である。
図18】第1の実施の形態における関連ワークスペースの検索処理の処理手順の一例を説明するためのフローチャートである。
図19】グループごとの関連度の算出処理の処理手順の一例を説明するためのフローチャートである。
図20】2つの文書データのTF-IDFの一例を示す図である。
図21】関連ワークスペース一覧画面の表示例を示す図である。
図22】既存のワークスペースへ登録する場合のプレビュー画面の表示例を示す図である。
図23】既存のワークスペースが登録先である場合のワークスペース編集画面の初期状態の表示例を示す図である。
図24】グループへの配置方法の選択を受け付けるためのワークスペース編集画面の表示例を示す図である。
図25】登録対象の全ての文書情報について提案に基づく配置状態を示すワークスペース編集画面の表示例を示す図である。
図26】一つの文書情報についての配置先を提案するワークスペース編集画面の表示例を示す図である。
図27】関連グループに対応する選択肢が選択された場合のワークスペース編集画面の更新例を示す図である。
図28】新規グループに対応する選択肢が選択された場合のワークスペース編集画面の更新例を示す図である。
図29】登録対象の文書情報の配置先をユーザの任意によって決定する例を説明するための図である。
図30】空の新規ワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
図31】新規ワークスペースに登録する場合のワークスペース編集画面の初期状態の表示例を示す図である。
図32】グループへの第1の分割結果を示すワークスペース編集画面の表示例を示す図である。
図33】グループへの第2の分割結果を示すワークスペース編集画面の表示例を示す図である。
図34】登録先が空の新規ワークスペースである場合に登録対象の文書情報の配置先をユーザの任意によって決定する例を説明するための図である。
図35】グループ構成をコピーした新規ワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
図36】既存のワークスペースのグループ構成をコピーした新規ワークスペースへ登録する場合のプレビュー画面の表示例を示す図である。
図37】グループ構成をコピーした新規ワークスペースが登録先である場合のワークスペース編集画面の初期状態の表示例を示す図である。
図38】既存のワークスペースの全部をコピーした新規ワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
図39】既存のワークスペースの全部をコピーした新規ワークスペースへ登録する場合のプレビュー画面の表示例を示す図である。
図40】全部をコピーした新規ワークスペースが登録先である場合のワークスペース編集画面の初期状態の表示例を示す図である。
図41】第2の実施の形態における情報収集システムの構成例を示す図である。
図42】第2の実施の形態における情報収集システムの機能構成例を示す図である。
図43】第2の実施の形態における関連ワークスペースの検索処理の処理手順の一例を説明するためのフローチャートである。
図44】社員情報記憶部24の構成例を示す図である。
図45】会議情報記憶部25の構成例を示す図である。
【発明を実施するための形態】
【0008】
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第1の実施の形態における情報収集システムの構成例を示す図である。図1において、情報収集システムは、情報管理装置20、情報収集装置10及び1以上のユーザ端末30等を含む。情報収集装置10は、ネットワークN1を介して情報管理装置20に接続する。ユーザ端末30は、ネットワークN2を介して情報管理装置20に接続し、ネットワークN3を介して情報収集装置10に接続する。
【0009】
ユーザ端末30は、或る情報の収集(或る情報へのアクセス)等を行うユーザが利用する端末である。例えば、PC(Personal Computer)、タブレット端末又はスマートフォン等がユーザ端末30として利用されてもよい。本実施の形態では、文書情報が、ユーザが収集する情報の種別の一例として挙げられる。
【0010】
文書情報とは、文書が記録されている電子的なデータ(以下、「文書データ」という。)に関する属性情報又は書誌情報等を含む情報である。文書とは、1以上の単語又は文の集合である(また、当然ながら英数字等その他多言語が含まれていてもよい)。文書データは、文を表現できる形式であればどの様な形式のデータであってもよい。例えば、文書データは、文書をテキスト形式で表現するデータであってもよいし、特定のアプリケーションに特化した形式のデータであってよい。又は、文書データは、単語又は文そのものや単語又は文に対応する概念を画像、音声又は映像(動画)等によって表現するデータであってもよい。すなわち、文書データは、画像データ、音声データ又は映像データであってもよい。更に、文書データの保存形式も特定のものに限定されない。例えば、文書データはファイルに格納されて保存されてもよいし、データベースのレコードとして保存されてもよいし、他の形式で保存されてもよい。
【0011】
或る知識に関する文書情報が収集される場合、ユーザは、例えば、当該文書情報に係る文書データを閲覧等することで、所望の知識を得ることができる。
【0012】
情報管理装置20は、収集対象とされる情報(文書情報)を記憶等すると共に、収集された文書情報(文書データ)を分類して管理するためのワークスペース等を記憶する1以上のコンピュータである。ワークスペースとは、収集された文書情報(データの一例。所属済データと言ってもよい。)が、入力情報に対する共通性に基づいて分類されることで生成される、文書情報の集合であり、管理単位の一例である。したがって、複数のワークスペースが生成されうる。1つのワークスペースには1以上の文書情報(文書データ)が所属する。入力情報に対する共通性とは、例えば、同じクエリ(入力情報の一例)に関して収集されたことで共通性を持つことをいう。クエリとは、文書情報の収集の際にユーザによって指定される、収集対象とする文書情報を自然言語で表現する文字列といい、本実施の形態では文書情報の収集条件の一部を構成する。一つのワークスペースは、1以上のグループを含む。グループとは、ワークスペース(管理単位の一例)に所属する文書情報(データの一例。所属済データと言ってもよい。)の集合を各文書情報の特徴量(後述の文書ベクトル)の類似性に基づいて分割することで形成される1以上の文書情報の集合(グループ)である。1つのグループは1以上の文書情報を含む。
【0013】
情報収集装置10は、ユーザによって入力される文書情報の収集条件に基づいて、当該収集条件に合致する文書情報を情報管理装置20から収集する1以上のコンピュータである。情報収集装置10は、また、収集した文書情報の分類を支援するための処理を実行する。
【0014】
なお、情報管理装置20及び情報収集装置10は、同じコンピュータを用いて実現されてもよい。この場合、ネットワークN1は、情報管理装置20及び情報収集装置10を構成するコンピュータ内のバス等の信号線に相当する。又は、各ユーザ端末30が情報収集装置10を兼ねてもよい。この場合、ネットワークN3は、ユーザ端末30内のバス等の信号線に該当する。
【0015】
情報収集システムが利用されるシーン(状況)は、所定の形態に限定されないが、例えば、企業内において利用されてもよい。すなわち、企業における各社員(企業のほか官公庁、各種団体、組合等を含み、社員のほか派遣社員、パート、アルバイト等も含む)がユーザであってもよい(本実施の形態では、企業における各社員をユーザとして説明されるがこれに限定されるものではなく、一般ユーザにより本情報収集システムが利用される場合にも適用することができる。)。
【0016】
この場合、情報管理装置20は、企業内の各種情報を管理するコンピュータ群である。例えば、情報管理装置20は、企業内において作成される各種の文書データに関する文書情報や、企業名の組織構成に関す情報や、企業内における各社員に関する情報や、企業内において行われた情報の収集に基づいて生成されるワークスペース等を管理する。情報管理装置20は、また、企業内における社員間の業務上の電子的なやりとり(電子メールやチャット等)を管理してもよい。この場合、ネットワークN2は、例えば、企業内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。
【0017】
情報収集装置10は、企業内に設置されてもよいし、企業外(企業内のネットワークとインターネットを介して接続されるクラウド環境等(例えば、データセンタ等))に設置されてもよい。情報収集装置10が企業内に設置される場合、ネットワークN1及びネットワークN3は、例えば、企業内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。情報収集装置10が企業内に設置される場合、ネットワークN1及びネットワークN3は、例えば、インターネットに相当する。なお、情報収集装置10は、企業外において公開されている情報から、ユーザが所望する情報を収集してもよい。
【0018】
図2は、第1の実施の形態における情報収集装置10のハードウェア構成例を示す図である。図2の情報収集装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
【0019】
情報収集装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0020】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って情報収集装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
【0021】
なお、情報管理装置20及びユーザ端末30も図2と同様のハードウェア構成を有してもよい。
【0022】
図3は、第1の実施の形態における情報収集システムの機能構成例を示す図である。図3において、ユーザ端末30は、表示制御部31を有する。表示制御部31は、ユーザ端末30にインストールされた1以上のプログラム(例えば、Webブラウザのプログラム)が、ユーザ端末30のプロセッサに実行させる処理により実現される。
【0023】
表示制御部31は、情報収集装置10から送信される表示情報に基づいて画面を表示したり、当該画面に対する入力に応じた要求を情報収集装置10へ送信したりする。
【0024】
情報管理装置20は、文書管理部21を有する。文書管理部21は、情報管理装置20にインストールされた1以上のプログラムが、情報管理装置20のプロセッサに実行させる処理により実現される。情報管理装置20は、また、文書情報記憶部22及びワークスペース記憶部23等を利用する。これら各記憶部は、例えば、情報管理装置20の補助記憶装置、又は情報管理装置20にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
【0025】
文書管理部21は、文書情報記憶部22に記憶されている複数の文書情報について、登録、更新又は削除等を行う。
【0026】
ワークスペース記憶部23は、ワークスペースに関する情報を記憶する。或るワークスペースに関する情報とは、例えば、当該ワークスペースに所属する文書情報の集合や当該集合を分割するグループに関する情報等である。
【0027】
情報収集装置10は、受付部121、ベクトル変換部122、比較部123、文書収集部124、ワークスペース収集部125、分類部126、ラベル付与部127、候補選択部128、ワークスペース生成部129、ワークスペース編集部130、表示情報生成部131及び出力部132等を有する。これら各部は、情報収集装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。情報収集装置10は、また、文書ベクトル記憶部141を利用する。文書ベクトル記憶部141は、例えば、補助記憶装置102、又は情報収集装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
【0028】
受付部121は、ユーザが所望する情報の収集要求をユーザ端末30から受信する(受け付ける)。情報の収集要求は、情報の収集に関する条件(収集条件)を含む。収集条件は、収集対象とする情報の種別(以下、「情報種別」という。)と、収集対象とする情報を自然言語で表現する文字列(以下、「クエリ」という。)とを含む。
【0029】
本実施の形態において、情報種別の選択肢は、例えば、「文書」、「ワークスペース」である。「文書」は、文書情報に対応する情報種別である。「ワークスペース」は、ワークスペースに対応する情報種別である。
【0030】
クエリは、例えば、1以上の単語の集合である。クエリは、1以上の単語の羅列であってもよいし、1以上の文の形式を有してもよい。
【0031】
ベクトル変換部122は、収集条件に含まれるクエリや、文書情報記憶部22に記憶されている各文書情報に係る文書データを解析して、クエリ又は文書データを特徴量へ変換する。本実施の形態では、特徴量の一例として、ベクトル形式のデータ(以下、単に「ベクトル」という。)が用いられる。ベクトルは、分散表現又は埋め込み表現とも呼ばれ、変換元のデータ(クエリ又は文書データ等)が含む意味に応じた特徴量である。例えば、ベクトル変換部122は、BERTなど自然言語処理を用いてベクトルを生成する。ユーザの属性を利用してBERTのモデルが切り替えられてもよい。ベクトル変換部122は、各文書データのベクトルを予め生成し、文書ベクトル記憶部141に記録しておく。以下、クエリに基づくベクトルを「クエリベクトル」といい、文書データに基づくベクトルを「文書ベクトル」という。
【0032】
比較部123は、クエリベクトルと各文書ベクトルとを比較して、各文書ベクトルについてクエリベクトルとの類似性を評価する。本実施の形態において、類似性の評価の指標を「類似度」という。
【0033】
文書収集部124は、クエリベクトルと各文書ベクトルとの比較結果である文書ベクトルごとの類似度に基づいて、クエリに関連する文書情報(文書データ)を抽出(収集)する。
【0034】
なお、比較部123で行われる「比較」処理を「検索」と称してもよく、比較部123による比較結果を検索結果としてもよい。またその場合、情報の収集を情報の検索又は単に検索と称してもよい。
【0035】
ワークスペース収集部125は、文書収集部124によって収集された文書情報の所属先として、既存のワークスペース、又は既存のワークスペースに基づく新規なワークスペースが指定された場合に、所属先の候補となる既存のワークスペース、又は新規なワークスペースの元となる既存のワークスペースをワークスペース記憶部23から収集(検索)する。
【0036】
分類部126は、文書収集部124によって収集された文書情報の登録先として、新規な空のワークスペースが指定された場合に、文書収集部124によって抽出された複数の文書情報(文書データ。第2のデータの一例)を、それぞれの文書ベクトル(特徴量の一例)に基づいて複数のグループに分類する。分類には、例えば、クラスタリングが用いられる。クラスがリングによって分類されるクラスが、ワークスペースを構成する一つのグループに相当する。なお、新規な空のワークスペースとは、既存のワークスペースを元としない新たなワークスペースをいう。
【0037】
ラベル付与部127は、文書収集部124によって収集された文書情報の登録先として新たに生成されるワークスペース又はグループに対してラベルを付与する。ラベル付与部127は、また、予め、各文書データの内容に基づいて、各文書データに対してラベルを付与する。各文書データへのラベルの付与結果は、文書情報記憶部22に記録される。本実施の形態において、ラベルとは、ラベルの付与対象とされる対象の特徴を(端的に)示す文字列(例えば、「単語」)をいう。
【0038】
候補選択部128は、文書収集部124によって収集された文書情報のワークスペース及びグループへの割り当てを支援する。具体的には、候補選択部128は、登録対象の文書情報(第1のデータの一例)の文書ベクトル(特徴量の一例)と、複数のワークスペース(管理単位の一例)に所属する文書情報(文書データ。1以上のデータの一例。所属済データと言ってもよい。)の文書ベクトル(特徴量の一例)とに基づいて、当該登録対象の文書情報の所属先の候補とする一部のワークスペースを選択する。候補選択部128は、また、当該ワークスペースの候補の中から所属先として選択されたワークスペースに属するグループ(管理単位を分割する1以上のグループの一例)のそれぞれに所属する文書情報(データの一例)の文書ベクトル(特徴量の一例)と、当該登録対象の文書情報(第1のデータの一例)の特徴量とに基づいて、選択されたワークスペースに属するグループの中から、当該文書情報(第1のデータの一例)の配置先の候補とするグループを選択する。又は、候補選択部128は、当該登録対象の文書情報の所属先の候補とする一部のワークスペースの候補の中から所属先として選択されたワークスペースに属するグループ(管理単位を分割する1以上のグループの一例)のそれぞれに所属する文書情報(データの一例)の文書ベクトル(特徴量の一例)と、当該登録対象の文書情報(第1のデータの一例)の特徴量とに基づいて、選択されたワークスペースと同じグループによって分割された新たなワークスペースにおいて当該登録対象の文書情報(第1のデータの一例)の配置先の候補とするグループを選択する。又は、候補選択部128は、当該登録対象の文書情報の所属先の候補とする一部のワークスペースの候補の中から所属先として選択されたワークスペースに属するグループ(管理単位を分割する1以上のグループの一例)のそれぞれに所属する文書情報(データの一例)の文書ベクトル(特徴量の一例)と、当該登録対象の文書情報(第1のデータの一例)の特徴量とに基づいて、選択されたワークスペースと同じ文書情報(データの一例)が所属し、当該ワークスペースとグループによって分割された新たなワークスペースにおいて当該登録対象の文書情報(第1のデータの一例)の配置先の候補とするグループを選択する。これにより当該文書情報についてワークスペース及びグループへの割り当てを支援する。なお、本実施の形態において、文書情報をワークスペースへ所属させることを、文書情報のワークスペースへの登録又は割り当てともいう。また、文書情報をグループへ配置することを、文書情報のグループへの登録又は割り当てともいう。
【0039】
ワークスペース生成部129(生成部の一例)は、文書収集部124によって収集された複数の文書情報を新規なワークスペースに所属させることが指示された場合、複数の文書情報(第2のデータの一例)が所属する新たなワークスペース(管理単位の一例)を生成し、当該ワークスペース(管理単位の一例)を、分類部126が分類した複数のグループによって分割する。この際、ワークスペース生成部129は、当該ワークスペースに対応する新たなレコードをワークスペース記憶部23に登録する。
【0040】
ワークスペース編集部130は、文書収集部124によって収集された文書情報を既存のワークスペースに所属させることが指示された場合、当該文書情報を既存のワークスペースに所属させるための変更をワークスペース記憶部23に反映する。
【0041】
表示情報生成部131は、ユーザ端末30に表示させるための表示情報を生成する。例えば、表示情報生成部131は、文書情報の収集結果を示す表示情報や、収集された文書情報についてワークスペース及びグループへの割り当てに関する指示をユーザから受け付けるための表示情報等を生成する。例えば、ユーザ端末30の表示制御部31がWebブラウザによって実現されるのであれば、Webページが表示情報の一例である。但し、他の形式によって表示情報が生成されてもよい。
【0042】
出力部132は、表示情報生成部131が生成した表示情報(所属先の候補を示す情報、配置先の候補を示す情報など)を出力し、ユーザ端末30へ送信する。
【0043】
なお、図3に示した機能構成(各機能の配置関係)は一例に過ぎない。各部の配置先の装置は、ユーザ端末30、情報収集装置10又は情報管理装置20のいずれかに適宜変更されてもよい。
【0044】
以下、情報処理システムが実行する処理手順について説明する。図4は、情報処理システムが実行する処理手順の一例を説明するためのフローチャートである。
【0045】
ステップS101において、ユーザ端末30の表示制御部31は、ユーザ端末30の表示装置に表示されている収集条件入力画面を介して、収集条件の入力をユーザから受け付ける。
【0046】
図5は、収集条件入力画面の一例を示す図である。図5が示すように、収集条件入力画面510は、情報種別選択領域511、クエリ入力領域512及び実行ボタン513等を含む。情報種別選択領域511は、情報種別の選択を受け付けるための領域である。本実施の形態において、情報種別の選択肢は、「文書」及び「ワークスペース」であるため、情報種別選択領域511は、「文書」及び「ワークスペース」に対応する選択肢を含むリストボックスであってもよい。図5本実施の形態では、「文書」が選択された場合について説明する。
【0047】
クエリ入力領域512は、クエリの入力を受け付けるための領域である。クエリの入力は、ユーザ端末30のキーボード等(タッチパネルによる直接入力を含む)を用いて行われてもよいし、ユーザ端末30のマイクを介して音声入力されてもよい。
【0048】
実行ボタン513は、情報収集の実行指示(検索実行)を受け付けるためのボタンである。
【0049】
なお、収集条件入力画面510は、例えば、ユーザによる情報収集装置10に対するログインに応じて、ユーザ端末30に表示されてもよい。以下、収集条件(検索条件)を入力するユーザを「ログインユーザ」という。ログインユーザは、収集された文書情報についてワークスペース及びグループへの割り当てを要求するユーザでもある。
【0050】
情報種別が選択され、クエリが入力された後で、実行ボタン513がログインユーザによって押下されると、表示制御部31は、選択された情報種別及び入力されたクエリを情報収集条件として含む情報収集要求を情報収集装置10へ送信する。
【0051】
情報収集装置10の受付部121が情報収集要求を受信すると、ベクトル変換部122は、当該情報収集要求(以下、「対象収集要求」という。)に含まれているクエリ(以下、「対象クエリ」という。)をクエリベクトルに変換する(S102)。
【0052】
続いて、比較部123は、情報管理装置20によって管理されている文書情報に係る文書データごとに、クエリベクトルと当該文書データに対応する文書ベクトルとを比較して、クエリベクトルと当該文書ベクトルとの類似度を算出する(S103)。情報管理装置20によって管理されている各文書データに対応する文書ベクトルは、文書ベクトル記憶部141に記憶されている。
【0053】
図6は、文書ベクトル記憶部141の構成例を示す図である。図6が示すように、文書ベクトル記憶部141は、文書データごとに文書ID、文書名及び文書ベクトルを記憶する。文書IDは、文書データに係る文書情報の識別情報であり、情報管理装置20における文書情報と文書ベクトル記憶部141の文書ベクトルとを関連付ける。文書名は、文書データの名称又はタイトルである。例えば、文書データがファイル形式で保存されている場合には、ファイル名が文書名として利用されてもよい。文書ベクトルは、クエリベクトルと同様に、文書データの内容の意味に応じたベクトル表現(例えば、分散表現又は埋め込み表現)である。
【0054】
クエリベクトルと文書ベクトルとの類似度は、一般的なベクトル間の類似度の算出と同様に、クエリベクトルと文書ベクトルとの角度(コサイン類似度)や距離を用いて算出可能である。例えば、コサイン類似度を用いる場合、ベクトルaとベクトルbとのコサイン類似度は、以下の式に基づいて算出可能である。
【0055】
【数1】
全ての文書ベクトルについてクエリベクトルとの類似度が算出されると、比較部123は、類似度が上位N件である文書ベクトルを抽出する(S104)。すなわち、クエリベクトルとの類似性が高い順においてN件の文書ベクトルが抽出される。なお、Nの値は、1以上の整数であって予め設定される。又は、類似度に対して閾値が設定され、類似度が当該閾値以上である文書ベクトルの件数がN件であってもよい。
【0056】
続いて、文書収集部124は、抽出されたN件の各文書ベクトルの文書IDに基づいて、各文書ベクトルに係る文書データの文書情報を文書情報記憶部22から取得(抽出)する(S105)。
【0057】
図7は、文書情報記憶部22の構成例を示す図である。図7が示すように、文書情報記憶部22は、文書ID、文書名、作成者、更新履歴、ファイルパス、概要、アクセス制御情報及びラベル一覧等を含む1以上のレコードを記憶する。1つのレコードは1つの文書情報に対応する。
【0058】
文書ID及び文書名及については上述した通りである。なお、同一の文書データに対する文書ID及び文書名は、文書情報記憶部22と文書ベクトル記憶部141とで同じである。
【0059】
作成者は、文書データの作成者の識別情報である。更新履歴は、文書データの更新ごとに、更新の日付と更新者の識別情報とを含む情報である。本実施の形態において、文書データの作成者又は更新者の識別情報は、情報管理装置20を利用する企業(以下、「企業X」という。)における社員IDであるとする。ファイルパスは、文書情報の実体である文書データを格納するファイルのパス名である。概要は、文書データが含む内容の概要(例えば、要約文)である。アクセス制御情報は、文書情報に対するアクセスを所定の範囲のユーザに制限するための情報である。換言すれば、アクセス制御情報は、各ユーザについてアクセス権限の有無を示す情報である。例えば、アクセス制御情報は、参照権限を有するユーザ又はユーザグループを示す情報と、書き込み権限を有するユーザ又はユーザグループを示す情報とを含んでもよい。ユーザグループとは、1以上のユーザの集合をいう。ラベル一覧は、ラベル付与部127によって文書データに付与されたラベル(以下、「文書ラベル」という。)の一覧である。文書データに含まれる単語の中からTF-IDF等を相対的に重要であると判定された単語が文書ラベルとされてもよい。
【0060】
ステップS105では、N件の文書情報のうち、ログインユーザにアクセス権限が有る文書情報が取得される。
【0061】
続いて、文書収集部124は、取得した文書情報を類似度の降順にソート(整列)する(S106)。
【0062】
図8は、文書情報のソート結果の一例を示す図である。図8には、類似度の降順に、文書名と類似度とが整列された例が示されている。
【0063】
続いて、表示情報生成部131は、ソート結果を文書情報の収集結果(検索結果)として表示するための表示情報を生成する(S107)。表示情報生成部131は、N件の文書データのうち、ログインユーザが参照権限を有する文書情報の作成者、更新履歴、ファイルパス、概要及びラベル一覧等に基づいて表示情報を生成する。
【0064】
続いて、出力部132は、表示情報をユーザ端末30へ送信(出力)する(S108)。ユーザ端末30の表示制御部31は、当該表示情報に基づいて文書収集の結果として検索結果画面を表示する。
【0065】
図9は、検索結果画面の表示例を示す図である。図9が示すように、検索結果画面520は、情報収集条件表示領域521及び検索結果表示領域522を含む。
【0066】
情報収集条件表示領域521は、対象収集条件を表示する領域であり、情報種別表示領域5211及びクエリ表示領域5212を含む。情報種別表示領域5211は、対象情報種別が表示される領域である。クエリ表示領域5212は、対象クエリが表示される領域である。なお、情報種別表示領域5211及びクエリ表示領域5212は操作可能であってもよい。この場合、情報種別表示領域5211及びクエリ表示領域5212を介して情報種別及びクエリの一部又は全部が変更されて実行ボタン5213が押下されると、図4のステップS101以降が再実行されてもよい。
【0067】
検索結果表示領域522は、N件の文書情報ごとに、作成者、更新者、ファイルパス、概要及びラベル一覧等が表示される領域である。なお、更新者は、例えば、更新履歴において最後の更新に係る更新者であってもよい。
【0068】
ログインユーザは、検索結果画面520を参照することで、対象収集条件に応じて収集された文書情報の一覧を確認することができる。
【0069】
ログインユーザは、収集結果に含まれる一部又は全部の文書情報を新規又は既存のワークスペースに登録することができる。収集結果をワークスペースに登録することは、収集結果をブックマークに登録することにたとえることもできる。この場合、ログインユーザは、検索結果画面520(図9)において文書情報ごとに配置されている選択部品525のうち、ワークスペースに登録したい文書情報に対応する選択部品525を選択する。例えば、ログインユーザは、1以上の文書情報をワークスペースへの登録対象として選択する。収集結果に含まれる全ての文書情報が選択されてもよい。1以上の選択部品525が選択された状態において、ワークスペースへの登録ボタン526が押下されると、ユーザ端末30の表示制御部31は、登録対象として選択された文書情報を新規及び既存のワークスペースのいずれに登録するのかをユーザに問い合わせる画面(以下、「登録先照会画面」という。)を表示する。
【0070】
図10は、登録先照会画面の表示例を示す図である。図10が示すように、登録先照会画面530は、ラジオボタン531及びOKボタン532を含む。ラジオボタン531は、選択肢531-1及び選択肢531-2を含み、いずれか一方の選択肢のみを選択可能な操作部品である。選択肢531-1は、文書情報の所属先を既存のワークスペースとする指示に対応する選択肢である。選択肢531-2は、文書情報の所属先を新規のワークスペースとする指示に対応する選択肢である。
【0071】
登録先照会画面530において選択肢531-1が選択された状態でOKボタン532が押下されると、表示制御部31は、既存のワークスペースへの登録要求を情報収集装置10へ送信する。
【0072】
一方、登録先照会画面530において選択肢531-2が選択された状態でOKボタン532が押下されると、表示制御部31は、新規のワークスペースの生成方法をユーザに問い合わせる画面(以下、「ワークスペース生成方法照会画面」という。)を表示する。
【0073】
図11は、ワークスペース生成方法照会画面の表示例を示す図である。図11が示すように、ワークスペース生成方法照会画面540は、ラジオボタン541及びOKボタン542を含む。ラジオボタン541は、選択肢541-1、選択肢541-2及び選択肢541-3を含み、いずれか一つの選択肢のみを選択可能な操作部品である。各選択肢は、新規のワークスペースの生成方法に対応する。本実施の形態では、文書情報の所属先とする新規のワークスペースの生成方法として、以下の3つの方法が有る。
【0074】
第1の方法は、空のワークスペースを生成する方法である。空のワークスペースとは、グループ及び文書情報が1つも所属していないワークスペースをいう。第1の方法を以下、「新規生成方法」という。
【0075】
第2の方法は、既存のワークスペースのグループ分け(グループの分類)のみをコピーして新規のワークスペースを生成する方法である。この場合、所属先(コピー先)のワークスペースの各グループには、コピー元の文書情報は含まれない。第2の方法を以下、「グループコピー生成方法」という。
【0076】
第3の方法は、既存のワークスペースのグループ分けのみならず、各グループに属する文書情報をもコピーして新規のワークスペースを生成する方法である。第3の方法を以下、「全部コピー生成方法」という。
【0077】
ワークスペース生成方法照会画面540において、ラジオボタン541におけるいずれかの選択肢が選択された状態でOKボタン542が押下されると、表示制御部31は、選択状態である選択肢に対応する生成方法と、登録対象として選択された1以上の文書情報の文書IDとを含む、ワークスペースへの登録要求を情報収集装置10へ送信する。
【0078】
図4のステップS109において、受付部121は、表示制御部31から送信された、既存のワークスペースへの登録要求又は新規のワークスペースへの登録要求を受信する。受信された登録要求が既存のワークスペースへの登録要求である場合(S110でYes)、情報収集装置10は、既存のワークスペースへの登録処理を実行する(S111)。
【0079】
一方、受信された登録要求が新規のワークスペースへの登録要求である場合(S110でNo)、当該登録要求に含まれている、新規のワークスペースの生成方法に応じて処理が分岐する。当該登録要求に「新規生成方法」が含まれている場合(S112でYes)、情報収集装置10は、空の新規ワークスペースへの登録処理を実行する(S113)。当該登録要求に「グループコピー生成方法」が含まれている場合(S112でNo、かつ、S114でYes)、情報収集装置10は、グループ構成をコピーした新規ワークスペースへの登録処理を実行する(S115)。当該登録要求に「全部コピー生成方法」が含まれている場合(S114でNo)、情報収集装置10は、既存のワークスペースの全部をコピーした新規ワークスペースへの登録処理を実行する(S116)。
【0080】
ステップS111、S113、S115又はS116の実行によりワークスペース記憶部23が更新される。
【0081】
図12は、ワークスペース記憶部23の構成例を示す図である。図12が示すように、ワークスペース記憶部23は、ワークスペースごとに、ワークスペースID、ワークスペース名、ラベル、作成者、更新者、クエリ、利用数、評価点、所属データID、所属データパス、所属グループラベル等を含むワークスペースを記憶する。
【0082】
ワークスペースIDは、ワークスペースの識別情報である。ワークスペース名は、ワークスペースの生成時にユーザによって入力されるワークスペースの名前である。作成者は、ワークスペースの生成を指示したユーザの識別情報(例えば、社員ID等)である。更新者は、ワークスペースが更新された場合に、その更新を行った者の識別情報(例えば、社員ID等)である。すなわち、ワークスペースは、更新を行うことが可能である。クエリは、ワークスペースの元となった文書情報の収集において入力されたクエリである。したがって、クエリは、ワークスペースがどのような観点に基づく文書情報の集合であるかを示す情報であるともいえる。利用数は、ワークスペースが利用された(参照された)回数である。評価点は、ワークスペースを参照したユーザによって入力される評価の値である。例えば、5段階評価での数値の平均値が評価点である。所属データID(識別情報)は、ワークスペースに所属する各文書情報の文書IDである。所属データパスは、ワークスペースに所属する各文書情報に係る文書データのファイルパスである。所属グループラベルは、所属データIDの列における各文書情報が所属するグループに対して付与されているラベル(以下、「グループラベル」という。)である。ワークスペース内において同じ所属グループに分類された文書情報に対しては、同じ所属グループラベルが保存される。
【0083】
以下、ワークスペース記憶部23において、ワークスペースIDごとのレコードを「ワークスペースレコード」という。また、1つのワークスペースレコード内において、所属グループラベル別のレコードを「グループレコード」という。また、1つのワークスペースレコード内において所属データIDごとのレコードを「文書レコード」という。
【0084】
例えば、ステップS111が実行された場合には、既存のワークスペースレコードに対して、登録対象の文書情報に係る所属データID及び所属データパス当該が追加される。一方、ステップS113、S115又はS116が実行された場合には、新たなワークスペースレコードがワークスペース記憶部23に追加され、当該ワークスペースレコードに対して、登録対象の文書情報に係る所属データID及び所属データパス当該が登録される。
【0085】
ステップS111、S113、S115又はS116に続いて、表示情報生成部131は、文書情報の登録先のワークスペース(以下、「対象ワークスペース」という。)の更新後のワークスペースレコードに基づいて、対象ワークスペースの詳細情報を示す画面(以下、「ワークスペース詳細画面」という。)の表示情報を生成する(S117)。すなわち、ここで生成されるワークスペース詳細画面は、登録対象の文書情報が登録された状態が反映されたワークスペースの詳細情報を示す画面である。
【0086】
続いて、出力部132は、当該表示情報をユーザ端末30へ送信する(S118)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース詳細画面を表示する。
【0087】
図13は、ワークスペース詳細画面の表示例を示す図である。図13が示すように、ワークスペース詳細画面550は、基本情報表示領域551、構成表示領域552及び所属文書表示領域553等を含む。
【0088】
基本情報表示領域551は、対象ワークスペースについてワークスペース記憶部23に記憶されている情報と、編集ボタン5511及び評価ボタン5512とを含む領域である。
【0089】
構成表示領域552は、対象ワークスペース(図12)の所属グループラベル及び所属データIDに基づいて特定可能な、対象ワークスペースに所属する文書情報群と、当該文書情報群を分割するグループとの関係を示す情報を含む領域である。図13では、対象ワークスペースに3つのグループが属する例が示されている。
【0090】
所属文書表示領域553は、構成表示領域552において選択されたグループ(以下、「対象グループ」という。)に属する文書情報の一覧を含む領域である。図13において、3番目の文書情報については、「アクセス権なし」が表示されている。「アクセス権なし」は、ログインユーザにはアクセス権限が無い文書情報であることを示す。
【0091】
ログインユーザは、ワークスペース詳細画面550を介してワークスペースを編集可能である。例えば、対象ワークスペースに属するいずれかの文書情報を対象ワークスペースから削除したり、或る文書情報を対象ワークスペースに追加したりすることができる。このような編集操作を行った後で、ログインユーザが編集ボタン5511を押下すると、ユーザ端末30は、編集内容を情報収集装置10へ送信する。情報収集装置10のワークスペース編集部130は、編集内容を受信すると、ワークスペース記憶部23(図12)において対象ワークスペースに対応するレコードに当該編集内容を反映する。
【0092】
又は、ワークスペース詳細画面550において評価ボタン5512が押下されると、ユーザ端末30の表示制御部31は、評価点の入力を受け付けるための画面を表示する。当該画面に対して0~5のいずれかの評価点が入力されると、ユーザ端末30の表示制御部31は、入力された評価点を情報収集装置10へ送信する。情報収集装置10のワークスペース生成部129は、評価点を受信すると、ワークスペース記憶部23(図12)において対象ワークスペースに対応するレコードの利用数及び評価点を更新する。具体的には、ワークスペース生成部129は、当該利用数に1を加算する。更新前の利用数をx1とし、更新後の利用数をx2とし、更新前の評価点をy1とした場合に、ワークスペース生成部129は、更新後の評価点y2を以下のように算出する。
y2=y1×x1÷x2
又は、ワークスペース詳細画面550の所属文書表示領域553において、いずれかの文書名に対するリンクが選択されると、ユーザ端末30、情報収集装置10及び情報管理装置20は、文書データ出力処理を実行する。文書データ出力処理の結果、ユーザは、当該文書名に係る文書データの内容を確認することができる。
【0093】
続いて、図4のステップS111の詳細について説明する。図14は、既存のワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
【0094】
ステップS201において、情報収集装置10は、登録対象の文書情報の所属先の候補とするワークスペースの抽出方法(絞り込み方法)をユーザに照会するための処理を実行する。具体的には、出力部132は、当該ワークスペースの抽出方法をユーザに照会するための画面(以下、「ワークスペース抽出方法照会画面」という。)の表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース抽出方法照会画面を表示する。
【0095】
図15は、ワークスペース抽出方法照会画面の表示例を示す図である。図15が示すように、ワークスペース抽出方法照会画面560は、ボタン561及びボタン562を含む。ボタン561は、検索条件に基づく検索を、ワークスペースの抽出方法とする指示を受け付けるためのボタンである。ボタン562は、登録対象の文書情報に関連性が高いワークスペースの検索を、ワークスペースの抽出方法とする指示を受け付けるためのボタンである。ここで、登録対象の文書情報に関連性が高いワークスペースとは、例えば全てのワークスペース(一部ノイズとして除去されるワークスペースを除く場合も含む)の中で、登録対象の文書情報に係る文書データとの類似性が相対的に高い文書データが所属するワークスペースをいう。
【0096】
ワークスペース抽出方法照会画面560においてボタン561又はボタン562が選択されると、表示制御部31は、ボタン561又はボタン562が示す抽出方法を示す応答を情報収集装置10へ送信する。受付部121は、当該応答を受信する。
【0097】
当該抽出方法が、検索条件に基づく検索である場合(S202でYes)、情報収集装置10は、検索条件に基づくワークスペースの検索処理を実行する(S203)。
【0098】
具体的には、出力部132は、ワークスペース検索画面の表示情報をユーザ端末30へ送信する。ユーザ端末30は、当該表示情報に基づいてワークスペース検索画面を表示する。
【0099】
図16は、ワークスペース検索画面の表示例を示す図である。図16が示すように、ワークスペース検索画面570は、検索条件入力領域571及び一覧表示領域572を含む。検索条件入力領域571は、検索条件の入力を受け付けるための領域であり、クエリ入力領域5711、実行ボタン5722及びフィルタ選択領域5723等を含む。
【0100】
クエリ入力領域5711は、クエリの入力を受け付けるための領域である。クエリは、検索対象とするワークスペースを自然言語で表現する文字列である。フィルタ選択領域5723は、検索対象とするワークスペースを絞り込むためのフィルタの選択を受け付けるための領域である。図16の例では、「作成者が自分のもの」(以下、「作成者フィルタ」という。)及び「過去に自分が編集したもの」(以下、「編集フィルタ」という。)という2つのフィルタが例示されている。作成者フィルタは、作成者がログインユーザであることを意味する。編集フィルタは、更新者がログインユーザであることを意味する。
【0101】
実行ボタン5712が押下されると、表示制御部31は、クエリ入力領域5711に入力されたクエリ(以下、「対象クエリ」という。)と選択されたフィルタとを含む、ワークスペースの検索要求を情報収集装置10へ送信する。情報収集装置10の受付部121が当該検索要求を受信すると、ワークスペース収集部125は、当該検索要求に基づいてワークスペース記憶部23(図12)からワークスペースを検索する。
【0102】
具体的には、ワークスペース収集部125は、対象クエリに基づいて、図4のステップS102~S104と同様の処理を実行してN件の文書ベクトルを抽出する。ワークスペース収集部125は、当該N件の文書ベクトルのいずれかの文書IDを所属データIDに含むワークスペースをワークスペース記憶部23から検索する。この際、検索要求にフィルタが含まれていれば、ワークスペース収集部125は、フィルタに基づいて検索結果に含めるワークスペースを絞り込む。
【0103】
このような検索方法(以下、「第1の検索方法」という。)の場合、当該N件の文書ベクトルに係る文書情報がいずれのワークスペースにも属してなければ、ワークスペースが一つも検索されないことになる。そこで、ワークスペース収集部125は、ワークスペース記憶部23(図12)に登録されているワークスペースごとに、当該ワークスペースと対象クエリとの関連度を算出し、当該関連度が上位M件のワークスペースを検索結果に含めてもよい(このような検索方法を以下「第2の検索方法」という。)。ワークスペースと対象クエリとの関連度とは、ワークスペースと対象クエリとの関連の強さを示す指標をいう。或るワークスペースの対象クエリとの関連度は、当該ワークスペースの所属データIDに係る各文書ベクトルと対象クエリのクエリベクトルとの類似度に基づいて算出されてもよい。例えば、当該ワークスペースの所属データIDに係る各文書ベクトルと対象クエリのクエリベクトルとの類似度の合計値、最大値、又はグループごとの最大値の合計値が当該関連度とされてもよい。なお、ワークスペース収集部125は、第1の検索方法ではワークスペースが一つも検索されない場合に第2の検索方法を実行してもよいし、第2の検索方法のみを実行してもよいし、第1の検索方法による検索結果と第2の検索方法による検索結果とを統合してもよい。
【0104】
出力部132は、検索結果をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該検索結果をワークスペース検索画面570のび一覧表示領域572に表示する。
【0105】
図17は、ワークスペースの検索結果の表示例を示す図である。図17では、検索結果に含まれるワークスペースの一覧(図17の例では4つのワークスペース)が一覧表示領域572に追加されている。
【0106】
一方、ユーザによって選択されたワークスペースの抽出方法が、関連性が高いワークスペースの検索である場合(S202でNo)、候補選択部128は、登録対象の文書情報との関連性が高いワークスペース(以下、「関連ワークスペース」という。)の検索処理を実行する(S204)。
【0107】
ここで、ステップS204の詳細について説明する。本実施の形態では、文書情報とワークスペースとの関連性の高さを示す指標を「関連度」という。
【0108】
図18は、第1の実施の形態における関連ワークスペースの検索処理の処理手順の一例を説明するためのフローチャートである。
【0109】
候補選択部128は、以下の処理を通して、対象の文書情報(第1のデータの一例)の文書ベクトル(特徴量の一例)と、それぞれ1以上のデータが所属する複数のワークスペース(管理単位の一例)に所属するデータの文書ベクトルとに基づいて、対象の文書情報の所属先の候補とする一部のワークスペースを選択する。具体的には、候補選択部128は、母集合に含まれるワークスペースごとにループ処理L1を実行する。ここでの母集合は、ワークスペース記憶部23に登録されている全てのワークスペースである。以下、ループ処理L1において処理対象とされているワークスペースを「対象ワークスペース」という。
【0110】
ループ処理L1の1回のループにおいて、候補選択部128は、登録対象の文書情報ごとに、ステップS221及びS222を含むループ処理L2及びステップS223を実行する。ループ処理L2において処理対象とされている文書情報を「対象文書情報」という。
【0111】
ステップS221において、候補選択部128は、対象文書情報について、対象ワークスペースに属するグループごとの関連度の算出処理を実行する。続いて、候補選択部128は、グループごとに算出された対象文書情報との関連度に基づいて、グループごとの関連度の最大値を更新する。具体的には、候補選択部128は、グループごとに、ステップS221において算出された関連度と関連度の最大値とを比較する。候補選択部128は、関連度の最大値の方が小さいグループについては、ステップS221において当該グループに関して算出された関連度を最大値とする。なお、各グループの関連度の最大値の初期値は0である。
【0112】
全ての登録対象の文書情報についてループ処理L2が実行されると、候補選択部128は、対象ワークスペースのグループごとの関連度の最大値の合計を対象ワークスペースと登録対象の文書情報との関連度として算出する(S223)。
【0113】
全てのワークスペースについてループ処理L1が実行されると、候補選択部128は、関連度が閾値以上であるワークスペースを抽出する(S225)。
【0114】
続いて、ステップS221の詳細について説明する。図19は、グループごとの関連度の算出処理の処理手順の一例を説明するためのフローチャートである。なお、図18において、図19の処理手順が呼び出される時点における対象文書情報を、図19では「入力文書情報」という。
【0115】
候補選択部128は、グループごとにループ処理L3を実行する。ループ処理L3において処理対象とされているグループを「対象グループ」という。
【0116】
ループ処理L3の1回のループにおいて、候補選択部128は、対象グループに属する文書情報ごとに、ステップS231を含むループ処理L4を実行する。ループ処理L4において処理対象とされている文書情報を「対象文書情報」という。
【0117】
ステップS231において、候補選択部128は、入力文書情報に係る文書データと対象文書情報に係る文書データとの類似度を算出する。
【0118】
対象グループに属する全ての文書情報についてループ処理L3が終了すると、候補選択部128は、対象グループに属する文書情報ごとに算出された類似度の中の最大値を、入力文書情報と対象グループとの関連度とする(S232)。但し、最大値ではなく平均値が当該関連度として採用されてもよい。
【0119】
なお、ステップS231における、2つの文書データの類似度の一例としては、以下の2種類が挙げられる。
【0120】
1つ目は、各文書データに関して文書ベクトル記憶部141(図6)に記憶されている文書ベクトルのコサイン類似度である。このような類似度は、意味の類似性に基づく類似度であるといえる。以下、文書ベクトルの類似度に基づく関連度を「意味関連度」という。
【0121】
2つ目は、2つの文書データのTF-IDF(図20)の統計量である。当該統計量も文書データの特徴量の一例である。具体例としては、2つの文書データのTF-IDF値のベクトル同士のコサイン類似度が挙げられる。TF-IDF値のベクトルとは、例えば、図20において1つの行に相当するデータである。このような類似度は、出現単語の類似性に基づく類似度であるといえる。以下、TF-IDFの類似度に基づく関連度を「単語関連度」という。
【0122】
なお、本実施の形態では、ワークスペース及びグループのそれぞれについて、登録対象の文書情報との間で意味関連度及び単語関連度の双方が算出されることとする。図18のステップS225では、意味関連度及び単語関連度のいずれか一方が閾値以上であるワークスペースが関連ワークスペースとして抽出される。この際、意味関連度に対する閾値と単語関連度に対する閾値とは同じでもよいし異なっていてもよい。また、意味関連度と単語関連度とを区別しない場合、単に「関連度」という。
【0123】
図18のステップS225において関連度が閾値以上である関連ワークスペースが抽出されると、表示情報生成部131は、抽出結果を含む画面(以下、「関連ワークスペース一覧画面」という。)の表示情報を生成する。出力部132は、当該表示情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該表示情報に基づいて関連ワークスペース一覧画面を表示する。
【0124】
図21は、関連ワークスペース一覧画面の表示例を示す図である。図21が示すように、関連ワークスペース一覧画面580は、フィルタ選択領域581及び一覧表示領域582を含む。
【0125】
一覧表示領域582は、抽出結果に含まれるワークスペースの一覧を表示する領域である。意味関連度に基づいて抽出されたワークスペースには「意味が似ている」というラベルが付与されている。単語関連度に基づいて抽出されたワークスペースには「単語が似ている」というラベルが付与されている。
【0126】
フィルタ選択領域581は、一覧表示領域582に表示するワークスペースを絞り込むためのフィルタの選択を受け付けるための領域である。図21の例において、フィルタの内容は、ワークスペース検索画面570(図16)と同じである。いずれかのフィルタが選択されると、表示制御部31は、当該フィルタに合致しないワークスペースを一覧表示領域582から除外する。
【0127】
図14のステップS203においてユーザ端末30に表示されたワークスペース検索画面570(図17)、又は図14のステップS204においてユーザ端末30に表示された関連ワークスペース一覧画面580(図21)に表示されている各ワークスペースを、以下「候補ワークスペース」という。候補ワークスペースは、登録対象の文書情報の所属先の候補としてのワークスペースである。
【0128】
ワークスペース検索画面570(図17)又は関連ワークスペース一覧画面580(図21)に表示されている候補ワークスペースのうちのいずれか一つのワークスペースがユーザによって選択されると、ユーザ端末30の表示制御部31は、当該ワークスペース(以下、「選択ワークスペース」という。)のワークスペースIDを選択結果として情報収集装置10へ送信する。
【0129】
情報収集装置10の受付部121が当該選択結果を受信すると(図14のS205)、候補選択部128は、選択ワークスペースに属するグループ(選択された候補に係る管理単位を分割する1以上のグループの一例)の中で、登録対象の各文書情報(第1のデータの一例)との関連性が最も高いグループ(第1のデータの配置先の候補とするグループの一例)の特定処理(選択する処理)を実行する(S206)。具体的には、候補選択部128は、登録対象の各文書情報と、選択ワークスペースに属するグループとについて図19の処理手順を実行することで、当該文書情報ごとに選択ワークスペースに属する各グループとの関連度を算出する。候補選択部128は、当該文書情報ごとに意味関連度又は単語関連度が最大であるグループを選択する。
【0130】
続いて、表示情報生成部131は、当該特定処理の結果に基づいて、登録対象の文書情報について選択ワークスペースにおけるグループへの配置(分類)に関する提案内容を示す画面(以下、「プレビュー画面」という。)の表示情報を生成する(S207)。出力部132は、当該表示情報をユーザ端末30へ送信する(S208)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてプレビュー画面を表示する。
【0131】
図22は、既存のワークスペースへ登録する場合のプレビュー画面の表示例を示す図である。図22が示すように、プレビュー画面590は、一覧表示領域591、プレビュー領域592及びボタン593を含む。
【0132】
一覧表示領域591は、候補ワークスペースの一覧が表示される領域である。初期状態において、候補ワークスペースのうちの選択ワークスペースが選択状態とされている。なお、図22の一覧表示領域591では、枠線が破線である候補ワークスペースが選択ワークスペースである。
【0133】
プレビュー領域592は、登録対象の各文書情報について、選択ワークスペースおけるグループへの配置に関する提案内容が表示される領域である。より詳しくは、プレビュー領域592には、選択ワークスペースの構造がツリー構造によって表現されている。当該ツリー構造においてルートノードが選択ワークスペースに対応する。ルートノードの各子ノード(以下、「グループノード」という。)は、選択ワークスペースに属する各グループに対応する。各グループノード内の各図形(図22において「ファイル」という文字列を含む図形(以下、当該図形を「文書ノード」という。))は、各グループに属する文書情報(文書データ)に対応する。枠線が破線である文書ノード(以下、「仮文書ノード」という。)は、登録対象の文書情報に対応する。各仮文書ノードには、当該仮文書ノードに係る文書情報についてステップS206において選択されたグループのノード内に配置されている。なお、プレビュー領域592における仮文書ノードの配置位置は、あくまでも候補選択部128による提案である。ユーザは、仮文書ノードの配置位置を変更することができる。
【0134】
ユーザは、一覧表示領域591において、選択ワークスペースとは別の候補ワークスペースを選択することができる。この場合、新たに選択されたワークスペースを選択ワークスペースとしてステップS205~S208が再実行される。その結果、新たな選択ワークスペースが選択された状態でプレビュー画面590が再表示される。
【0135】
プレビュー画面590において、ボタン593は、登録対象の文書情報について選択ワークスペースへの登録指示を受け付けるためのボタンである。ボタン593が押下されると、表示制御部31は、ボタン593が押下された時点における選択ワークスペース(以下、「所属先ワークスペース」という。)のワークスペースIDを含む登録要求を情報収集装置10へ送信する。
【0136】
情報収集装置10の受付部121が当該登録要求を受信すると(図14のS209)、表示情報生成部131は、当該登録情報に含まれているワークスペースIDと登録対象の文書情報とに基づいてワークスペース編集画面の表示情報を生成する(S210)。続いて、出力部132は、当該表示情報をユーザ端末30へ送信する(S211)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース編集画面を表示する。
【0137】
図23は、既存のワークスペースが登録先である場合のワークスペース編集画面の初期状態の表示例を示す図である。図23が示すように、ワークスペース編集画面600は、左フレーム601、右フレーム602、リンク603、リンク604-1及び604-2(以下、リンク604-1及び604-2を区別しない場合「リンク604」という。)、並びにボタン605を含む。
【0138】
初期状態において、左フレーム601には、登録対象の文書情報の一覧が表示される。右フレーム602は、所属先ワークスペースの構造(当該ワークスペースを表現するツリー構造)を含む。右フレーム602は、登録対象の各文書情報について、ユーザによる編集操作に応じたグループへの配置状態を表示する領域である。初期状態における右フレーム602は、登録対象の文書情報は配置されていない状態である。
【0139】
リンク603は、各文書情報のグループへの配置について情報収集装置10からの提案に対する要求を受け付けるためのリンクである。リンク603が選択されると、表示制御部31は、左フレーム601を、グループへの配置方法の選択を受け付けるため領域に変更する。
【0140】
図24は、グループへの配置方法の選択を受け付けるためのワークスペース編集画面の表示例を示す図である。図24において、左フレーム601は、グループへの配置方法の選択肢として、選択肢6011及び選択肢6012を含む。選択肢6011は、各文書情報の配置先として、当該文書情報の文書データとの意味関連度が相対的に高いグループを優先する方法(以下、「意味関連度に基づく配置方法」という。)に対応する選択肢である。選択肢6012は、或る文書情報の配置先として、当該文書情報との単語関連度が相対的に高いグループを優先する方法(以下、「単語関連度に基づく配置方法」という。)に対応する選択肢である。
【0141】
いずれかの選択肢が選択されると、ユーザ端末30の表示制御部31は、選択された選択肢に応じた配置要求を情報収集装置10へ送信する。情報収集装置10の受付部121が当該配置要求を受信すると、候補選択部128は、図19の処理手順を実行することで、登録対象の文書情報ごとに、所属先ワークスペースに属するグループの中で、当該文書情報に係る文書データとの関連度が最も高いグループを特定する。この際、意味関連度に基づく配置方法が選択された場合には、意味関連度が算出される。単語関連度に基づく配置方法が選択された場合には、単語関連度が算出される。いずれの場合であっても、登録対象の文書情報ごとに、所属先ワークスペースの中から一つのグループが選択される。出力部132は、登録対象の文書情報ごとに、選択されたグループのグループラベルを含む応答をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該応答に基づいて、ワークスペース編集画面600の右フレーム602を更新する。
【0142】
図25は、登録対象の全ての文書情報について提案に基づく配置状態を示すワークスペース編集画面の表示例を示す図である。図25において、ワークスペース編集画面600の右フレーム602の最上段のグループノード及び最下段のグループノードにはそれぞれ一つの仮文書ノードが追加されている。つまり、最上段のグループノードに係るグループに対し「ファイル1」に係る文書情報を配置し、最下段のグループノードに「ファイル5」に係る文書情報を配置することが提案されている。
【0143】
ユーザは、各文書情報の配置先について右フレーム602が示す状態を保持したまま編集を続ける場合には、適用ボタン606を押下する。この場合、ユーザ端末30の表示制御部31は、ワークスペース編集画面600の左フレーム601の内容を初期状態(図23)に戻す。この際、右フレーム602の状態は維持される。すなわち、右フレーム602は、仮文書ノードが配置された状態である。
【0144】
又は、ユーザは、各文書情報の配置先について右フレーム602が示す状態を破棄して編集を続ける場合には、キャンセルボタン607を押下する。この場合、表示制御部31は、ワークスペース編集画面600の左フレーム601及び右フレーム602の双方を初期状態(図23)に戻す。
【0145】
ワークスペース編集画面620の少なくとも左フレーム601が初期状態(図23)である状況において、いずれかのリンク604が選択されると、表示制御部31は、選択されたリンク604に係る文書情報(以下、「対象文書情報」という。)の文書IDを含む、配置先の提案要求を情報収集装置10へ送信する。当該提案要求は、当該文書IDに係る一つの文書情報についての配置先の提案要求である。情報収集装置10の受付部121が当該提案要求を受信すると、候補選択部128は、対象文書情報と所属先ワークスペースに属する各グループとについて図19の処理手順を実行することで、対象文書情報について当該各グループとの意味関連度及び単語関連度を算出する。候補選択部128は、意味関連度又は単語関連度が閾値以上であるグループ(以下、「関連グループ」という。)を特定し、関連グループごとに当該グループが意味関連度及び単語関連度のいずれに基づいて特定されたのか(いずれの関連度が閾値以上であったのか)を示す情報(以下、「根拠情報」という。)を出力する。双方の関連度が閾値以上であった場合、値が大きい方の関連度を示す情報が根拠情報とされればよい。出力部132は、各関連グループのグループラベル及び根拠情報をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、受信した情報に基づいてワークスペース編集画面600の左フレーム601を更新する。
【0146】
図26は、一つの文書情報についての配置先を提案するワークスペース編集画面の表示例を示す図である。図26において、左フレーム601は、対象文書情報の配置先の候補ごとの選択肢608-1~4を含む。選択肢608-1~3のそれぞれは、関連グループに対応する選択肢であり、それぞれが対応する関連グループのグループラベルと、それぞれが関連グループとして選択された根拠を示す根拠情報に基づく文字列(意味関連度に基づく場合「意味が似ている」、単語関連度に基づく場合「単語が似ている」)とを含む。選択肢608-4は、新たなグループ(新規グループ)を所属先ワークスペースに生成して、当該グループを対象文書情報の配置先とする選択肢である。対象文書情報に対する関連グループが無い場合(関連度が閾値を超えるグループが無い場合)、右フレーム602には、選択肢608-4のみが表示される。
【0147】
選択肢608-1~3のいずれかが選択されると、表示制御部31は、右フレーム602を以下のように更新する。
【0148】
図27は、関連グループに対応する選択肢が選択された場合のワークスペース編集画面の更新例を示す図である。図27は、選択肢608-2が選択された場合の右フレーム602の更新例を示す。この場合、表示制御部31は、対象文書情報に対応する仮文書ノードを選択肢608-2に対応するグループノード内に追加する。
【0149】
この後、ユーザがボタン605を押下すると、表示制御部31は、右フレーム602の状態は維持したまま、左フレーム601を図23の状態へ更新する。ユーザはリンク604-2を選択することで、もう一方の文書情報についても、当該文書情報の関連グループの提案を受けることができ、当該文書情報をいずれかの関連グループに対して配置することができる。
【0150】
一方、図26の状態のワークスペース編集画面600において、選択肢608-4が選択されると、表示制御部31は、左フレーム601及び右フレーム602を以下のように更新する。
【0151】
図28は、新規グループに対応する選択肢が選択された場合のワークスペース編集画面の更新例を示す図である。
【0152】
図28が示すように、選択肢608-4が選択されると、表示制御部31は、右フレーム602に対して新規グループに対応するグループノードを追加するとともに、当該グループノード内に対象文書情報に対応する仮文書ノードを追加する。表示制御部31は、また、左フレーム601の表示内容を、新規グループのグループラベルの選択肢609-1~4を含むように更新する。選択肢609-1は、グループラベルをユーザに入力させる選択肢であり、選択肢609-2~4は、情報収集装置10が提案するグループラベルに対応する選択肢である。情報収集装置10が提案するグループラベルについては、例えば、選択肢608-4が選択されたタイミング(左フレーム601を更新するタイミング)で、表示制御部31が情報収集装置10へ問い合わせればよい。この際、表示制御部31は、対象文書情報の文書IDを情報収集装置10へ通知する。情報収集装置10のラベル付与部127は、当該文書IDに対応する文書データが含む単語の中で、TF-IDF値が上位の一部の単語を当該文書データに係る文書情報が属するグループのグループラベルの候補として生成する。出力部132は、当該グループラベルの候補をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該グループラベルの候補に基づいて選択肢609-2~4を表示する。
【0153】
選択肢609-2~4のいずれかが選択されると、表示制御部31は、選択された選択肢609-2に対応するグループラベルの候補を、右フレーム602における新規グループのグループノードに表示する。このことは、当該候補が新規グループのグループラベルとして設定されたことを意味する。
【0154】
選択肢609-1が選択されると、表示制御部31は、ラベル入力領域609-11に入力されたラベルを、右フレーム602における新規グループのグループノードに表示する。このことは、当該ラベルが新規グループのグループラベルとして設定されたことを意味する。
【0155】
なお、登録対象の文書情報の配置先は、情報収集装置10による提案によってのみではなく、ユーザの任意によっても決定可能である。
【0156】
図29は、登録対象の文書情報の配置先をユーザの任意によって決定する例を説明するための図である。例えば、ユーザは、左フレーム601に表示されているいずれかの文書情報を右フレーム602に表示されているいずれかのグループノード内にドラッグ&ドロップすることができる。この場合、表示制御部31は、当該文書情報の仮文書ノードを当該グループノード内に表示する。ユーザは、また、右フレーム602においていずれかのグループノード内に表示されている仮文書ノードをドラッグ&ドロップによって他のグループノードに移動することができる。この場合、表示制御部31は、当該仮文書ノードをドラッグ元のグループノードから削除し、ドロップ先のグループノード内に表示する。
【0157】
文書情報のドロップ位置が、右フレーム602内において全てのグループノードの外側である場合、表示制御部31は、新規グループのグループノードを生成し、ドロップされた文書情報の仮文書ノードを当該グループノード内に表示するとともに、図28に示したように、新規グループのグループラベルの候補に対応する選択肢を左フレーム601に表示する。
【0158】
編集作業が終了して、ボタン605が押下されると、表示制御部31は、その時点における右フレームの内容を編集結果として情報収集装置10へ送信する。編集結果には、所属先ワークスペースのワークスペースIDに加えて、登録対象の文書情報ごとに、当該文書情報の文書IDと当該文書情報の配置先のグループのグループラベルとを含む。
【0159】
情報収集装置10の受付部121が当該編集結果を受信すると(図14のS212でYes)、ワークスペース編集部130は、当該編集結果に基づいてワークスペース記憶部23(図12)を更新する(S213)。具体的には、当該編集結果に含まれている文書IDの配置先のグループラベルが所属先ワークスペースに対応するワークスペースレコードにおいて既存の「所属グループラベル」である場合、ワークスペース編集部130は、当該「所属グループラベル」に対応するグループレコードに対して当該文書IDに対応する文書レコードを追加する。ワークスペース編集部130は、当該文書レコードの「所属データID」、「所属データパス」に、当該文書ID、当該文書IDに係る文書データのファイルパスを登録する。
【0160】
一方、具体的には、当該編集結果に含まれている文書IDの配置先のグループラベルが所属先ワークスペースに対応するワークスペースレコードにおいて既存の「所属グループラベル」でない場合、ワークスペース編集部130は、当該ワークスペースレコードに対して新たなグループレコードを追加し、当該グループレコードの「所属グループラベル」に当該グループラベルを登録する。ワークスペース編集部130は、また、当該グループレコードに対して当該文書IDに対応する文書レコードを追加する。ワークスペース編集部130は、当該文書レコードの「所属データID」、「所属データパス」に、当該文書ID、当該文書IDに係る文書データのファイルパスを登録する。
【0161】
続いて、図4のステップS113の詳細について説明する。図30は、空の新規ワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
【0162】
図4のステップS109において受付部121が受信した登録要求に応じ、表示情報生成部131は、当該登録要求に含まれている文書IDに係る登録対象の文書情報に基づいてワークスペース編集画面の表示情報を生成する(S301)。続いて、出力部132は、当該表示情報をユーザ端末30へ送信する(S302)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてワークスペース編集画面を表示する。
【0163】
図31は、新規ワークスペースに登録する場合のワークスペース編集画面の初期状態の表示例を示す図である。図31中、図23と同一又は対応する部分には同一符号を付し、その説明は適宜省略する。
【0164】
所属先が新規ワークスペースである場合、当該ワークスペースの構造は未知である。したがって、この場合、登録先が既存のワークスペースである場合(図23)とは異なり、右フレーム602には登録先のワークスペースの構造は表示されない。図31において、右フレーム602には、空のワークスペースを表現するノード(以下、「仮ワークスペースノード」という。)が破線によって表現されている。
【0165】
また、左フレーム601は、図23と同様に登録対象の文書情報の一覧を含むとともに、図23では表示されないワークスペース名入力領域610を含む。ワークスペース名入力領域610は、新規ワークスペースのワークスペース名の入力を受け付けるための領域である。たワークスペース名入力領域610に対してワークスペース名が入力されると、表示制御部31は、右フレーム602に表示されている仮ワークスペースノード内に当該ワークスペース名を表示する。なお、図31では、左フレーム601に含まれている登録対象の文書情報の一覧が図23とは異なるが、これは説明の便宜上の理由による。
【0166】
リンク603が選択されると、表示制御部31は、登録対象の文書情報について、グループへの分割要求を情報収集装置10へ送信する。当該分割要求は、分割数を含む。分割数の初期値は、例えば、登録対象の文書情報の数に基づいて決められてもよい。例えば、1つのグループに対して2以上の文書情報が属するという条件の範囲内において最大の分割数(但し、1以上の値)が初期値とされてもよい。なお、グループへの分割要求は、新規に生成されるグループへの文書情報の配置要求と同義である。
【0167】
情報収集装置10の受付部121が当該分割要求を受信すると(図30のS303でYes)、分類部126は、登録対象の文書情報群を当該分割要求に含まれている分割数のグループに分割する(S304)。例えば、分類部126は、当該文書情報群に係る文書ベクトル群をクラスタリングすることにより、当該文書情報群をグループに分割してもよい。クラスタリングは、例えば、k-means方を利用して実行されてもよいし、公知の他の方法を用いて実行されてもよい。
【0168】
続いて、ラベル付与部127は、各グループに対してグループラベルを付与する(S253)。ラベル付与部127は、例えば、或るグループに属する文書情報に係る文書データの集合において、TF-IDF等を用いて相対的に重要であると判定される1以上の単語に基づく文字列を当該グループのグループラベルとしてもよい。又は、ラベル付与部127は、或るグループに属する各文書データの文書ラベルの一覧の中で、出現頻度が相対的に上位である1以上の文書ラベルを当該グループのグループラベルとしてもよい。
【0169】
続いて、出力部132は、グループラベルの一覧と、グループラベルごとに当該グループラベルに係るグループに属する文書情報とを含む情報をグループへの分割結果としてユーザ端末30へ送信する(S306)。当該分割結果は、登録対象の文書情報についてグループへの配置に関しての情報収集装置10による提案を意味する。
【0170】
ユーザ端末30の表示制御部31は、当該分割結果に基づいて、ワークスペース編集画面600を以下のように更新する。
【0171】
図32は、グループへの第1の分割結果を示すワークスペース編集画面の表示例を示す図である。図32が示すワークスペース編集画面600の右フレーム602は、分割結果を含む。すなわち、右フレーム602には、仮ワークスペースノードの子ノードとして、文書情報の分割によって生成された各グループのグループノードが表示され、各グループノード内に当該グループノードに係るグループに分類された(配置された)文書情報に係る仮文書ノードが配置されている。なお、現時点において、グループへの分割は、仮の状態である。したがって、グループノードは破線によって表現されている。以下、仮のグループに対応するグループノードを「仮グループノード」という。
【0172】
左フレーム601は、スライダー611、適用ボタン606及びキャンセルボタン607を含む。適用ボタン606及びキャンセルボタン607については、図24等において説明した通りである。
【0173】
スライダー611は、グループへの分割数の変更指示を受け付けるための操作部品である。ユーザは、スライダー611のつまみ611-1をバー611-2に沿って水平に移動させることで、分割数の変更指示を入力することができる。つまみ611が移動されると、表示制御部31は、つまみ611の移動先の位置に対応する分割数を含む分割要求を情報収集装置10へ送信する。この場合、情報収集装置10は、ステップS304~S306を再実行して、当該分割数に基づく分割結果をユーザ端末30へ送信する。ユーザ端末30の表示制御部31は、当該分割結果に基づいて、ワークスペース編集画面600の右フレーム602を更新する。
【0174】
図33は、グループへの第2の分割結果を示すワークスペース編集画面の表示例を示す図である。図33は、分割数が2に指定された場合の右フレーム602の更新例を含む。この場合、仮グループノードの数は、変更後の分割数に一致する。
【0175】
なお、登録先が新規ワークスペースである場合にも、ユーザの任意によって各文書情報の配置先のグループを決定可能である。
【0176】
図34は、登録先が空の新規ワークスペースである場合に登録対象の文書情報の配置先をユーザの任意によって決定する例を説明するための図である。図34の左フレーム601の表示内容は、図31の左フレーム601の表示内容と同じである。
【0177】
図34が示すワークスペース編集画面600の操作方法は、図29において説明した操作方法と基本的に同じである。
【0178】
仮グループノードが一つも無い状態で文書情報が右フレーム602にドロップされたり、全ての仮グループノードの外側に文書情報がドロップされたりすると、表示制御部31は、新規グループの仮グループノードを生成し、当該文書情報の仮文書ノードを当該仮グループノード内に表示する。一方、いずれかの仮グループノード内に文書情報がドロップされると、表示制御部31は、当該文書情報の仮文書ノードを当該仮グループノード内に表示する。なお、右フレーム602における仮ワークスペースノード又は仮グループノードにおいて、ワークスペース名又はグループラベルの編集が可能とされてもよい。
【0179】
編集作業が終了して、ボタン605が押下されると、表示制御部31は、その時点における右フレームの内容を編集結果として情報収集装置10へ送信する。編集結果は、所属先ワークスペースのワークスペースIDと、仮ワークスペースノードのワークスペース名と、仮グループノードのグループラベルの一覧と、登録対象の文書情報ごとに、当該文書情報の文書IDと当該文書情報の配置先のグループのグループラベルとを含む。
【0180】
情報収集装置10の受付部121が当該編集結果を受信すると(図30のS307でYes)、ワークスペース生成部129は、当該編集結果に基づいてワークスペース記憶部23(図12)を更新する(S308)。具体的には、ワークスペース生成部129は、新たなワークスペースレコードをワークスペース記憶部23(図12)に追加し、当該ワークスペースレコードに対してワークスペースIDを所定の方法によって割り当てる。ワークスペース生成部129は、当該編集結果に含まれているワークスペース名、ラベル及び作成者を当該ワークスペースレコードに登録する。ラベルは、登録対象の各文書情報の文書データに含まれる単語の集合に基づいて、クラスラベルの生成方法と同様に生成されればよい。作成者にはログインユーザの社員ID等が登録されればよい。ワークスペース生成部129は、また、当該ワークスペースレコード内に、当該編集結果に含まれるグループラベルごとのグループレコードを生成し、各グループレコードの「所属グループラベル」に当該グループラベルを登録する。ワークスペース生成部129は、更に、各グループレコード内に当該グループレコードに係るグループに配置された文書情報ごとの文書レコードを生成し、当該文書レコードの「所属データID」、「所属データパス」に、当該文書情報の文書ID、当該文書IDに係る文書データのファイルパスを登録する。
【0181】
続いて、図4のステップS115の詳細について説明する。図35は、グループ構成をコピーした新規ワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。図35中、図14と同一ステップには同一ステップ番号を付し、その説明は省略する。図35では、ステップS207、S213がS207a、S213aに置き換わる。
【0182】
ステップS207aにおいて、表示情報生成部131は、登録対象の各文書情報との関連性が最も高いグループの特定処理(S206)の結果に基づいて、登録対象の文書情報について選択ワークスペースにおけるグループへの配置(分類)に関する提案内容を示すプレビュー画面の表示情報を生成する。この際、表示情報生成部131は、選択ワークスペースに対応するワークスペースノードを仮ワークスペースノードとする。当該ワークスペースノード(仮ワークスペースノード)に対応するワークスペースは、選択ワークスペースではなく、選択ワークスペースのグループ構成をコピーした新規ワークスペースに対応するからである。表示情報生成部131は、また、選択ワークスペースの各グループに属する文書情報を当該表示情報に含めない。出力部132は、当該表示情報をユーザ端末30へ送信する(S208)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてプレビュー画面を表示する。
【0183】
図36は、既存のワークスペースのグループ構成をコピーした新規ワークスペースへ登録する場合のプレビュー画面の表示例を示す図である。図36中、図22と同一部分には同一符号を付し、その説明は省略する。
【0184】
図36が示すプレビュー画面590は、プレビュー領域592のグループノード内に文書ノードを含まない。ステップS207aにおいて、プレビュー画面590の表示情報には選択ワークスペースの各グループに属する文書情報が含まれないからである。すなわち、図35の処理手順において、登録対象の文書情報の所属先は、既存のワークスペースそのものではなく、既存のワークスペースのグループ構成をコピーした新規ワークスペースであり、当該新規ワークスペースの初期状態において、各グループに属する文書情報は無いからである。また、図36に示されるように、当該新規ワークスペースに対応する仮ワークスペースノードのワークスペース名の初期値は、コピー元のワークスペースのワークスペース名に対して「のコピー」という文字列が付加された文字列である。但し、これは一例であり、他の文字列が当該ワークスペース名の初期値とされてもよい。一方、当該新規ワークスペースの各グループラベルは、コピー元のグループラベルが引き継がれる。
【0185】
プレビュー画面590の操作方法は、基本的に図22において説明した通りである。但し、ボタン593が押下された場合に表示されるワークスペース編集画面600の構成が図23とは異なる。
【0186】
図37は、グループ構成をコピーした新規ワークスペースが登録先である場合のワークスペース編集画面の初期状態の表示例を示す図である。図37中、図31と同一部分には同一符号を付し、その説明は適宜省略する。図37が示すように、グループ構成をコピーした新規ワークスペースが登録先である場合のワークスペース編集画面600の初期状態の左フレーム601の表示内容は、図31に示したもの(登録先が空の新規ワークスペースである場合)と同様である。なお、図37では、左フレーム601に含まれている登録対象の文書情報の一覧が図23とは異なるが、これは説明の便宜上の理由による。
【0187】
一方、図37が示す右フレーム602には、選択ワークスペース(以下、「コピー元ワークスペース」という。)のグループ構成が示されている。
【0188】
新規ワークスペースへのワークスペース名の入力、及び新規ワークスペースの各グループへの文書情報の配置方法は上記した通りである。これらの編集作業が終了して、ボタン605が押下されると、表示制御部31は、その時点における右フレームの内容を編集結果として情報収集装置10へ送信する。編集結果は、仮ワークスペースノードのワークスペース名と、各グループノードのグループラベルの一覧と、登録対象の文書情報ごとに、当該文書情報の文書IDと当該文書情報の配置先のグループのグループラベルとを含む。
【0189】
情報収集装置10の受付部121が当該編集結果を受信すると(図35のS212でYes)、ワークスペース生成部129は、当該編集結果に基づいて、図30のステップS308と同様の処理を実行する(S213a)。その結果、コピー元ワークスペースのグループ構成をコピーした新規ワークスペースのワークスペースレコードがワークスペース記憶部23(図12)に追加される。
【0190】
続いて、図4のステップS116の詳細について説明する。図38は、既存のワークスペースの全部をコピーした新規ワークスペースへの登録処理の処理手順の一例を説明するためのフローチャートである。
【0191】
図38中、図14と同一ステップには同一ステップ番号を付し、その説明は省略する。図38では、ステップS207、S213がS207b、S213bに置き換わる。
【0192】
ステップS207bにおいて、表示情報生成部131は、登録対象の各文書情報との関連性が最も高いグループの特定処理(S206)の結果に基づいて、登録対象の文書情報について選択ワークスペースにおけるグループへの配置(分類)に関する提案内容を示すプレビュー画面の表示情報を生成する。この際、表示情報生成部131は、選択ワークスペースに対応するワークスペースノードを仮ワークスペースノードとする。それ以外の点はステップS207と同様である。出力部132は、当該表示情報をユーザ端末30へ送信する(S208)。ユーザ端末30の表示制御部31は、当該表示情報に基づいてプレビュー画面を表示する。
【0193】
図39は、既存のワークスペースの全部をコピーした新規ワークスペースへ登録する場合のプレビュー画面の表示例を示す図である。図39では、便宜上、左フレーム601において上から2番目のワークスペースが選択ワークスペースであり、登録対象の文書情報が6個である状況に基づく例が示されている。斯かる状況に基づく相違点を除き、図39が示すプレビュー画面590は、基本的に、右フレーム602のワークスペースノードが仮ワークスペースノードである点が図22と異なる。
【0194】
プレビュー画面590の操作方法は、基本的に図22において説明した通りである。但し、ボタン593が押下された場合に表示されるワークスペース編集画面600の構成は、図23とは異なる。
【0195】
図40は、全部をコピーした新規ワークスペースが登録先である場合のワークスペース編集画面の初期状態の表示例を示す図である。図40が示すように、全部をコピーした新規ワークスペースが登録先である場合のワークスペース編集画面600の左フレーム601は、図31及び図37と同様にワークスペース名入力領域610を含む。一方、右フレーム602には、コピー元ワークフレームの構造がツリー構造によって表現されている。
【0196】
新規ワークスペースへのワークスペース名の入力、及び新規ワークスペースの各グループへの文書情報の配置方法は上記した通りである。これらの編集作業が終了して、ボタン605が押下されると、表示制御部31は、その時点における右フレームの内容を編集結果として情報収集装置10へ送信する。編集結果は、コピー元ワークスペースのワークスペースIDと、仮ワークスペースノードのワークスペース名と、各グループノードのグループラベルの一覧と、登録対象の文書情報及びコピー元ワークスペースからコピーされた文書情報ごとに、当該文書情報の文書IDと当該文書情報の配置先のグループのグループラベルとを含む。
【0197】
情報収集装置10の受付部121が当該編集結果を受信すると(図38のS212でYes)、ワークスペース生成部129は、当該編集結果に基づいて、図30のステップS308と同様の処理を実行する(S213b)。この際、ワークスペース生成部129は、コピー元ワークスペースのワークスペースレコードのラベル、クエリを新規ワークスペースのラベル、クエリにコピーしてもよい。その結果、コピー元ワークスペースの全部をコピーした新規ワークスペースのワークスペースレコードがワークスペース記憶部23(図12)に追加される。
【0198】
上述したように、第1の実施の形態によれば、ユーザが収集した文書情報について、所属先とするワークスペースや配置先とするグループについて、情報収集装置10によって提案が生成される。ユーザは、当該提案に基づいて、所属先とするワークスペースや配置先とするグループを決定することができ、当該提案をそのまま採用することもできる。したがって、データの分類に要する負担を軽減することができる。
【0199】
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。したがって、特に言及されない点については、第1の実施の形態と同様でもよい。
【0200】
図41は、第2の実施の形態における情報収集システムの構成例を示す図である。図41中、図1と同一部分には同一符号を付し、その説明は省略する。
【0201】
図41では、会議デバイス40がネットワークN4を介して情報管理装置20に接続する。会議デバイス40は、テレビ会議又はWeb会議等に代表されるリモート会議に利用されるデバイスまたはコンピュータである。例えば、会議デバイス40は、カメラ及びマイクを備え、会議室等に設置される情報処理装置であってもよい。又は、会議デバイス40は、前者のような情報処理装置にネットワークを介して接続される情報処理装置(サーバコンピュータ)であってもよい。会議デバイス40は、リモート会議に関する情報(以下、「会議情報」という。)を管理する。情報管理装置20は、会議デバイス40が管理する会議情報を取得して記憶する。
【0202】
また、会議デバイス40以外にも、ICレコーダー41のような音声の録音等に利用される音声デバイスのほか、スマートグラス42のような目で見た映像データを記憶するデバイス、ウェアラブルデバイス43のような記録デバイスなど或る特定のサービス(機能)を利用することによるさまざまなデバイスやシステム(デバイスA、B、・・・)、又は外部有識者情報DBのように各分野の専門家(医者、弁護士など)、知識人(学者、大学教授など)の情報を記憶したデータベースなど外部のさまざまなデータベース(データベースA、B、・・・)がネットワークN4を介して情報管理装置20に接続されてもよい。これによって、会議デバイス40と同様に、本情報収集システムと接続された各種システム又は各種データベースからも記憶された有用な情報を収集することができる。
【0203】
なお、本実施の形態では、会議デバイス40を一例として説明する。
【0204】
図42は、第2の実施の形態における情報収集システムの機能構成例を示す図である。図42中、図3と同一部分には同一符号を付し、その説明は省略する。
【0205】
図42が示すように、情報管理装置20は、更に、社員情報記憶部24及び会議情報記憶部25を利用する。これら各記憶部は、例えば、情報管理装置20の補助記憶装置、又は情報管理装置20にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
【0206】
社員情報記憶部24は、情報管理装置20を利用する企業Xの各社員の属性情報等(以下、「社員情報」という。)を記憶する。
【0207】
会議情報記憶部25は、企業Xにおいて開催された会議ごとに、当該会議に関する情報(以下、「会議情報」という。)を記憶する。会議情報は、上記したように、会議デバイス40から取得されてもよい。
【0208】
第2の実施の形態では、文書情報(文書データ)とワークスペースとの関連度の評価において、社員情報及び会議情報が利用される。以下においては双方が利用される例について説明するが、いずれか一方のみが利用されてもよい。
【0209】
具体的には、図18の処理手順が以下のように変更される。
【0210】
図43は、第2の実施の形態における関連ワークスペースの検索処理の処理手順の一例を説明するためのフローチャートである。図43中、図18と同一ステップには同一ステップ番号を付し、その説明は省略する。図43では、ループ処理L1内においてステップS223の後にステップS224が追加される。
【0211】
ステップS224において、候補選択部128は、対象ワークスペースとの関連度を補正することで、ログインユーザ(収集された文書情報(第1のデータの一例)についていずれかのワークスペース(管理単位の一例)への割り当てを要求するユーザ)と複数のワークスペースのそれぞれとの関連性に基づいて、一部のワークスペースを選択する。具体的には、候補選択部128は、ログインユーザの所属部署と、対象ワークスペースの作成者又は更新者の所属部署とが同一である場合、当該関連度に所定値を加算する。ログインユーザ及び対象ワークスペースの作成者若しくは更新者の所属部署は、社員情報記憶部24を参照して特定可能である。
【0212】
図44は、社員情報記憶部24の構成例を示す図である。図44が示すように、社員情報記憶部24は、企業Xの社員ごとに、社員ID、名前、役職及び所属部署等の社員情報を記憶する。候補選択部128は、ログインユーザの社員IDに対応する所属部署と、対象ワークスペース(図12)の作成者又は更新者に対応する所属部署とを比較し、両者が一致すれば、対象ワークスペースの関連度に所定値を加算する。
【0213】
こうすることで、ログインユーザとの関連性(例えば、ログインユーザの業務との関連性)が相対的に高いワークスペースがステップS225において抽出される可能性を高めることができる。
【0214】
候補選択部128は、また、ステップS224において、ログインユーザ(登録対象の文書情報(第1のデータの一例)についていずれかのワークスペース(管理単位の一例)への割り当てを要求するユーザ)が属する組織において開催された会議と複数のワークスペースのそれぞれとの関連性に基づいて、一部のワークスペースを選択してもよい。具体的には、候補選択部128は、対象ワークスペースと企業Xにおいて開催された会議との関連性に基づいて、対象ワークスペースの関連度を補正してもよい。例えば、候補選択部128は、対象ワークスペースのワークスペース名(図12)といずれかの会議名との類似度が閾値以上であれば、対象ワークスペースの関連度に所定値を加算してもよい。企業Xにおいて開催された各会議の会議名は、例えば、会議情報記憶部25を参照して特定可能である。
【0215】
図45は、会議情報記憶部25の構成例を示す図である。図45が示すように、会議情報記憶部25は、開催された会議ごとに、会議名、開催日及び参加者等を記憶し、会議に関連する(会議で利用された)資料ごとに、資料種別及び資料ID等を記憶する。
【0216】
会議名は、会議の名称である。開催日は、会議が開催された日付である。参加者は、会議に参加した各社員(主催者も含む)の社員IDである。テーマは、会議の議題である。資料種別は、会議に関連する各資料の種別である。種別には、例えば、「配布資料」、「議事録」、「録画」、「録音」等が有る。「配布資料」は、会議のために配布された資料としての文書データである。「議事録」は、会議の議事録としての文書データである。「録画」は、会議の様子(映像)を録画した映像データである。「録音」は、会議の様子(音声)を録音した音声データである。資料IDは、会議に関連する各資料の識別情報である。資料種別が「配布資料」又は「議事録」である資料は文書データであるため、当該文書データの文書IDが資料IDとして利用される。すなわち、これらの文書データの文書情報も文書情報記憶部22に記憶されている。一方、資料種別が「映像」又は「音声」である資料については、映像データ又は音声データの保存先のURL等が資料IDとして用いられてもよい。又は、文書データが、映像データ及び音声データをも含む場合、資料種別が「映像」又は「音声」である資料の文書情報も文書情報記憶部22に記憶されてもよい。この場合、「映像」又は「音声」である資料のデータの資料IDも文書IDとされてもよい。
【0217】
ワークスペース名と会議名との類似度は、それぞれをBERTなど自然言語処理を用いてベクトルに変換することで算出されてもよい。例えば、それぞれのベクトルのコサイン類似度がワークスペース名と会議名との類似度とされてもよい。候補選択部128は、類似度の算出対象とする会議を、参加者にログインユーザを含む会議に限定してもよい。
【0218】
また、候補選択部128は、対象ワークスペースのいずれかのグループに属する文書情報が、いずれかの会議又は参加者にログインユーザを含む会議の資料である場合に、対象ワークスペースの関連度に所定値を加算してもよい。対象ワークスペースのいずれかのグループに属する文書情報が、いずれかの会議又は参加者にログインユーザを含む会議の資料である場合とは、対象ワークスペースのいずれかのグループに属する文書情報の文書IDが、当該会議の資料IDと一致する場合である。
【0219】
会議との関連性に基づいて対象ワークスペースの関連度を補正することで、業務との関連性が相対的に高いワークスペースがステップS225において抽出される可能性を高めることができる。
【0220】
また、第2の実施の形態においては、図30のステップS304において、登録対象の文書情報群を、分割要求に含まれている分割数のグループに分割する際に、文書ベクトルに基づいてではなく、ログインユーザとの関連性や文書情報の他の属性に基づいて当該文書情報群をグループに分割してもよい。
【0221】
第1の例として、分類部126は、登録対象の文書情報群(複数の第2のデータの一例)のそれぞれが関連する組織が、ログインユーザ(登録対象の文書情報群についていずれかのワークスペース(管理単位の一例)への割り当てを要求するユーザ)が属する組織と同じであるか否かに基づいて登録対象の文書情報群(複数の第2のデータの一例)を複数のグループに分類してもよい。例えば、分類部126は、登録対象の文書情報群を、作成者の所属部署(作成者が所属する組織)がログインユーザの所属部署と同じであるグループと、そうでないグループとの2つに分割してもよい。文書情報の作成者の所属部署及びログインユーザの所属部署は、社員情報記憶部24(図44)を参照して特定可能である。
【0222】
第2の例として、分類部126は、登録対象の文書情報群(複数の第2のデータの一例)のそれぞれが関連する組織に基づいて登録対象の文書情報群(複数の第2のデータの一例)を複数のグループに分類してもよい。例えば、分類部126は、登録対象の文書情報群を、作成者の所属部署ごとのグループに分類してもよい。
【0223】
第3の例として、登録対象の文書情報群(複数の第2のデータの一例)のそれぞれが関連する会議に基づいて登録対象の文書情報群(複数の第2のデータの一例)を複数のグループに分類してもよい。例えば、分類部126は、登録対象の文書情報群が会議の資料であれば(会議情報(図45)の資料IDに係る文書情報であれば)、分類部126は、会議情報の「テーマ」ごとのグループに当該文書情報群を分類してもよい。
【0224】
なお、上記の第1の例から第3の例の場合、分割後のグループ数が指定された分割数に一致しない可能性が有る。そこで、第1の例から第3の例のいずれかが採用される場合には、分割数の指定を不可能としてもよい。分割数の指定を可能とする場合には、分類部126は、例えば、第1の例から第3の例によって文書情報群を分割した場合のグループ数(以下、単に「グループ数」という。)と、指定された分割数(以下、単に「分割数」という。)との大小関係に応じて以下のようにグループの統合又は分割を行ってもよい。
【0225】
グループ数の方が分割数より小さい場合、分類部126は、所属する文書情報の数が最も多いグループから順に、当該グループに属する文書情報群を文書ベクトルに基づいて2つのグループに分割するということを、グループ数が分割数に一致するまで再帰的に繰り返す。
【0226】
グループ数の方が分割数より小さい場合、分類部126は、所属する文書情報の数が最も少ないグループを、当該グループに最も類似するグループと統合するということを、グループ数が分割数に一致するまで再帰的に繰り返す。グループ間の類似性は、グループに属する文書情報の文書ベクトルの類似度に基づいて評価されればよい。例えば、2つのグループ間の全ての文書情報のペアについて文書ベクトルに基づく類似度が算出され、その最大値又は平均値が、当該2つのグループ間の類似度とされてもよい。
【0227】
なお、上記においては、文書データが分類対象のデータの一例である例について説明したが、他の形式のデータ(例えば、画像データ、音声データ等)について上記各実施の形態が適用されてもよい。この場合、各データの特徴量としては、それぞれのデータの特性に応じた指標が採用されればよい。
【0228】
また、上記のようなデータへのアクセス(情報の収集)を効率化する仕組みが、利用者にとって、より創造的な仕事で新たな価値を生み出すための時間確保や集中する機会を増やすこと等に活用されてもよい 。
【0229】
なお、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0230】
なお、上記各実施の形態において、情報収集装置10は、情報処理装置及び情報処理システムの一例である。
【0231】
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0232】
本発明の態様は、例えば、以下の通りである。
<1>
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択部と、
前記所属先の候補を示す情報を出力する出力部と、
を有することを特徴とする情報処理装置。
<2>
前記候補選択部は、前記情報が示す前記候補の中から選択された候補に係る前記管理単位を分割する1以上のグループのそれぞれに属するデータの特徴量と、前記第1のデータの特徴量とに基づいて、前記第1のデータの配置先の候補とするグループを選択し、
前記出力部は、前記配置先の候補を示す情報を出力する、
ことを特徴とする<1>記載の情報処理装置。
<3>
複数の第2のデータのそれぞれの特徴量に基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする<1>又は<2>記載の情報処理装置。
<4>
前記候補選択部は、前記出力部が出力した情報が示す前記候補の中から選択された候補に係る前記管理単位を分割する1以上のグループのそれぞれに属するデータの特徴量と、前記第1のデータの特徴量とに基づいて、当該管理単位と同じグループによって分割された新たな前記管理単位において前記第1のデータの配置先の候補とするグループを選択し、
前記出力部は、前記配置先の候補を示す情報を出力する、
ことを特徴とする<1>乃至<3>いずれか記載の情報処理装置。
<5>
前記候補選択部は、前記出力部が出力した情報が示す前記候補の中から選択された候補に係る前記管理単位を分割する1以上のグループのそれぞれに属するデータの特徴量と、前記第1のデータの特徴量とに基づいて、当該管理単位と同じデータが所属し、当該管理単位と同じグループによって分割された新たな前記管理単位において前記第1のデータの配置先の候補とするグループを選択し、
前記出力部は、前記配置先の候補を示す情報を出力する、
ことを特徴とする<1>乃至<4>いずれか記載の情報処理装置。
<6>
前記候補選択部は、更に、前記第1のデータについていずれかの前記管理単位への割り当てを要求するユーザと前記複数の管理単位のそれぞれとの関連性に基づいて、前記一部の前記管理単位を選択する、
ことを特徴とする<1>乃至<5>いずれか記載の情報処理装置。
<7>
前記候補選択部は、更に、前記第1のデータについていずれかの前記管理単位への割り当てを要求するユーザが属する組織において開催された会議と前記複数の管理単位のそれぞれとの関連性に基づいて、前記一部の前記管理単位を選択する、
ことを特徴とする<1記載の情報処理装置。
<8>
複数の第2のデータのそれぞれが関連する組織が、前記第2のデータについていずれかの前記管理単位への割り当てを要求するユーザが属する組織と同じであるか否かに基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする<1>又は<2>記載の情報処理装置。
<9>
複数の第2のデータのそれぞれが関連する組織に基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする<1>又は<2>記載の情報処理装置。
<10>
複数の第2のデータのそれぞれが関連する会議に基づいて前記複数の第2のデータを複数のグループに分類する分類部と、
前記第2のデータが所属する新たな前記管理単位を生成し、当該管理単位を前記分類部が分類した複数のグループによって分割する生成部と、
を有することを特徴とする<1>又は<2>記載の情報処理装置。
<11>
前記管理単位は、前記データが、入力情報に対する共通性に基づいて分類されることで生成される、前記データの集合である、
ことを特徴とする<1>乃至<10>いずれか記載の情報処理装置。
<12>
前記グループは、前記管理単位に所属するデータの集合を前記データの特徴量の類似性に基づいて分割することで形成される、
ことを特徴とする<2>記載の情報処理装置。
<13>
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択部と、
前記所属先の候補を示す情報を出力する出力部と、
を有することを特徴とする情報処理システム。
<14>
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択手順と、
前記所属先の候補を示す情報を出力する出力手順と、
をコンピュータが実行することを特徴とする情報処理方法。
<15>
第1のデータの特徴量と、それぞれに1以上のデータが所属する複数の管理単位に所属するデータの特徴量とに基づいて、前記第1のデータの所属先の候補とする一部の前記管理単位を選択する候補選択手順と、
前記所属先の候補を示す情報を出力する出力手順と、
をコンピュータに実行させることを特徴とするプログラム。
【符号の説明】
【0233】
10 情報収集装置
20 情報管理装置
21 文書管理部
22 文書情報記憶部
23 ワークスペース記憶部
24 社員情報記憶部
25 会議情報記憶部
30 ユーザ端末
31 表示制御部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 プロセッサ
105 インタフェース装置
121 受付部
122 ベクトル変換部
123 比較部
124 文書収集部
125 ワークスペース収集部
126 分類部
127 ラベル付与部
128 候補選択部
129 ワークスペース生成部
130 ワークスペース編集部
131 表示情報生成部
132 出力部
141 文書ベクトル記憶部
B バス
【先行技術文献】
【特許文献】
【0234】
【特許文献1】特開2010-224901号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43
図44
図45