(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024153419
(43)【公開日】2024-10-29
(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06F 16/907 20190101AFI20241022BHJP
【FI】
G06F16/907
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023067301
(22)【出願日】2023-04-17
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】麻植 敬靖
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA10
5B175FB03
(57)【要約】
【課題】検索対象とされるデータ群の更新が検索結果に反映されるようにするための処理をより効率化すること。
【解決手段】情報処理装置は、検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成部と、前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成部と、前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御部と、を有する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成部と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成部と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記更新の要因となったデータは、前記更新の対象データである、
ことを特徴とする請求項1記載の情報処理装置。
【請求項3】
前記更新の要因となったデータは、前記データ群に追加されたデータ、あるいは前記データ群のうち更新されたデータである、
ことを特徴とする請求項1記載の情報処理装置。
【請求項4】
前記非同期は、前記更新のタイミングとは異なるタイミングである、
ことを特徴とする請求項1記載の情報処理装置。
【請求項5】
前記データ間の関連を示す図形は、前記データ間の関連図である、
ことを特徴とする請求項1記載の情報処理装置。
【請求項6】
前記関連情報生成部は、前記出力情報に基づく所定の入力に応じて、又は所定の時間帯に前記関連情報を生成する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項7】
前記関連情報が生成されていないデータの存在を示す情報は、当該データの識別情報を含む、
ことを特徴とする請求項1記載の情報処理装置。
【請求項8】
前記入出力制御部は、前記関連情報が生成されると所定の通知を出力する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項9】
前記関連情報生成部は、前記関連情報の計算量に応じて前記データ群の更新に応じたタイミングで前記関連情報を生成する、
ことを特徴とする請求項1記載の情報処理装置。
【請求項10】
前記計算量は、前記データ群が含むデータの数に基づく、
ことを特徴とする請求項9記載の情報処理装置。
【請求項11】
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成部と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成部と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御部と、
を有することを特徴とする情報処理システム。
【請求項12】
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成手順と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成手順と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御手順と、
をコンピュータが実行することを特徴とする情報処理方法。
【請求項13】
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成手順と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成手順と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御手順と、
をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
昨今、社内外におけるさまざまな情報資産から利用者の探索したいデータを効率的に提供してくれる仕組みが求められている。例えば、データの登録を受け付け、登録されているデータの中から検索キーワードに合致するデータを検索するシステムがある(例えば、特許文献1)。
【0003】
特許文献1には、登録対象の文書を文書ファイルサーバに登録すべきかどうかを判断して、必要な文書だけを登録できるようにすることを目的として、格納対象の文書情報と、既に格納されている文書情報との類似度を数値化し、当該類似度の数値情報と基準情報との比較結果に応じて格納対象の文書情報の格納を決定する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示された技術では、文書の登録時に、当該文書と既に格納されている文書との関連性が評価される(類似度が算出される)。そのため、登録対象の文書が文書ファイルサーバに登録されるまでの時間が、既に格納されている文書が多ければ多い程長期化する可能性が有る。
【0005】
その結果、文書の登録が指示されてから、当該文書が検索結果に反映されるようになるまでの時間が長期化してしまう。
【0006】
本発明は、上記の点に鑑みてなされたものであって、検索対象とされるデータ群の更新が検索結果に反映されるようにするための処理をより効率化することを目的とする。
【課題を解決するための手段】
【0007】
そこで上記課題を解決するため、情報処理装置は、検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成部と、前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成部と、前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御部と、を有する。
【発明の効果】
【0008】
検索対象とされるデータ群の更新が検索結果に反映されるようにするための処理をより効率化することができる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施の形態における情報処理システムの構成例を示す図である。
【
図2】本発明の実施の形態における情報処理装置10のハードウェア構成例を示す図である。
【
図3】本発明の実施の形態における情報処理システムの機能構成例を示す図である。
【
図4】ファイル群の更新に応じて実行される処理手順の一例を説明するためのシーケンス図である。
【
図5】ファイル群の更新に応じて実行される処理手順におけるデータの流れを示す図である。
【
図10】ファイル群の更新に応じた情報記憶部131の内容の変化の一例を示す図である。
【
図11】ファイルの検索処理の処理手順の一例を説明するためのシーケンス図である。
【
図12】ファイルの検索処理におけるデータの流れを示す図である。
【
図14】単語重要度情報を利用したファイルの検索処理におけるデータの流れを示す図である。
【
図15】関連図の表示処理の処理手順の一例を説明するためのシーケンス図である。
【
図16】関連図データの生成におけるデータの流れを示す図である。
【
図18】関連図データの生成処理の処理手順の一例を説明するためのフローチャートである。
【
図19】対象ファイルの関連情報の一例を示す図である。
【
図23】未反映のファイルのファイル名を含む追加領域532の表示例を示す図である。
【
図24】関連情報の更新処理の所要時間の予測値を含む追加領域532の表示例を示す図である。
【
図25】関連情報の更新後の関連図表示画面の表示例を示す図である。
【
図26】関連情報の更新が終了したことの通知を含む検索結果画面520の表示例を示す図である。
【発明を実施するための形態】
【0010】
以下、図面に基づいて本発明の実施の形態を説明する。
図1は、本発明の実施の形態における情報処理システムの構成例を示す図である。
図1において、情報処理システムは、ファイルサーバ20、情報処理装置10及び1以上のユーザ端末30等を含む。情報処理装置10は、ネットワークN1を介してファイルサーバ20に接続する。ユーザ端末30は、ネットワークN2を介してファイルサーバ20に接続し、ネットワークN3を介して情報処理装置10に接続する。
【0011】
ユーザ端末30は、ユーザによる指示に応じ、ファイルサーバ20に対してファイルをアップロードしたり、ファイルの検索を情報処理装置10に要求したりする端末である。例えば、PC(Personal Computer)、タブレット端末又はスマートフォン等がユーザ端末30として利用されてもよい。
【0012】
ファイルとは、データの管理単位である、ファイルが格納するデータの種類は特定のものに限定されない。例えば、データは、文書、画像、音声等であってもよい。本実施の形態において、データが、ファイルに格納されて流通する例を説明する。
【0013】
ファイルサーバ20は、ユーザ端末30からアップロードされたファイルを記憶等する1以上のコンピュータである。
【0014】
情報処理装置10は、ファイルサーバ20が記憶するファイルに関する情報を記憶するとともに、ユーザ端末30からのファイルの検索要求に応じ、当該情報に基づいて検索要求に対応するファイルを検索し、検索結果を応答する1以上のコンピュータである。
【0015】
なお、ファイルサーバ20及び情報処理装置10は、同じコンピュータを用いて実現されてもよい。この場合、ネットワークN1は、ファイルサーバ20及び情報処理装置10を構成するコンピュータ内のバス等の信号線に相当する。又は、各ユーザ端末30が情報処理装置10を兼ねてもよい。この場合、ネットワークN3は、ユーザ端末30内のバス等の信号線に該当する。
【0016】
本発明の実施の形態において情報処理システムが利用されるシーン(状況)は、所定の形態に限定されないが、例えば、企業内において利用されてもよい。すなわち、企業における各社員(企業のほか官公庁、各種団体、組合等を含み、社員のほか派遣社員、パート、アルバイト等も含む)がユーザであってもよいし(本実施の形態では、企業における各社員をユーザとして説明されるがこれに限定されるものではなく、一般ユーザにより本情報収集システムが利用される場合にも適用することができる。)、所定のグループや地域などにおける一組織、すなわち本発明の実施の形態でいう組織がグループ会社や団体等における企業等であってもよい。なお、以下、本発明の実施の形態では或る企業(以下、「企業X」という。)において利用されるシーンを一例として説明する。
【0017】
この場合、ファイルサーバ20は、企業X内のファイルを記憶するコンピュータ群である。例えば、ファイルサーバ20は、企業X内において作成される各種の文書データにファイルを記憶する。この場合、ネットワークN2は、例えば、企業X内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。
【0018】
情報処理装置10は、企業X内に設置されてもよいし、企業X外(企業X内のネットワークとインターネットを介して接続されるクラウド環境等(例えば、データセンタ等))に設置されてもよい。情報処理装置10が企業X内に設置される場合、ネットワークN1及びネットワークN3は、例えば、企業X内のWAN(Wide Area Network)又はLAN(Local Area Network)に相当する。情報処理装置10が企業X内に設置される場合、ネットワークN1及びネットワークN3は、例えば、インターネットに相当する。
【0019】
図2は、本発明の実施の形態における情報処理装置10のハードウェア構成例を示す図である。
図2の情報処理装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
【0020】
情報処理装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0021】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って情報処理装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
【0022】
なお、ファイルサーバ20及びユーザ端末30も
図2と同様のハードウェア構成を有してもよい。
【0023】
図3は、本発明の実施の形態における情報処理システムの機能構成例を示す図である。
図3において、ファイルサーバ20は、通知部21を有する。通知部21は、ファイルサーバ20にインストールされた1以上のプログラムが、ファイルサーバ20のプロセッサに実行させる処理により実現される。ファイルサーバ20は、また、ファイル記憶部22を利用する。ファイル記憶部22は、例えば、ファイルサーバ20の補助記憶装置、又はファイルサーバ20にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
【0024】
ファイル記憶部22は、ユーザ端末30からアップロードされるファイルを記憶する。ファイル記憶部22に記憶されたファイル群は、検索対象とされる。
【0025】
通知部21は、ファイル記憶部22が記憶するファイル群(データ群の一例)の更新に応じ、当該ファイル群が更新されたことを情報処理装置10へ通知する。ファイル群の更新とは、ファイル記憶部22に新たなファイルがアップロードされたこと(新規ファイルの追加)、又はファイル記憶部22に記憶されている既存のファイルが更新されたこと(既存ファイルの内容の変更や追加)など、を指す。新たなファイルのアップロードの場合には、アップロード対象のファイルがファイル群の更新の要因となったファイルであり、既存のファイルの更新の場合には、更新されたファイルがファイル群の更新の要因となったファイルである。ファイル群の更新の要因となったファイル、とは、ファイル群に追加・更新されたファイルである。あるいはファイル群への追加や更新の対象となったファイル、と言うこともできる。
【0026】
情報処理装置10は、ファイル管理部111、情報生成制御部112、ユニット生成部113、メタ情報生成部114、ベクトル生成部115、単語重要度情報更新部116、関連情報生成部117、入出力制御部118、検索部119及び関連図データ生成部120を有する。これら各部は、情報処理装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。情報処理装置10は、また、情報記憶部131を利用する。情報記憶部131は、例えば、補助記憶装置102、又は情報処理装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
【0027】
ファイル管理部111は、ファイルサーバ20からのファイル群が更新されたことの通知を受信する。当該通知には、更新の要因となったファイル(以下、「対象ファイル」という。)が含まれる。
【0028】
情報生成制御部112は、対象ファイルに関して生成されるべき各種の情報の生成を制御する。具体的には、情報生成制御部112は、ユニット生成部113、メタ情報生成部114、ベクトル生成部115、単語重要度情報更新部116、関連情報生成部117及び関連情報生成部117に対し、それぞれが生成又は更新すべき情報の生成指示又は更新指示を送信する。
【0029】
ユニット生成部113は、ファイル記憶部22が記憶するファイル群の更新に応じた情報生成制御部112からのユニット情報の生成指示に応じ、対象ファイルをユニット単位のユニットデータに分割し、各ユニットデータの内容を示すユニット情報を情報記憶部131に記録する。各ユニットデータは、対象ファイルの一部分であるため、ユニットデータを連結することで、対象ファイルの全部を再現できる。ユニットは、例えば、予め決められた文の数(例えば、3つの文ごと)によって区切られてもよい。但し、ユニットは、文字数、単語数、段落等、他の単位によって区切られてもよい。
【0030】
メタ情報生成部114は、ファイル記憶部22が記憶するファイル群の更新に応じた情報生成制御部112からのメタ情報の生成指示に応じ、対象ファイルのメタ情報を生成する。メタ情報は、書誌情報とも呼ばれる情報である。メタ情報生成部114は、生成したメタ情報を情報記憶部131に記録する。
【0031】
ベクトル生成部115は、ファイル記憶部22が記憶するファイル群の更新に応じた情報生成制御部112からのベクトルの生成指示に応じ、対象ファイルのユニットデータごとに、BERTなど自然言語処理を用いて、当該ユニットデータの意味的な特徴を示すベクトル(以下、「意味ベクトル」という。)を生成する。意味ベクトルは、埋め込み又は分散表現とも呼ばれるベクトルであってもよい。なお、ユニット単位の意味ベクトルを「ユニットベクトル」という。ベクトル生成部115は、対象ファイルの各ユニットベクトルを示すベクトル情報を情報記憶部131に記録する。
【0032】
なお、ファイル記憶部22が記憶するファイル群の更新に応じて生成されるユニット情報、メタ情報及びベクトル情報は、対象ファイルが検索対象とされるために必要な情報であり、広義において、対象ファイルの特徴情報の一例である。したがって、ユニット生成部113、メタ情報生成部114及びベクトル生成部115は、広義において特徴情報生成部の一例である。ユニット情報、メタ情報及びベクトル情報のうち、ベクトル情報は、対象ファイルが検索条件に合致するか否かの判定に必要となる情報であり、狭義において特徴情報の一例である。したがって、ベクトル生成部115は、狭義において特徴情報生成部の一例である。
【0033】
単語重要度情報更新部116は、ファイル記憶部22が記憶するファイル群の更新に応じた情報生成制御部112からの単語重要度情報の更新指示に応じ、情報記憶部131に記憶されている単語重要度情報を更新する。単語重要度情報とは、ファイル記憶部22に記憶されている全てのファイルに含まれる単語ごとに、各ファイルの各ユニットにおける重要度を示す情報であり、ファイルごとではなく、ファイル記憶部22に記憶されている複数のファイルの集合に対する情報である。単語重要度情報は、ファイルの検索に用いられてもよい。
【0034】
関連情報生成部117は、対象ファイルに関する関連情報を生成する。対象ファイルに関する関連情報とは、対象ファイルと他のファイルそれぞれとの関連性の高さを示す情報である。厳密には、関連情報は、対象ファイルの各ユニットと、他のファイルのそれぞれの各ユニットとの関連性(関連性の高さ、関連度の高さなど)を示す情報である。関連情報の生成には、ユニット単位での組み合わせごとに関連性の高さの評価が必要となるため、ファイル数が膨大な場合には、数分から数時間を要する可能性が有る。関連情報の生成が完了するまで対象ファイルの登録が完了しないとなると、対象ファイルがファイルサーバ20にアップロードされてから、対象ファイルが検索結果に反映されるようになるまでに数分から数時間の遅延が生じる可能性が有る。一方で、関連情報は、ファイルの検索時には利用されない情報である。そこで、対象ファイルに関する登録処理の所要時間を短縮化し、対象ファイルが検索結果に迅速に反映されるようにするために、関連情報生成部117は、ファイル記憶部22が記憶するファイル群の更新に対して非同期なタイミングで関連情報を生成する。非同期は、更新のタイミングとは異なるタイミング、後のタイミングである。但し、関連情報生成部117は、関連情報の計算量に応じて(例えば、当該計算量が少なければ)、ファイル記憶部22が記憶するファイル群の更新に応じたタイミング(当該更新に同期したタイミング)で関連情報を生成してもよい。
【0035】
検索部119は、ユーザ端末30からのファイルの検索要求に応じ、複数のファイルに関して情報記憶部131に記憶されている特徴情報を用いて当該検索要求に対応するファイルを検索する。
【0036】
関連図データ生成部120は、ファイルの検索結果に含まれているいずれかのファイルについてユーザ端末30から送信される関連図の表示要求に応じ、当該ファイルの関連情報に基づいてファイル間の関連図を示すデータ(以下、「関連図データ」という。)を生成する。関連図は、相関図とも言い、ファイルをノードとし、関連性が相対的に高いファイルのノード同士をエッジで接続したグラフ形式の図形をいう。
【0037】
入出力制御部118は、ファイルの検索要求をユーザ端末30から受け付けたり(入力したり)、当該検索要求に応じた検索部119による検索結果を含む出力情報を生成したりする。
【0038】
入出力制御部118は、また、検索結果に含まれるいずれかのファイルに関する関連図の表示要求(関連情報に基づくファイル間の関連を示す図形の表示要求)をユーザ端末30から受け付けたり(入力したり)、当該ファイルに関して関連図データ生成部120が生成する関連図データに基づく関連図を含む出力情報を生成したりする。入出力制御部118は、生成した出力情報をユーザ端末30へ送信する。入出力制御部118は、関連図の表示要求(関連情報に基づくファイル間の関連を示す図形の表示要求)を受け付けた際に、対象ファイルについて関連情報が生成されていない場合には、関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する。関連情報生成部117は、当該出力情報に基づく所定の入力(例えば、当該出力情報に基づいてユーザ端末30において表示される画面に対する所定の操作)に応じ、又は所定の時間帯に対象ファイルの関連情報を生成してもよい。この場合、入出力制御部118は、当該関連情報が生成されると、所定の通知を出力してもよい。
【0039】
以下、情報処理システムにおいて実行される処理手順について説明する。
図4は、ファイル群の更新に応じて実行される処理手順の一例を説明するためのシーケンス図である。また、
図5は、ファイル群の更新に応じて実行される処理手順におけるデータの流れを示す図である。
図5におけるステップ番号は、
図4におけるステップ番号に対応する。但し、
図5は、新たなファイルが追加された場合のデータの流れを示す。
【0040】
ユーザによる操作に応じ、ユーザ端末30が、ファイルサーバ20のファイル記憶部22に対してファイルが追加(新規登録)したり、ファイル記憶部22に記憶されているいずれかのファイルが更新したりすると(S101)、ファイルサーバ20の通知部21は、ファイル記憶部22が記憶するファイル群が更新されたことを示す更新通知を情報処理装置10へ送信する(S102)。当該更新通知は、ファイル群の更新の要因となった、追加又は更新されたファイル(以下、「対象ファイル」という。)と、対象ファイルの識別情報(以下、「文書ID」という。)とを含む。更新の要因とは、検索結果に基づき、或るデータ群に対して対象ファイル(データ)の追加又は更新があった場合を指す。 情報処理装置10のファイル管理部111は、当該更新通知を受信すると、当該更新通知を情報生成制御部112へ送信する(S103)。
【0041】
情報生成制御部112は、当該更新通知に応じ、情報記憶部131が記憶する更新中フラグをONに更新する(S104)。更新中フラグは、ファイル記憶部22におけるファイルの更新が情報記憶部131に完全に反映されたか否か(つまり、ファイル記憶部22と情報記憶部131との間に不整合が無いか否か)を示すデータである。更新中フラグがONであることは、ファイル記憶部22が記憶するファイル群の更新が情報記憶部131に完全に反映されていない状態であることを示す。更新中フラグがOFFであることは、ファイル記憶部22が記憶するファイル群の更新が情報記憶部131に反映された状態であることを示す。
【0042】
続いて、情報生成制御部112は、当該更新通知に応じたユニットの生成指示をユニット生成部113へ送信する(S105)。当該生成指示は、当該更新通知を含む。ユニット生成部113は、当該生成指示に応じ、当該更新通知に含まれている対象ファイルをユニット単位に分割し、当該更新通知に含まれている文書IDに各ユニットが対応付けられたユニット情報を情報記憶部131に記録する(S106)。
【0043】
図6は、ユニット情報の構成例を示す図である。
図6が示すように、1つのファイルに対するユニット情報は、当該ファイルに対する文書IDと、ユニットごとにユニットID及びユニットデータとを含む。ユニットIDは、ユニットデータの識別情報である。ユニットデータは、ファイル内の文章のうち、ユニットに属する文章を示すテキストデータである。
【0044】
なお、ファイル群の更新の要因が新たなファイルの追加である場合、ユニット生成部113は、対象ファイルの文書IDに関連付けて、新たなユニット情報を情報記憶部131へ追加する。ファイル群の更新の要因が既存のファイルの更新である場合、ユニット生成部113は、情報記憶部131において対象ファイルの文書IDに対応するユニット情報を、新たに生成したユニット情報によって更新する。
【0045】
続いて、情報生成制御部112は、当該更新通知に応じたメタ情報の生成指示をメタ情報生成部114へ送信する(S107)。当該生成指示は、当該更新通知を含む。メタ情報生成部114は、当該生成指示に応じ、当該更新通知からメタ情報を抽出し、当該メタ情報を情報記憶部131に記録する(S108)。
【0046】
図7は、メタ情報の構成例を示す図である。
図7が示すように、1つのファイルに対するメタ情報は、当該ファイルの文書ID、当該ファイルの(ファイル記憶部22における)ファイルパス、当該ファイルの作成日、当該ファイルの作成者、当該ファイルの最終更新日、及び当該ファイルの最終更新者等を含む。ファイルパス、当該ファイルの作成日、当該ファイルの作成者、当該ファイルの最終更新日、及び当該ファイルの最終更新者等は、対象ファイル(に付与されている属性情報)から抽出されてもよい。
【0047】
なお、ファイル群の更新の要因が新たなファイルの追加である場合、メタ情報生成部114は、対象ファイルの文書IDに関連付けて、新たなメタ情報を情報記憶部131へ追加する。ファイル群の更新の要因が既存のファイルの更新である場合、メタ情報生成部114は、情報記憶部131において対象ファイルの文書IDに対応するメタ情報を、新たに生成したメタ情報によって更新する。
【0048】
続いて、情報生成制御部112は、当該更新通知に応じたベクトルの生成指示をベクトル生成部115へ送信する(S109)。当該生成指示は、当該更新通知を含む。ベクトル生成部115は、当該生成指示に応じ、ステップS106において情報記憶部131に記録された、対象ファイルに対応する各ユニットデータ(
図6)についてユニットベクトルを生成し、ユニットIDと、当該更新通知が含む文書IDとに各ユニットベクトルが関連付けられたベクトル情報を情報記憶部131へ記録する(S110)。対象ファイルに対応する各ユニットデータ(
図6)は、当該更新通知が含む文書IDに基づいて特定可能である。
【0049】
図8は、ベクトル情報の構成例を示す図である。
図8が示すように、1つのファイルに対するベクトル情報は、当該ファイルの文書IDと、当該ファイルに属するユニットごとに、ユニットID及びユニットベクトルとを含む。
【0050】
なお、ファイル群の更新の要因が新たなファイルの追加である場合、ベクトル生成部115は、対象ファイルの文書IDに関連付けて、新たなユニットベクトル群を情報記憶部131へ追加する。ファイル群の更新の要因が既存のファイルの更新である場合、ベクトル生成部115は、情報記憶部131において対象ファイルの文書IDに対応するユニットベクトル群を、新たに生成したユニットベクトル群によって更新する。
【0051】
続いて、情報生成制御部112は、当該更新通知に応じた単語重要度情報の更新指示を重要度更新部へ送信する(S111)。当該更新指示は、当該更新通知を含む。重要度更新部は、当該更新指示に応じ、情報記憶部131に記憶されている単語重要度情報を更新する(S112)。具体的には、重要度更新部は、対象ファイルも含む全ファイルの全ユニットに含まれる単語の集合(重複を除いた単語の集合)について、対象ファイルのユニットごとの重要度を算出し、算出結果を単語重要度情報に追加する。重要度とは、単語の集合における各単語の相対的な重要性を示す指標をいう。例えば、TF-IDF値が重要度として利用されてもよいし、他の尺度の値が重要度として利用されてよい。
【0052】
図9は、単語重要度情報の構成例を示す図である。
図9において、列方向に配列されている単語は、全ファイルの全ユニットに含まれている単語の集合(重複を除いた単語の集合)である。行方向には、各ファイルの各ユニットが割り当てられている。或る行及び或る列の値は、当該列に係る単語の当該行に係るユニットにおける重要度である。
【0053】
以上において、対象ファイルの検索に必要な情報は情報記憶部131に記憶される。したがって、ファイル記憶部22が記憶するファイル群の更新が、ユーザが入力した条件に応じた検索結果に反映されるようになる。
【0054】
但し、更新中フラグはONのままである。ファイル群の更新(対象ファイルの追加又は更新)に応じた関連情報の更新が行われていないからである。
【0055】
図10は、ファイル群の更新に応じた情報記憶部131の内容の変化の一例を示す図である。
図10において(1)は、ファイル群の更新前の情報記憶部131の内容を示し、(2)は、ファイル群の更新後にステップS112までが実行された時点における情報記憶部131の内容を示す。(2)において破線で表現された情報が追加又は更新された情報を示す。具体的には、対象ファイルのメタ情報、ユニット情報及びベクトル情報が追加又は更新される。また、単語重要度情報が更新される。
【0056】
なお、情報生成制御部112は、ステップS110の終了後に、当該更新通知に応じた関連情報の生成指示を関連情報生成部117へ送信してもよい。関連情報生成部117は、当該生成指示に応じて、又は予め設定された時間帯(例えば、夜間の或る時刻に)対象ファイルの関連情報を生成し、他の各ファイルの関連情報を更新してもよい。その場合、更新中フラグはOFFにされる。他の各ファイルの関連情報を更新するのは、他の各ファイルの関連情報に対して、対象ファイルとの関連の高さを示す情報を追加する必要が有るからである。
【0057】
次に、ファイルの検索処理について説明する。
図11は、ファイルの検索処理の処理手順の一例を説明するためのシーケンス図である。また、
図12は、ファイルの検索処理におけるデータの流れを示す図である。
図12におけるステップ番号は、
図11におけるステップ番号に対応する。
【0058】
ステップS201において、入出力制御部118は、ファイルの検索要求をユーザ端末30から受信する(受け付ける)。ファイルの検索要求は、ファイルの検索に関する条件(検索条件)を含む。検索条件は、例えば、検索対象とする情報を自然言語で表現する文字列(以下、「クエリ」という。)を含む。
【0059】
クエリは、例えば、1以上の単語の集合である。クエリは、1以上の単語の羅列であってもよいし、1以上の文の形式を有してもよい。
【0060】
続いて、入出力制御部118は、当該検索要求を検索部119に送信する(S202)。続いて、検索部119は、情報記憶部131が記憶する各種情報を参照して、クエリに合致するファイルを検索し、検索結果を生成する(S203)。クエリに合致するファイルは以下のように特定される。
【0061】
検索部119は、まず、ユニットベクトルの生成方法と同じ方法で、クエリの意味ベクトル(以下、「クエリベクトル」という。)を生成する。検索部119は、情報記憶部131に登録されているファイルごとに、当該ファイルの各ユニベクトルとクエリベクトルとの類似度を算出し、最大の類似度をクエリに対する当該ファイルの類似度(当該ファイルに対するクエリの類似度)とする。検索部119は、類似度が上位N件であるファイル(又は、類似度が閾値以上であるファイル)をクエリに合致するファイルとして特定する。クエリベクトルとユニットベクトルとの類似度としては、例えば、コサイン類似度が用いられてもよい。
【0062】
検索部119は、特定した各ファイルのメタ情報の集合を情報記憶部131から取得することで検索結果を生成する。
【0063】
検索部119は、検索結果(メタ情報の集合)を入出力制御部118へ送信する(S204)。入出力制御部118は、当該メタ情報の集合に基づいて、検索結果を表示するための検索結果画面の画面データを生成し、当該画面データを含む出力情報をユーザ端末30へ送信する(S205)。ユーザ端末30は、当該画面データに基づいて検索結果画面を表示する。
【0064】
図13は、検索結果画面の表示例を示す図である。
図13が示すように、検索結果画面520は、検索条件表示領域521及び検索結果表示領域522を含む。
【0065】
検索条件表示領域521は、検索条件を表示する領域であり、クエリ表示領域5211を含む。クエリ表示領域5211は、クエリが表示される領域である。なお、クエリ表示領域5211は操作可能であってもよい。この場合、クエリ表示領域5211を介してクエリの一部又は全部が変更されて実行ボタン5212が押下されることで、
図11のステップS201以降が再実行されてもよい。
【0066】
検索結果表示領域522は、検索結果に含まれるファイルごとに、作成者、更新者、ファイルパス、ラベル一覧及び詳細ボタン523等が表示される領域である。なお、更新者は、例えば、メタ情報(
図7)における最終更新者である。ラベル一覧は、ファイルから抽出されたラベルの一覧である。或るファイルのラベルは、例えば、単語重要度情報において、当該ファイルのいずれかのユニットにおける重要度の値が上位M番目までの単語である。詳細ボタン523は、当該詳細ボタン523に対応するファイルに関する関連図の表示指示を受け付けるためのボタンである。
【0067】
ユーザは、検索結果画面520を参照することで、検索条件に応じて検索されたファイルの一覧を確認することができる。この際、関連情報が生成されていないファイルが存在したとしても、当該ファイルの特徴情報は情報記憶部131に反映されている。上記したように、検索は、特徴情報を用いて実行されるため、当該ファイル(のユニットベクトル群)が検索条件に合致すれば、当該ファイルも検索結果に含まれることになる。
【0068】
なお、上記では、ファイルの検索(S203)において単語重要度情報が利用されていないが、ファイルの検索に単語重要度情報が利用されてもよい。
【0069】
図14は、単語重要度情報を利用したファイルの検索処理におけるデータの流れを示す図である。
図14において、検索部119は、単語重要度情報をも入力としてファイルを検索する(S203)。この場合、検索部119は、例えば、クエリを単語に分割する。検索部119は、クエリを分割することによって得られた各単語(以下、「クエリ分割単語」という。)について、各ファイルの各ユニットにおける重要度を単語重要度情報(
図9)から取得する。検索部119は、或るユニットについてクエリ分割単語ごとに取得された重要度のうちの最大値を、当該ユニットに対するクエリの重要度とする。検索部119は、或るファイルについてユニットごとに求められたクエリの重要度のうちの最大値を当該ファイルに対するクエリの重要度とする。検索部119は、ファイルごとに、例えば、当該ファイルに対するクエリに対する類似度と、当該ファイルに対するクエリの重要度との重み付き和(加重和)を検索スコアとして算出し、検索スコアが上位N件であるファイル(又は検索スコアが閾値以上であるファイル)をクエリに合致するファイルとして特定する。
【0070】
続いて、
図13の検索結果画面520を介していずれかのファイルに関する関連図の表示指示が入力された場合に実行される関連図の表示処理について説明する。
図15は、関連図の表示処理の処理手順の一例を説明するためのシーケンス図である。
【0071】
検索結果画面520において、いずれかのファイルに関する詳細ボタン523が押下されると、ユーザ端末30は、関連図の表示要求を情報処理装置10へ送信する(S301)。当該表示要求は、詳細ボタン523が押下されたファイル(以下、「対象ファイル」という。)の文書ID(以下、「対象文書ID」という。)を含む。
【0072】
情報処理装置10の入出力制御部118は、当該表示要求を受信すると、関連図データの生成要求を関連図データ生成部120へ送信する(S302)。当該生成要求は、関連図の表示要求に含まれていた対象文書IDを含む。関連図データ生成部120は、当該生成要求に応じ、情報記憶部131が記憶する更新中フラグを参照する(S303)。関連図データ生成部120は、更新中フラグがONであれば、ステップS304を実行してからステップS305へ進み、更新中フラグがOFFであれば、ステップS304を実行せずにステップS305へ進む。
【0073】
ステップS304において、関連図データ生成部120は、関連情報に対して未反映のファイルが有ることを示す(関連情報が生成されていないファイルの存在を示す)UI要素(表示要素)を生成する。関連情報が最後に更新されてからファイル記憶部22が記憶するファイル群が更新された場合、更新の要因となったファイルについては関連情報は生成されていない。したがって、この場合、ステップS304が実行される。
【0074】
ステップS302又はS304に続いて、関連図データ生成部120は、
図16が示すように、対象ファイルの関連情報、単語重要度情報及びメタ情報を情報記憶部131から取得して、取得した情報に基づいて関連図データを生成する(S305)。ここで生成される関連図データは、例えば、
図17に示されるような関連図を示すデータである。
【0075】
図17は、関連図の一例を示す図である。
図17が示すように、関連図は、ファイル及びラベルをノードとし、ファイル間の関連(ラベルを介した関連)をエッジとするグラフ形式の図形である。ここで図形とは、ファイル間の関連を視覚的(あるいは直感的とも言う)に示す図などの表示形式のことであり、グラフ形式に限らず、樹形図、ダイアグラム形式、相関図、チャート(バブルチャート等)、ワードクラウド(テキストマイニング)などで表示・表現するものも含まれる。ラベルを介した関連の「ラベル」とは、当該関連に係るファイルを関連付ける単語をいう。つまり、ラベルを介した関連において、ラベルは、どのような意味における関連であるのかを示す。
【0076】
図17では、「文書1」が対象ファイルである例が示されている。「文書1」に係るファイルに対応するノード(以下、「ファイルノード」という。)は、「ラベル1」~「ラベル3」の3つのラベルに対応するノード(以下、「ラベルノード」という。)に接続している。
【0077】
「ラベル1」のラベルノードには、「類似文書1」及び「類似文書2」のファイルノードが接続している。このことは、「類似文書1」及び「類似文書2」は、「ラベル1」が示す意味において「文書1」との関連性が相対的に高いことを示す。
【0078】
関連図データ生成部120は、
図17が示すような関連図を示す関連図データを以下のように生成する。
図18は、関連図データの生成処理の処理手順の一例を説明するためのフローチャートである。
【0079】
ステップS401において、関連図データ生成部120は、対象ファイルの関連情報に基づいて、対象ファイルと他の各ファイルとの類似度を算出する。
【0080】
図19は、対象ファイルの関連情報の一例を示す図である。
図19が示すように、関連情報は、行列形式の情報である。
図19において、行方向は、対象ファイルの各ユニットに対応する。列方向は、対象ファイル以外で関連情報を生成済みの全てのファイルの各ユニットに対応する。或る行の或る列の値は、当該行に係るユニットと当該列に係るユニットとの類似度である。つまり、対象ファイルの関連情報は、対象ファイルのユニットと、他のファイルの各ユニットとの組み合わせごとの類似度である。なお、2つのユニットの類似度は、当該2つのユニットに係る2つのユニットベクトルの類似度である。
【0081】
関連図データ生成部120は、対象ファイルと或るファイルとのユニットの組み合わせごとの類似度のうちの最大値を、対象ファイルと当該或るファイルとの類似度として算出する。
【0082】
続いて、関連図データ生成部120は、対象ファイルとの類似度が上位のM件のファイルを「類似ファイル」として特定する(S402)。
【0083】
続いて、関連図データ生成部120は、類似ファイルごとに、対象ファイルのユニットのうち、当該類似ファイルのいずれかのユニットとの類似度が閾値以上であるユニット(以下、「関連ユニット」という。)を特定する(S403)。或る類似ファイルについて特定される関連ユニットは、対象ファイルのユニットの中で、当該類似ファイルとの類似性が相対的に高いユニットである。閾値は、各類似ファイルと対象ファイルとの類似度のうちの最小値以上であってもよいし、予め定められた固定値であってもよい。いずれの場合であっても、1つの類似ファイルに対して2以上の関連ユニットが特定される可能性が有る。
【0084】
続いて、関連図データ生成部120は、対象ファイルのユニットごとに、当該ユニットを関連ユニットとする類似ファイル群から1つのラベルを抽出する(S404)。類似ファイル群からのラベルの抽出は、例えば、類似ファイル群が含む各単語の中で重要度が最高である単語をラベルとすることで実現される。このようなラベルは、単語重要度情報(
図9)を参照して特定可能である。
【0085】
続いて、関連図データ生成部120は、対象ファイルに対応するファイルノード、各類似ファイルに対応するファイルノード、及び対象ファイルのユニットごとのラベルに対応するラベルノードのそれぞれを示すノードデータを生成する(S405)。
【0086】
図20は、ノードデータの一例を示す図である。
図20が示すように、ノードデータは、関連図(
図17)を構成するノードごとにデータタイプ、ノードID及び名前を含む。データタイプは、ルートノード、ファイルノード及びラベルノードのいずれであるのかを示す項目である。ルートノードは、ファイルノードのうち、対象ファイルに対応するノードである。ノードIDは、例えば、ステップS405において関連図データ生成部120によって各ノードに割り当てられる、各ノードの識別情報である。名前は、ファイルノードについては当該ファイルノードに対応するファイルのファイル名である。当該ファイル名はメタ情報(
図7)から取得可能である。ラベルノードの名前は、ラベルとしての文字列である。
【0087】
続いて、関連図データ生成部120は、対象ファイルに対応するファイルノード(ルートノード)と各ラベルノードとを接続するエッジと、各ラベルノードと当該ラベルノードに対応するユニットを関連ユニットとする類似ファイルに対応するファイルノードとを接続するエッジとのそれぞれを示すエッジデータを生成する(S406)。
【0088】
図21は、エッジデータの一例を示す図である。
図21が示すように、エッジデータは、関連図(
図17)を構成するエッジごとに、エッジID、from及びtoを含む。エッジIDは、エッジの識別情報である。fromは、エッジの始点となるノードのノードIDである。toは、エッジの終点となるノードのノードIDである。
【0089】
図20に示したノードデータと
図21に示したエッジデータとが、関連図データを構成する。
【0090】
なお、各類似ファイルのファイルノードは、当該類似ファイルにとっての関連ユニットに対応するラベルのラベルノードを介して対象ファイルのファイルノードに接続する。上記したように、或る類似ファイルに対して複数の関連ユニットが存在する可能性が有る。したがって、或る類似ファイルのファイルノードは、複数のラベルノードを介して対象ファイルのファイルノードに接続する可能性が有る。例えば、或る類似ファイルの全体が対象ファイルの全体に類似している場合、当該類似ファイルのファイルノードは、大半のラベルノードを介して対象ファイルのファイルノードに接続する可能性が有る。
【0091】
図15の説明に戻る。ステップS305に続いて、関連図データ生成部120は、生成した関連図データ(ノードデータ及びエッジデータ)を入出力制御部118へ送信する(S306)。この際、ステップS304が実行された場合には、関連図データ生成部120は、ステップS304において生成されたUI要素が付与された当該関連図データを入出力制御部118へ送信する。入出力制御部118は、当該関連図データ(
図20、
図21)に基づいて関連図(
図17)を生成し、当該関連図を表示するための関連図表示画面の画面データを生成する。ステップS304において生成されたUI要素が関連図データに付与されている場合、入出力制御部118は、当該UI要素を含む関連図表示画面の画面データを生成する。続いて、入出力制御部118は、当該画面データを含む出力情報をユーザ端末30へ送信する(S307)。ユーザ端末30は、当該画面データに基づいて関連図表示画面を表示する。
【0092】
図22は、関連図表示画面の表示例を示す図である。
図22が示すように、関連図表示画面530は、関連図表示領域531を含む。関連図表示領域531は、関連図データに基づく関連図を表示する領域である。
図22には、
図17に示した関連図が示されている。
【0093】
更新中フラグがONであり、ステップS304が実行された場合、関連図表示画面530は、更に、追加領域532を含む。すなわち、追加領域532が、ステップS304において生成される、関連情報に対して未反映のファイルが有ること(関連情報が生成されていないファイルの存在)を示すUI要素の一例である。
【0094】
追加領域532は、メッセージ533及び更新ボタン534を含む。メッセージは、関連図に対して未反映のファイルが有ること(関連情報が生成されていないファイルの存在)をユーザに通知するためのメッセージである。
【0095】
更新ボタン534は、メッセージ533を参照したユーザから、未反映ファイルの反映指示を受け付けるためのボタンである。
【0096】
なお、追加領域532には、未反映のファイルの識別情報(例えば、ファイル名)が表示されるようにしてもよい。
図23は、未反映のファイルのファイル名を含む追加領域532の表示例を示す図である。
図23中、
図22と同一部分には同一符号を付している。
図23が示す追加領域532におけるメッセージ533において、「<ファイル名>」が未反映のファイルのファイル名(識別情報)を示す。
【0097】
また、追加領域532には、更新ボタン534が押下された場合に実行される関連情報の更新処理の所要時間の予測値が表示されてもよい。
図24は、関連情報の更新処理の所要時間の予測値を含む追加領域532の表示例を示す図である。
図24中、
図23と同一部分には同一符号を付している。
図24が示す追加領域532におけるメッセージ533において、最終行の「予測更新時間:XX時間」の「XX」が、関連情報の更新処理の所要時間の予測値を示す。当該予測値は、関連情報を生成及び更新するための計算量に基づいて算出されてもよい。未反映のファイル関して計算が必要な関連情報は、未反映のファイルのユニット数×他のファイルのユニット数の類似度の集合であるため、総ファイル数に大きく影響を受けると考えられる。そこで、ファイル記憶部22に記憶されている総ファイル数に基づいて、関連情報の計算量が評価(算出)されてもよい。または、未反映のファイルごとに、当該ファイルのユニット数×他のファイルのユニット数を計算し、計算結果の総和に基づいて関連情報の計算量が評価(算出)されてもよい
関連図表示画面530において更新ボタン534が押下されると、ユーザ端末30は、未反映のファイルの反映要求を情報処理装置10へ送信する(
図15のS311)。情報処理装置10の入出力制御部118は、当該反映要求を受信すると、関連情報の更新要求を情報生成制御部112へ送信する(S312)。情報生成制御部112は、当該更新要求に応じ、関連情報の更新要求を関連情報生成部117へ送信する(S313)。
【0098】
関連情報生成部117は、当該更新要求に応じ、未反映のファイルごとに、当該ファイルの各ユニットのユニットベクトルと、他の全てのファイル(他の未反映のファイルも含む。)の各ユニットのユニットベクトルとの類似度を算出し、算出結果に基づいて、未反映の各ファイルの関連情報(
図19)を生成し、当該関連情報を情報記憶部131に追加すると共に、既存の各ファイルの関連情報(
図19)を更新する(S314)。いずれのファイルが未反映のファイルであるのかは、ファイル記憶部22(
図10)を参照して特定可能である。関連情報が無いファイルが未反映のファイルである。なお、或る未反映のファイルについては、当該ファイルの各ユニットのユニットベクトルと、他の全てのファイル(他の未反映のファイルも含む。)の各ユニットのユニットベクトルとの類似度を算出結果の全部が関連情報として生成される。或る既存のファイルについては、当該ファイルの関連情報に対して各未反映のファイルのユニットごとの列が追加され、追加された列の各行に対応する算出結果が当該関連情報に記録される。
【0099】
関連情報生成部117は、関連情報の生成及び更新が終了すると、関連情報の更新終了応答を情報生成制御部112へ送信する(S315)。情報生成制御部112は、当該更新終了応答に応じ、情報記憶部131に記憶されている更新中フラグをOFFに更新する(S316)。
【0100】
続いて、情報生成制御部112は、関連情報の更新終了通知を、入出力制御部118へ送信する(S317)。入出力制御部118は、当該更新終了通知に応じ、関連図データの生成要求を関連図データ生成部120へ送信する(S318)。関連図データ生成部120は、当該生成要求に応じ、関連図データ生成処理を実行する(S319)。関連図データ生成処理は、ステップS303~S305において説明した処理である。続いて、関連図データ生成部120は、生成した関連図データ(
図20、
図21)を入出力制御部118へ送信する(S320)。入出力制御部118は、当該関連図データ(
図20、
図21)に基づいて関連図を生成し、当該関連図を表示するための関連図表示画面の画面データを生成する。入出力制御部118は、当該画面データをユーザ端末30へ送信する(S321)。ユーザ端末30は、当該画面データに基づいて関連図表示画面を表示する。
【0101】
図25は、関連情報の更新後の関連図表示画面の表示例を示す図である。
図25中、
図22と同一部分には同一符号を付している。
図25が示す関連図表示画面530の関連図表示領域531が含む関連図には、ファイルノードn1が追加されている。ファイルノードn1は、ステップS307の時点では未反映だったファイルに対応するファイルノードである。但し、
図25は、ルートノードに係るファイルに対してステップS307の時点では未反映だったファイルが類似する場合に対応する。
【0102】
なお、
図15では、更新ボタン534(
図22)の押下に応じて、ステップS312~S321が実行されて、関連情報の更新後の関連図表示画面530が表示される例を示したが、関連情報生成部117による関連情報の生成及び更新(S314)は、ファイル数が膨大な場合には数分から数時間にも及ぶ可能性が有る。数分から数時間もユーザに対する応答が遅延すると、ユーザからは障害が発生したように見える可能性が有る。そこで、関連情報生成部117は、関連情報の生成及び更新のための計算量(関連情報の計算量)に応じて、更新終了応答の代わりに当該更新要求を受け付けたことを示す応答(以下、「要求受付応答」という。)を情報生成制御部112に対して送信した後に関連情報の生成及び更新を開始してよい。計算量の評価方法は上記した通りである。例えば、関連情報生成部117は、当該計算量が閾値以上であれば、更新受付応答を情報生成制御部112に対して送信した後の所定のタイミング(例えば、更新受付応答の送信の直後、又は所定の時間帯)に関連情報の生成及び更新を開始し、当該計算量が閾値未満であれば、
図15において説明したように、関連情報の生成及び更新(S314)を実行した後で、更新終了応答を情報生成制御部112へ送信してもよい。
【0103】
情報生成制御部112は、更新受付応答を関連情報生成部117から受信した場合、ステップS316及びS317の代わりに、未反映のファイルの反映要求を受け付けたことを示す応答を入出力制御部118へ送信する。この場合、ステップS318~S320は実行されずに、入出力制御部118は、ステップS321のタイミングで、未反映のファイルの反映要求を受け付けたことを示す応答をユーザ端末30へ送信する。ユーザ端末30は、当該応答に基づいて、未反映のファイルの反映要求を受け付けたことを示すメッセージを関連図表示画面530(
図22)に追加する。
【0104】
この場合、関連情報生成部117による関連情報の生成及び更新(S314)の完了後に、ステップS316及びS317が実行されて関連情報の更新終了通知が入出力制御部118へ送信される。入出力制御部118は、当該更新終了通知に応じ、ステップS318を実行するのではなく、所定の宛先に対して、関連情報の更新が終了したことを示す所定の通知を行ってもよい。所定の宛先は、情報処理システムのユーザがアクセス可能なSNSであってもよいし、情報処理システムの管理者であってもよいし、
図15の処理手順の実行の契機となった更新ボタン534(
図22)を押下したユーザであってもよい。当該ユーザを宛先とする場合、当該ユーザのメールアドレス宛てに関連情報の更新が終了したことを示すメッセージを含むメールが送信されてもよいし、当該ユーザが次回にログインした際に表示される検索結果画面520において所定の通知が行われてもよい。
【0105】
図26は、関連情報の更新が終了したことの通知を含む検索結果画面520の表示例を示す図である。
図26中、
図13と同一部分には同一符号を付している。
図26において、アイコン524が関連情報の更新が終了したことの通知(お知らせ)に相当する。アイコン524がクリックされた場合、入出力制御部118は、関連情報の生成が終了したことを示す画面の表示情報をユーザ端末30に送信してもよい。この場合、ユーザ端末30は、当該表示情報に基づいて当該画面を表示する。ユーザは、当該画面を参照することで、以前に更新ボタン534(
図22)を押下したことで開始された関連情報の生成及び更新が完了したことを知ることができる。
【0106】
なお、上記では、
図4の処理手順において、ファイル群の更新に応じて更新の要因となったファイルに関する関連情報が生成されない例を示したが、情報生成制御部112は、
図4の処理手順において(つまり、ファイル群の更新に応じて)、関連情報生成部117に対して関連情報の生成指示を送信してもよい。この場合、関連情報生成部117は、当該生成指示を受けたタイミングで(つまり、ファイル群の更新に応じて)、関連情報の計算量に応じて(例えば、当該計算量が閾値未満であれば)、当該生成要求に含まれるファイル(つまり、更新の要因となったファイル)に関する関連情報を生成してもよい。
【0107】
上述したように、本実施の形態によれば、ファイルサーバ20が記憶するファイル群の更新の要因となったファイルについて生成が必要とされる各種の情報のうち、検索に利用されるファイルの特徴情報は、ファイル群の更新に対して同期的に生成され、検索に利用されない情報であって生成に時間を要する関連情報は、ファイル群の更新に対して非同期に生成される。したがって、フィル群の更新に応じて実行される処理手順(
図4の処理手順)の所要時間を短縮化することができる。その結果、検索対象とされるデータ群の更新が検索結果に反映されるようにするための処理をより効率化することができる。また、更新の要因となったファイルの関連情報が生成される前に関連情報に基づく関連図の表示が要求された場合には、関連情報が生成されていないファイルの存在を示す情報を含む出力情報が生成されるため、ユーザが閲覧している関連図が必ずしも正確であるとは限らないことをユーザに認識させることができる。すなわち、関連情報の生成がファイル群の更新と非同期になることによる不都合を緩和することができる。
【0108】
なお、情報処理装置10は、演算機能及び通信機能を備えた装置であれば、特定のコンピュータに限られない。情報処理装置10は、例えば、PJ(Projector:プロジェクタ)、IWB(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)、デジタルサイネージ等の出力装置、HUD(Head Up Display)装置、産業機械、撮像装置、集音装置、医療機器、ネットワーク家電、ノートPC(Personal Computer)、携帯電話、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、ウェアラブルPCまたはデスクトップPC等であってもよい。
【0109】
上記実施形態における関連情報は、機械学習の学習効果によって生成されてもよい。
【0110】
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり,コンピュータが,データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0111】
上記実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0112】
上記実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。
【0113】
ある実施形態では、情報処理装置10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、ファイルサーバ20は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。
【0114】
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0115】
本発明の態様は、例えば、以下の通りである。
<1>
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成部と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成部と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御部と、
を有することを特徴とする情報処理装置。
<2>
前記更新の要因となったデータは、前記更新の対象データである、
ことを特徴とする<1>記載の情報処理装置。
<3>
前記更新の要因となったデータは、前記データ群に追加されたデータ、あるいは前記データ群のうち更新されたデータである、
ことを特徴とする<1>記載の情報処理装置。
<4>
前記非同期は、前記更新のタイミングとは異なるタイミングである、
ことを特徴とする<1>記載の情報処理装置。
<5>
前記データ間の関連を示す図形は、前記データ間の関連図である、
ことを特徴とする<1>記載の情報処理装置。
<6>
前記関連情報生成部は、前記出力情報に基づく所定の入力に応じて、又は所定の時間帯に前記関連情報を生成する、
ことを特徴とする<1>記載の情報処理装置。
<7>
前記関連情報が生成されていないデータの存在を示す情報は、当該データの識別情報を含む、
ことを特徴とする<1>記載の情報処理装置。
<8>
前記入出力制御部は、前記関連情報が生成されると所定の通知を出力する、
ことを特徴とする<1>記載の情報処理装置。
<9>
前記関連情報生成部は、前記関連情報の計算量に応じて前記データ群の更新に応じたタイミングで前記関連情報を生成する、
ことを特徴とする<1>記載の情報処理装置。
<10>
前記計算量は、前記データ群が含むデータの数に基づく、
ことを特徴とする<9>記載の情報処理装置。
<11>
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成部と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成部と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御部と、
を有することを特徴とする情報処理システム。
<12>
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成手順と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成手順と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御手順と、
をコンピュータが実行することを特徴とする情報処理方法。
<13>
検索対象とされるデータ群の更新に応じ、前記更新の要因となったデータの特徴情報を生成する特徴情報生成手順と、
前記データ群の更新に対して非同期に、前記更新の要因となったデータについて、前記データ群に含まれる他の複数のデータそれぞれとの関連性を示す関連情報を生成する関連情報生成手順と、
前記関連情報に基づくデータ間の関連を示す図形の表示要求を受け付けた際に、前記更新の要因となったデータについて前記関連情報が生成されていない場合には、前記関連情報が生成されていないデータの存在を示す情報を含む出力情報を生成する入出力制御手順と、
をコンピュータに実行させることを特徴とするプログラム。
【符号の説明】
【0116】
10 情報処理装置
20 ファイルサーバ
21 通知部
22 ファイル記憶部
30 ユーザ端末
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 プロセッサ
105 インタフェース装置
111 ファイル管理部
112 情報生成制御部
113 ユニット生成部
114 メタ情報生成部
115 ベクトル生成部
116 単語重要度情報更新部
117 関連情報生成部
118 入出力制御部
119 検索部
120 関連図データ生成部
B バス
【先行技術文献】
【特許文献】
【0117】