(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-22
(45)【発行日】2024-07-30
(54)【発明の名称】情報処理システム、情報処理装置、および制御プログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20240723BHJP
G06F 40/279 20200101ALI20240723BHJP
G06F 16/90 20190101ALI20240723BHJP
【FI】
G06F16/33
G06F40/279
G06F16/90 100
(21)【出願番号】P 2020206816
(22)【出願日】2020-12-14
【審査請求日】2023-06-27
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110000671
【氏名又は名称】IBC一番町弁理士法人
(72)【発明者】
【氏名】冨田 公一
【審査官】原 秀人
(56)【参考文献】
【文献】特開平10-207891(JP,A)
【文献】特開2001-052032(JP,A)
【文献】特開2004-320227(JP,A)
【文献】特開2006-178978(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
データ取得部と、
ユーザーを特定するユーザー特定部と、
知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する情報記憶部と、
前記データ取得部により入力データとして取得されたデータから抽出されたキーワードに基づくキーワード情報を生成するキーワード情報生成部と、
前記キーワード情報と、特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、
前記情報比較部による比較結果に基づいて、前記特定ユーザーに対して前記入力データの要約を生成する要約生成部と、を有する、情報処理システム。
【請求項2】
前記キーワード情報は、複数の前記キーワード同士の関係を構造化した第1のデータ集合体として生成された情報である、請求項1に記載の情報処理システム。
【請求項3】
前記第1のデータ集合体は、複数の前記キーワード同士の関係をネットワーク化した情報である、請求項2に記載の情報処理システム。
【請求項4】
前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報である、請求項2または3に記載の情報処理システム。
【請求項5】
前記キーワードに基づいて、前記ユーザーの前記知識情報のサブセットである第2のデータ集合体を生成する第2のデータ集合体生成部をさらに有し、
前記情報比較部は、前記第1のデータ集合体と、前記第2のデータ集合体とを比較する、請求項2~4のいずれか1項に記載の情報処理システム。
【請求項6】
前記第1のデータ集合体は、前記複数のキーワード同士の関係をネットワーク化した情報であり、前記第1のデータ集合体のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、
前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報であり、前記知識情報のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、
前記情報比較部は、前記第1のデータ集合体のノードと、前記知識情報のネットワークのノードとを比較する、請求項2~4のいずれか1項に記載の情報処理システム。
【請求項7】
前記要約生成部は、
前記第1のデータ集合体に含まれ、前記知識情報に含まれていないノードを少なくとも含むように前記入力データを要約する、請求項6に記載の情報処理システム。
【請求項8】
前記入力データは、少なくとも1つの文を含み、
前記要約生成部は、前記ノードを含む文を少なくとも含むように前記入力データを要約する、請求項7に記載の情報処理システム。
【請求項9】
前記要約生成部は、前記第1のデータ集合体と前記知識情報とにおいて共通するノードの数を第1のデータ集合体の全ノード数で割った共通率を算出し、
前記共通率が所定値を超える場合は、前記第1のデータ集合体に含まれ、前記知識情報に含まれないノードを含むように要約を生成し、
前記共通率が前記所定値以下の場合は、規定の削減率で要約を生成する、請求項7または8に記載の情報処理システム。
【請求項10】
前記規定の削減率で要約が生成された場合、一律の削減率で要約を生成した旨を通知する通知部をさらに有する、請求項9に記載の情報処理システム。
【請求項11】
前記情報記憶部は、前記知識情報のデータベースを有し、
前記知識情報は、ユーザーが端末装置で実行した、文書、音声、画像、および動画の少なくともいずれかに関わる作業に基づいて生成され、
前記データベースは、前記知識情報に基づいて更新される、請求項10に記載の情報処理システム。
【請求項12】
前記入力データは、テキストを含む文書、画像、音声の少なくとも一つに対応するデータである、請求項1~11のいずれか1項に記載の情報処理システム。
【請求項13】
入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を
生成するキーワード情報生成部から前記キーワード情報を取得するキーワード情報取得部と、
知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報を
ユーザー毎に記憶する情報記憶部から前記知識情報を特定ユーザーについて取得する知識情報取得部と、
前記キーワード情報と、前記特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、
前記情報比較部による比較結果に基づいて、前記入力データの要約を生成する要約生成部と、を有する、情報処理装置。
【請求項14】
入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を
生成するキーワード情報生成部から前記キーワード情報を取得するキーワード情報取得ステップ(a)と、
知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報を
ユーザー毎に記憶する情報記憶部から前記知識情報を特定ユーザーについて取得する知識情報取得ステップ(b)と、
前記キーワード情報と、前記特定ユーザーに対応づけられた知識情報とを比較する比較ステップ(c)と、
前記比較ステップ(c)における比較結果に基づいて、前記入力データの要約を生成する要約生成ステップ(d)と、を含む処理をコンピューターに実行させるための制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理装置、および制御プログラムに関する。
【背景技術】
【0002】
近年、ユーザーが文書の内容をより良く理解できるように支援する技術の開発が盛んである。例えば、このような技術として、入力された文書を機械により自動的に要約する、いわゆる自動要約の技術が知られている。自動要約では、例えば、入力された文書に含まれる各文の重要度を判定し、重要な文を残す一方で、比較的重要ではない文を削除することにより、入力された文書よりも短い文書を出力する処理が行われることが一般的である。しかし、要約を読む各人の知識には個人差があるため、同じ要約に対して、ある人にとっては理解しやすい内容であったとしても、別の人には理解しにくい内容であることは往々にしてある。したがって、要約を読む各人に適した要約を出力できる自動要約が求められる。
【0003】
これに関連して、下記特許文献1には、要約対象の文書において出現する専門用語の頻度と、この専門用語の難易度とに基づいて決定された文書の難易度と、閲覧者による過去の文書閲覧回数に応じて決定された閲覧者の知識レベルとの差に応じて、文書から削除する文の数を決定する技術が開示されている。
【0004】
また、下記特許文献2には、要約対象の文書の分野を特定するとともに、利用者の過去の問い合わせ記録と、文書の各語の難易度とに基づいて、利用者の特定分野に関する知識レベルを推定し、利用者の知識レベルに応じて要約を生成することが開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2010-20678号公報
【文献】特開2014-44539号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1の技術では、文書の難易度と、閲覧者の知識レベルとを個別に推定しており、文書に対する閲覧者の知識(知見)を直接的に推定するものではない。すなわち、一律に定められた難易度や、閲覧回数の大小での判断を行うものであり、閲覧者の実際の知識(知見)を反映した判断ができない。したがって、仮に、文書の難易度と閲覧者の知識レベルとが同等であると判断されたとしても、閲覧者が必ずしも文書の内容を理解できるとは限らない。これでは、推定されたユーザーの知識レベルに基づいて文書の要約が生成されても、ユーザーが知らない情報が欠落してしまい、ユーザーが必要とする情報や有益な情報がユーザーに伝わらない可能性がある。すなわち、ユーザーが要約から知識を得ることができず、要約を理解できない可能性もある。
【0007】
また、特許文献2の技術では、要約の生成にあたって用いられる文書の分野や各語の難易度は一律に定められる情報であり、また利用者の過去の問い合わせ(要約の修正要求)の回数も要約の長さや形式の不備なのか要約内のどの部分の知識に問題があるのか、特定できるものではなく、閲覧者の実際の知識(知見)を反映した判断ができない。そのためこうした一律の情報や履歴に基づき文書の要約を生成したとしても、実際に利用者が要約を理解できるとは限らない。
【0008】
本発明は、上記事情に鑑みてなされたものであり、ユーザーが有する知識が考慮された要約を生成できる情報処理システム、情報処理装置、および制御プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の上記目的は、下記の手段によって達成される。
【0010】
(1)データ取得部と、ユーザーを特定するユーザー特定部と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する情報記憶部と、前記データ取得部により入力データとして取得されたデータから抽出されたキーワードに基づくキーワード情報を生成するキーワード情報生成部と、前記キーワード情報と、特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、前記情報比較部による比較結果に基づいて、前記特定ユーザーに対して前記入力データの要約を生成する要約生成部と、を有する、情報処理システム。
【0011】
(2)前記キーワード情報は、複数の前記キーワード同士の関係を構造化した第1のデータ集合体として生成された情報である、上記(1)に記載の情報処理システム。
【0012】
(3)前記第1のデータ集合体は、複数の前記キーワード同士の関係をネットワーク化した情報である、上記(2)に記載の情報処理システム。
【0013】
(4)前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報である、上記(2)または(3)に記載の情報処理システム。
【0014】
(5)前記キーワードに基づいて、前記ユーザーの前記知識情報のサブセットである第2のデータ集合体を生成する第2のデータ集合体生成部をさらに有し、前記情報比較部は、前記第1のデータ集合体と、前記第2のデータ集合体とを比較する、上記(2)~(4)のいずれか1つに記載の情報処理システム。
【0015】
(6)前記第1のデータ集合体は、前記複数のキーワード同士の関係をネットワーク化した情報であり、前記第1のデータ集合体のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、前記知識情報は、知識を構成する複数の情報に対応する前記要素同士の関係をネットワーク化した情報であり、前記知識情報のネットワークは、複数のノードと、前記ノード間の関係を規定するエッジとを含み、前記情報比較部は、前記第1のデータ集合体のノードと、前記知識情報のネットワークのノードとを比較する、上記(2)~(4)のいずれか1つに記載の情報処理システム。
【0016】
(7)前記要約生成部は、前記第1のデータ集合体に含まれ、前記知識情報に含まれていないノードを少なくとも含むように前記入力データを要約する、請求項6に記載の情報処理システム。
【0017】
(8)前記入力データは、少なくとも1つの文を含み、前記要約生成部は、前記ノードを含む文を少なくとも含むように前記入力データを要約する、上記(7)に記載の情報処理システム。
【0018】
(9)前記要約生成部は、前記第1のデータ集合体と前記知識情報とにおいて共通するノードの数を第1のデータ集合体の全ノード数で割った共通率を算出し、前記共通率が所定値を超える場合は、前記第1のデータ集合体に含まれ、前記知識情報に含まれないノードを含むように要約を生成し、前記共通率が前記所定値以下の場合は、規定の削減率で要約を生成する、上記(7)または(8)に記載の情報処理システム。
【0019】
(10)前記規定の削減率で要約が生成された場合、一律の削減率で要約を生成した旨を通知する通知部をさらに有する、上記(9)に記載の情報処理システム。
【0020】
(11)前記情報記憶部は、前記知識情報のデータベースを有し、前記知識情報は、ユーザーが端末装置で実行した、文書、音声、画像、および動画の少なくともいずれかに関わる作業に基づいて生成され、前記データベースは、前記知識情報に基づいて更新される、上記(10)に記載の情報処理システム。
【0021】
(12)前記入力データは、テキストを含む文書、画像、音声の少なくとも一つに対応するデータである、上記(1)~(11)のいずれか1つに記載の情報処理システム。
【0022】
(13)入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を生成するキーワード情報生成部からキーワード情報を取得するキーワード情報取得部と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する情報記憶部から知識情報を特定ユーザーについて取得する知識情報取得部と、前記キーワード情報と、前記特定ユーザーに対応づけられた前記知識情報とを比較する情報比較部と、前記情報比較部による比較結果に基づいて、前記入力データの要約を生成する要約生成部と、を有する、情報処理装置。
【0023】
(14)入力データとして取得されたデータから抽出されたキーワードに関するキーワード情報を生成するキーワード情報生成部からキーワード情報を取得するキーワード情報取得ステップ(a)と、知識を構成する複数の情報に対応する要素同士の関係を構造化した知識情報をユーザー毎に記憶する情報記憶部から知識情報を特定ユーザーについて取得する知識情報取得ステップ(b)と、前記キーワード情報と、前記特定ユーザーに対応づけられた知識情報とを比較する比較ステップ(c)と、前記比較ステップ(c)における比較結果に基づいて、前記入力データの要約を生成する要約生成ステップ(d)と、を含む処理をコンピューターに実行させるための制御プログラム。
【発明の効果】
【0024】
本発明によれば、要約を生成する対象の文書が含む情報と、ユーザーが有する知識に関する情報とが比較され、文書内の情報が、ユーザーが知っている情報と、知らない情報とに区別される。したがって、ユーザーが有する知識が考慮された要約を生成できる。
【図面の簡単な説明】
【0025】
【
図1】一実施形態に係る情報処理システムの構成を例示する概略ブロック図である。
【
図2】
図1に示すデータサーバーのハードウェア構成を例示する概略ブロック図である。
【
図3】情報処理システムが有する主な機能を例示する概略的な機能ブロック図である。
【
図4】
図1に示すデータサーバーにおける第1のデータ集合体の生成を説明するための模式図である。
【
図5】
図1に示す知識サーバーの個人知識データベースに記憶されている知識情報の一部を例示するネットワーク図である。
【
図6】
図3に示す情報比較部による第1のデータ集合体と第2のデータ集合体との比較と、比較結果に基づく要約の生成とを説明するための概念図である。
【
図7】
図1に示すクライアント端末のハードウェア構成を例示する概略ブロック図である。
【
図8】一実施形態に係る情報処理システムの制御方法の概略的な処理手順を例示するシーケンスチャートである。
【
図9】
図8のシーケンスチャートのステップS105の処理の概略的な処理手順を例示するフローチャートである。
【
図10】第1のデータ集合体と第2のデータ集合体との比較を説明するための模式図である。
【
図11】
図9のフローチャートのステップS203の処理を例示するサブルーチンフローチャートである。
【
図12】対象文書の要約の事例を示す模式図である。
【発明を実施するための形態】
【0026】
以下、添付した図面を参照して、本発明の実施の形態を説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0027】
<情報処理システム100>
図1は一実施形態に係る情報処理システム100の構成を例示する概略ブロック図であり、
図2は
図1に示すデータサーバー200のハードウェア構成を例示する概略ブロック図である。また、
図3は情報処理システム100が有する主な機能を例示する概略的な機能ブロック図であり、
図4は
図1に示すデータサーバー200における第1のデータ集合体の生成を説明するための模式図である。
【0028】
図1に示すように、情報処理システム100は、データサーバー200、知識サーバー300、および情報処理装置400を有し、これらは、例えばLAN(Local Area Network)、WAN(Wide Area Network)、インターネット等を含む通信ネットワーク101で相互に通信可能に接続されている。後述するように、データサーバー200は、要約を生成する対象の文書(以下、「対象文書」という)に含まれるキーワードに基づいて第1のデータ集合体を生成し、情報処理装置400に提供する役割を担う。また、知識サーバー300はユーザー毎に記憶されている知識情報を情報処理装置400に提供する役割を担う。情報処理装置400はデータサーバー200および知識サーバー300から各々提供された第1のデータ集合体および知識情報に基づいて対象文書を要約する。
【0029】
また、情報処理システム100は、クライアント端末(端末装置)500に通信ネットワーク101を介して接続されている。
図1に示す例では、情報処理システム100に1台のクライアント端末500が接続されている場合について例示しているが、複数台のクライアント端末が情報処理システム100に接続されていてもよい。また、情報処理システム100はクライアント端末500を含んでもよい。
【0030】
<データサーバー200>
データサーバー200は、対象文書と、対象文書の要約を提供する対象のユーザー(以下、「対象のユーザー」という)とを特定し、対象文書に含まれるキーワードを抽出し、抽出されたキーワードに基づいて第1のデータ集合体を生成する。データサーバー200は、ユーザーに関する情報(以下、「ユーザー情報」という)と、対象文書を含む複数の文書とを記憶するサーバー(コンピューター)として機能する。ユーザー情報には、ユーザーのID(identification)、パスワード、氏名、所属部署に関する情報等が含まれる。
【0031】
図2に示すように、データサーバー200は、CPU(Central Processing Unit)210、RAM(Random Access Memory)220、ROM(Read Only Memory)230、補助記憶部240、および通信部250等を備える。
【0032】
CPU210は、RAM220に展開されたOS(Operating System)やデータサーバー200用の制御プログラムを実行し、データサーバー200の動作制御を行う。制御プログラムは、ROM230または補助記憶部240に予め保存されている。また、RAM220は、CPU210の処理によって一時的に生じたデータ等を格納する。ROM230は、CPU210によって実行されるプログラムや、プログラムの実行に使用されるデータ、パラメーター等を記憶する。
【0033】
補助記憶部240は、例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)等を有し、ユーザー情報データベース421およびデータ記憶部242として機能する。
【0034】
通信部250は、例えばネットワーク・インターフェースカード(NIC:Network Interface Card)等の通信装置を有し、通信ネットワーク101を通じて知識サーバー300や情報処理装置400との間でデータ伝送を行う。
【0035】
図3に示すように、CPU210は制御プログラムを実行することで、対象ユーザー特定部211、対象文書特定部212、データ取得部213、キーワード抽出部214、および第1のデータ集合体生成部215として機能する。キーワード抽出部214、および第1のデータ集合体生成部215は、キーワード情報生成部として機能する。
【0036】
対象ユーザー特定部211は、ユーザー情報を、ユーザー情報データベース241に登録されている複数のユーザーの情報と照合して、対象ユーザーを特定する。ユーザー情報としては、例えばIDが使用されうる。また、ユーザー情報としてログイン情報(IDおよびパスワード)を使用して認証を行う形態でもよい。対象ユーザー特定部211は、対象文書のユーザーを特定するユーザー特定部として機能する。
【0037】
対象文書特定部212は、文書指定情報に基づいて、データ記憶部242に保存されている複数の文書の中から対象文書を特定する。
【0038】
データ取得部213は、通信部250を制御して、例えば、ユーザーが使用しているクライアント端末500から入力データを取得する。入力データは、テキストを含む文書、画像、音声等、様々な形式のデータでありうる。データ取得部213は、入力データをテキスト形式の入力文書に変換する機能を備える。入力文書は、少なくとも1つのキーワードを含む文書でありうる。データ取得部213は、取得した入力文書をデータ記憶部242に保存する。また、入力文書は、知識サーバー300の知識情報抽出部311に送信される。データ取得部213は、入力文書を取得する文書取得部として機能する。
【0039】
キーワード抽出部214は、対象文書を話題毎にテキスト領域に分割し、分割された各々のテキスト領域からキーワードを抽出する。
【0040】
より具体的には、キーワード抽出部214は、対象文書を公知の技術(例えば、TextTiling(https://www.aclweb.org/anthology/J97-1003.pdf)等)を用いて、話題(トピック)毎にテキスト領域に分割する。続いて、キーワード抽出部214は、分割された各テキスト領域に含まれるテキスト(文)について形態素解析を行うことにより、各テキスト領域に含まれるテキストを品詞に分割し、複数回繰り返して出現した(例えば、出現頻度が最も高い)単語(ワード)をキーワードとして抽出する。
【0041】
例えば、
図4に示すように、対象文書が「サッカー」、「高血圧」、および「食事」の3つの話題を含む文書である場合を想定する。この場合、キーワード抽出部214は、対象文書を各々「サッカー」、「高血圧」、および「食事」を含む3つのテキスト領域(T1~T3)に分割し、各テキスト領域から話題に対応するキーワード(「サッカー」、「高血圧」、および「食事」のいずれか)をそれぞれ抽出する。なお、対象文書を話題毎にテキスト領域に分割する手法、およびキーワードを抽出する手法は、上述の手法に限定されない。
【0042】
また、キーワード抽出部214は、第1のデータ集合体生成部215に対して、各テキスト領域に含まれるテキストと、各テキスト領域に対応するキーワードとを送信する。さらに、後述する第2のデータ集合体生成部411に対して、各テキスト領域に対応するキーワードを受け渡す。
【0043】
第1のデータ集合体生成部215は、各テキスト領域に含まれるテキストと、キーワードとに基づいて、テキストに含まれるワード間の関係性を抽出し、構造化された第1のデータ集合体をキーワード情報として生成する。第1のデータ集合体は、例えば、複数のワードと、当該複数のワード間の関係性(距離)とを含む。例えば、第1のデータ集合体は、ネットワーク構造で表現されうる。この場合、各ワードは、ノード(円形で示す)で表現され、ノード間の関係性は各ノードを結ぶ線(エッジ)で表現されうる。エッジで結ばれているノード同士は、共に生起(共起)されていることを示す。
図4には、キーワード「サッカー」を中心とした(キーワード「サッカー」に関する)共起ネットワークが生成された場合について例示されている。
【0044】
<知識サーバー300>
知識サーバー300は、個人知識データベース341(
図3を参照)を有し、ユーザー毎に記憶されている知識情報を情報処理装置400に提供するサーバー(コンピューター)である。知識サーバー300は、データサーバー200のハードウェア構成と同様のハードウェア構成を備えるので、その詳細な説明を省略する。個人知識データベース341は、補助記憶部(情報記憶部)に記憶されている。また、補助記憶部には、CPUによって実行される、知識サーバー300用の制御プログラムが保存されている。
【0045】
図5は、
図1に示す知識サーバー300の個人知識データベース341に記憶されている知識情報の一部を例示するネットワーク図である。知識情報は、例えば、ユーザー毎に、一人のユーザーが有する知識を構成する複数の情報に対応する要素同士の関係を共起ネットワーク化した情報である。要素は、例えば、単語(ワード)、文、節等が表す概念でありうる。本実施形態では、知識情報は、一人のユーザーの知識が、複数の概念同士が関係性に応じて連結された共起ネットワークとしてモデル化されている。個人知識データベース341には、複数のユーザーの知識情報が記憶されている。
【0046】
図3に示すように、本実施形態では、ユーザーの知識情報を生成または更新するために、クライアント端末500において、常駐アプリケーションとして動作する情報収集アプリケーション(以下、「情報収集アプリ」という)が使用されうる。例えば、情報収集アプリは、ユーザーによってインストールされる際に、ユーザーがIDを入力するように構成されている。ユーザーがIDを入力することにより、個人知識データベース341の知識情報の生成または更新を行う対象のユーザーを特定する。なお、IDを入力する代わりに、クライアント端末500へのログイン情報を使用してユーザーを特定する等、他の方法でユーザーを特定してもよい。
【0047】
情報収集アプリが実行されることにより、ユーザーの普段の作業においてディスプレイに表示された情報や作業ログ等が収集され、情報処理システム100に送信される。また、情報収集アプリは、ディスプレイの表示画面をキャップチャーし、OCR(Optical Character Recognition)する機能も有しうる。表示画面は、OCRによりテキストデータに変換され、知識情報抽出部311に送信される。
【0048】
知識情報抽出部311は、CPUが知識サーバー300用の制御プログラムを実行することで実現される。知識情報抽出部311は、データ取得部213によって取得された入力文書について、形態素解析を行うことにより、各テキスト領域に含まれるテキストを品詞に分割し、分割された品詞を要素として共起ネットワークを生成する。続いて、知識情報抽出部311は、生成された共起ネットワークを、ユーザーのIDに基づいて、個人知識データベース341のユーザーの知識情報にマージする。これにより、個人知識データベース341に知識情報が日々蓄積されとともに、更新・拡張される。
【0049】
クライアント端末500上におけるユーザーの作業には、例えば、文書作成ソフトやメールソフトによる各種文書の作成や、各種文書、ウェブページ(Webページ)、画像、動画、音声(例えば、会議記録の音声)等の閲覧または視聴、ソーシャル・ネットワーキング・サービス(SNS:Social Networking Service)の利用等が含まれる。
【0050】
なお、一般に文書の作成は、文書やウェブページの閲覧よりも深い知識を要することを考慮して、ユーザーが行った作業の種類に応じて、知識情報の要素(知識)に対してランク付けを行ってもよい。例えば、文書の作成作業を通じて得た知識には、最も高いランクを付し、文書の確認作業を通じて得た知識には、中程度のランクを付し、ウェブページ、電子メールの閲覧等による知識には、最も低いランクを付すことができる。
【0051】
知識情報は、複数の要素と、要素間の関係性(距離)とを含む。例えば、
図5のネットワーク図に示すように、知識情報において、各要素は、ノード(円形で示す)312で表現され、ノード312間の連結は各ノード312を結ぶ線(エッジ)313で表現されうる。
図5には、例えば、ユーザーAの知識情報(共起ネットワーク)の一部であるネットワーク301が例示されている。例えば、ノードN00~N06は、「サッカー」、「カウンター」、「戦術」、「プレミアリーグ」、「Jリーグ」、「日本代表」、および「チケット」の各要素に対応し、ノードN01~N06は、ノードN00と連結されている。ノード間の関係性には、上位/下位概念の関係(例えば、接続元のノードが上位概念で、接続先のノードが下位概念)、接続先のノードが接続元のノードの属性である場合に、接続先のノードが接続元のノードの必須の属性、または任意の属性である関係、接続先のノードが接続元のノードの任意の取りうる値である場合等が含まれる。
【0052】
また、知識情報は、互いに関連付けられた要素の集まり(以下、「要素群」ともいう)における各要素の相対的な重要度を表す情報を含みうる。他の要素と比べて重要度が高い要素は、例えば、知識情報が表す知識の起点または要点となりうる。例えば、他の要素との連結が多い要素は、比較的重要であると考えられる。したがって、要素の重要度は、他の要素との連結の多寡で判断されうる。また、個人知識データベース341に要素の重要度を数値で記憶するように構成してもよい。
【0053】
ネットワーク図上では、要素が出現する頻度に応じてノードの大きさが異なるように描画される。例えば、出現する頻度が高い要素は低い要素と比べて大きく描画される。
図4に示す例では、「サッカー」を表すノードN00は、ノードN01~N10に比べて出現する頻度が高いので、他のノードよりも大きく描かれている。また、ノードN00は、ネットワーク301が表す知識の起点(中心)になっている。
【0054】
また、知識情報は、要素同士の結び付きの強さを表す情報も含みうる。要素同士の結び付きの強さについても、個人知識データベース341に数値で記憶されうる。ネットワーク図上では、例えば、多くの文書で共通に出現する要素同士は、結び付きが強いと考えられるため、線が太く描画される。
【0055】
また、知識情報は、知識の分野に関する情報を含みうる。例えば、知識情報の各ノードは、知識の分野等を示すタグが関連付けられている。例えば、個人知識データベース341またはテーブルにノード番号と、ノード番号に対応するタグの情報とが保存されている。
【0056】
知識サーバー300は、情報処理装置400からの要求に応じて、ユーザーの知識情報を、個人知識データベース341から読み出し、情報処理装置400へ送信する。
【0057】
なお、上述の例では、要素群の共起ネットワークモデルを例示したが、各要素間の連結の有無や結び付きの強さだけではなく、結び付きの関係(包含関係等)を考慮したネットワーク(意味ネットワーク)にモデル化してもよい。
【0058】
<情報処理装置400>
図6は
図3に示す情報比較部412による第1のデータ集合体と第2のデータ集合体との比較と、比較結果に基づく要約の生成とを説明するための概念図である。
【0059】
図3に示すように、情報処理装置400は、データサーバー200および知識サーバー300から各々提供された第1のデータ集合体および知識情報に基づいて対象文書を要約して出力するサーバー(コンピューター)として機能する。情報処理装置400は、データサーバー200のハードウェア構成(
図2)と同様のハードウェア構成を備えるので、その詳細な説明を省略する。本実施形態では、補助記憶部には、CPUによって実行される、情報処理装置400用の制御プログラムが保存されている。
【0060】
本実施形態では、CPUが制御プログラムを実行することで、第2のデータ集合体生成部411、情報比較部412、要約生成部413、出力生成部414、およびコントローラー415としての機能を果たす。
【0061】
第2のデータ集合体生成部411は、個人知識データベース341から知識情報を取得する知識情報取得部として機能し、対象ユーザーの知識情報からそのサブセット(以下、「第2のデータ集合体」という)を抽出する。より具体的には、第2のデータ集合体生成部411は、データサーバー200からキーワードを、知識サーバー300から対象ユーザーの知識情報(共起ネットワーク)を、各々取得し、キーワードに基づいて、知識情報から第2のデータ集合体を抽出する。知識情報から抽出する第2のデータ集合体の範囲は、各ノードに付されたタグの情報に基づいて決定される。例えば、
図4に示す例では、対象文書が「サッカー」というキーワードを含んでいるため、第2のデータ集合体生成部411は、ユーザーの知識情報からサッカーの分野のタグが付されているノードを探索する。探索の結果、例えば、サッカーの分野のタグが付されているノードを含む範囲が第2のデータ集合体として抽出される。これにより、以下で説明する情報比較部412による第1のデータ集合体と第2のデータ集合体との比較が効率的に実施できる。
【0062】
情報比較部412は、第1のデータ集合体を取得するキーワード情報取得部として機能する。また、情報比較部412は、第1のデータ集合体と第2のデータ集合体とを比較し、第1のデータ集合体と第2のデータ集合体との差異を抽出する。より具体的には、情報比較部412は、対象ユーザーの第2のデータ集合体に第1のデータ集合体の各ノード(ワード)が含まれているか否かを判定し、第2のデータ集合体に含まれていない、第1のデータ集合体のノード(ワード)を比較結果として出力する。なお、以下では、第1のデータ集合体と第2のデータ集合体とを比較する場合を例示して説明するが、第1のデータ集合体と知識情報全体とを比較してもよい。
【0063】
例えば、
図6に示すように、第1のデータ集合体には、W1~W9のワードが含まれ、第2のデータ集合体には、W2,W3,W5~W7,W10~W12のワードが含まれている場合を想定する。第1のデータ集合体のW2,W3,W5~W7については、第2のデータ集合体にも含まれているので、これらのワードについては、ユーザーが知識を有している。一方、第1のデータ集合体に含まれるワードのうち、上記W2,W3,W5~W7以外のW1,W4,W8,W9については、ユーザーが知識を有していない、すなわちユーザーが知らないワードである。情報比較部412は、比較結果として、ユーザーが知らないW1,W4,W8,W9を出力する。
【0064】
要約生成部413は、情報比較部412による比較結果に基づいて、対象文書の要約を生成する。より具体的には、要約生成部413は、対象文書中において、比較結果(例えば、W1,W4,W8,W9)のワードを含む文を特定し、少なくともこの(これらの)ワードを含む文については削除せず残すように、対象文書の各テキスト領域を要約する(
図6の「要約結果」を参照)。
【0065】
より具体的には、公知の要約生成技術で行われているように、各文の重要度をスコアリングし、スコア(以下、「重要度スコア」という)の低い文を削除することにより、削減率(削除した文の数をテキスト領域の全ての文の数で割った値)が規定値に達するように要約を生成できる。ただし、第2のデータ集合体に含まれない、すなわちユーザーが知らないワードを含む文は重要度スコアがどれだけ低くても削除しない。
【0066】
以下、これらの削除しない文を「保存対象の文」という。これに対して、保存対象の文以外の文については、重要度スコアの低いものから削除する。例えば、要約生成部413は、保存対象の文以外の文に対して、削減率を80%固定にして対象文書の各テキスト領域について要約を生成する。
【0067】
なお、比較結果のワードを含む文を残すように要約することを述べたが、比較結果のワードを含む文をそのままの形で残さずに、少なくとも比較結果のワードを残し、不要なワードや重要度の低いワード等を削除して要約を生成してもよい。
【0068】
このように、ユーザーが知らない(知見が無い)情報については残し、ユーザーが知っている(知見が有る)情報については削除するように要約を生成することにより、要約結果の情報量を削減しつつ、ユーザーが新たな知識を得ることができる。これにより、ユーザーにとって要約が理解しにくい内容になることを抑制できる。
【0069】
出力生成部414は、要約生成部413によって生成された要約結果に基づいて出力データ生成する。より具体的には、出力生成部414は、各テキスト領域について生成された要約結果を結合し、必要に応じて、文書、音声、画像、動画等の各種データフォーマットに変換して、出力データを生成する。生成された出力データは、例えば、通信ネットワーク101を介してクライアント端末500に送信される。
【0070】
コントローラー415は、第2のデータ集合体生成部411、情報比較部412、要約生成部413、および出力生成部414を制御する。また、コントローラー415は、データサーバー200のCPU210と協働して、対象ユーザー特定部211、対象文書特定部212、データ取得部213、キーワード抽出部214、および第1のデータ集合体生成部215を制御する。さらに、コントローラー415は、知識サーバー300のCPUと協働して、知識サーバー300の補助記憶部を制御する。
【0071】
<クライアント端末500>
図7は、
図1に示すクライアント端末500のハードウェア構成を例示する概略ブロック図である。クライアント端末は、CPU510、RAM520、ROM530、補助記憶部540、通信部550、および操作表示部560等を備えるコンピューターである。クライアント端末500は、例えば、パーソナルコンピューター、PDA(Personal Digital Assistant)、スマートフォン等でありうる。
【0072】
CPU510、RAM520、ROM530、補助記憶部540、および通信部550の構成については、データサーバー200のCPU210、RAM220、ROM230、補助記憶部240、および通信部250の各々の構成と同様であるので、その詳細な説明を省略する。
【0073】
操作表示部560は、入力部および出力部を有する。入力部は、例えば、キーボード、マウス等を備え、キーボード、マウス等による文字入力、各種設定等の各種指示(入力)をユーザーが行うために利用される。また、出力部は、ディスプレイを備え、アプリケーション・ソフトウェアで作成している文書等をユーザーに提示するために使用される。また、本実施形態では、出力部は、CPU510の指示に応じて、情報処理装置400の出力データをディスプレイに表示してユーザーに提示する。また、出力部は、スピーカーを有し、対象文書の内容や、対象文書の要約の内容を音声でユーザーに提供することもできる。
【0074】
<情報処理システムの制御方法>
図8は、一実施形態に係る情報処理システム100の制御方法の概略的な処理手順を例示するシーケンスチャートである。同図のシーケンスチャートの処理は、CPU210がデータサーバー200用の制御プログラムを実行し、情報処理装置400のCPUが情報処理装置400用の制御プログラムを実行することにより実現される。
【0075】
本実施形態では、例えば、データサーバー200のデータ記憶部242に複数の文書が予め記憶されている場合を想定している。クライアント端末500のユーザー(例えば、「ユーザーA」と呼ぶ(要約を利用する「対象ユーザー」でもある))は、これらの複数の文書のうちから、対象文書を指定する。後述するように、このユーザ(ユーザーA)は、要約(要約情報)を利用する「対象ユーザー」であり、この対象文書は、対象ユーザーの知識に応じて、要約されて要約(要約情報)が作成される。情報処理システム100は、ユーザーAによって指定された対象文書を要約し、要約結果(要約情報、または要約ともいう)を出力データとしてクライアント端末500に送信する。ユーザーAは、クライアント端末500のディスプレイに表示された要約を確認することにより、要約の内容を理解する。本実施形態における情報処理システム100およびクライアント端末500における具体的な処理手順は、以下のとおりである。
【0076】
図8に示すように、まず、対象ユーザーおよび対象文書を特定する(ステップS101)。クライアント端末500からユーザーAのユーザー情報(ID等)および文書指定情報がデータサーバー200に送信され、データサーバー200は、ユーザー情報に基づいて、対象ユーザーがユーザーAであることを特定する。文書指定情報は、対象文書を指定するための情報であり、例えば、対象文書のファイル名、タイトル名、作者名等を含む。対象文書特定部212は、文書指定情報に基づいて、対象文書を特定する。特定されたユーザーAを対象とする対象文書をユーザーAの文書ともいう。
【0077】
次に、対象文書を話題毎にテキスト領域に分割する(ステップS102)。対象文書が「サッカー」、「高血圧」、および「食事」の3つの話題を含む文書である場合、キーワード抽出部214は、対象文書を各々「サッカー」、「高血圧」、および「食事」を含む3つのテキスト領域(T1~T3)に分割する(
図4を参照)。
【0078】
次に、テキスト領域毎にキーワードを抽出する(ステップS103)。キーワード抽出部214は、各話題に対応する「サッカー」、「高血圧」、および「食事」の3つのキーワードを抽出する。抽出されたキーワードは、情報処理装置400に送信される。
【0079】
次に、第1のデータ集合体を生成する。第1のデータ集合体生成部215は、各々のテキスト領域について、抽出されたキーワードに基づいて、第1のデータ集合体を生成し、RAM220または補助記憶部240に保存する(ステップS104)。生成された第1のデータ集合体およびユーザー情報は、情報処理装置400に送信される。また、情報処理装置400は、知識サーバー300に対して、ユーザーAの知識情報を要求し、知識サーバー300は要求に対して、ユーザーAの知識情報を情報処理装置400に送信する。
【0080】
次に、対象文書を要約する(ステップS105)。情報処理装置400は、第1のデータ集合体と知識情報とに基づいて対象文書を要約し、要約結果に基づいて出力データを生成する。生成された出力データは、クライアント端末500に送信される。情報処理装置400におけるステップS105の処理については、
図9~
図12を参照して詳述する。
【0081】
次に、対象文書の要約を出力する(ステップS106)。例えば、クライアント端末500は、ディスプレイに出力データを表示する。ユーザーAは、ディスプレイに表示された対象文書の要約を確認することにより、対象文書の内容を効率的に理解できる。また、出力データが音声データである場合、クライアント端末500は、出力データをスピーカーから出力する。
【0082】
<情報処理装置400の処理(S105)>
図9は、
図8のシーケンスチャートのステップS105の処理の概略的な処理手順を例示するフローチャートである。同図のフローチャートの処理は、情報処理装置400のCPUが制御プログラムを実行することにより実現される。
図10は第1のデータ集合体と第2のデータ集合体との比較を説明するための模式図であり、
図11は
図9のフローチャートのステップS203の処理を例示するサブルーチンフローチャートである。また、
図12は、対象文書の要約の事例を示す模式図である。
【0083】
図9に示すように、まず、第2のデータ集合体を生成する(ステップS201)。より具体的には、第2のデータ集合体生成部411は、各テキスト領域のキーワードとユーザーAの知識情報とを取得し、キーワードに基づいて、ユーザーAの知識情報から第2のデータ集合体を生成する。上述のように、第2のデータ集合体は、知識情報のサブセットである。また、第2のデータ集合体生成部411は、キーワード「高血圧」および「食事」についても同様に第2のデータ集合体を生成する。
【0084】
次に、第1のデータ集合体と第2のデータ集合体とを比較する(ステップS202)。
図10に示すように、情報比較部412は、第1のデータ集合体のネットワークと、第2のデータ集合体のネットワークとを比較し、その差異を抽出する。第1のデータ集合体のノード(ワード)のうち第2のデータ集合体に含まれないノード(ワード)は、ユーザーAが知らないワードに対応する(
図10の「比較結果」のグレーで示される部分)。情報比較部412は、ユーザーAが知らないワードを比較結果として出力する。
【0085】
例えば、キーワード「サッカー」に関する第1のデータ集合体に「プレッシング」、「カウンター」、「プレミアリーグ」、「ゲーゲンプレス」、「カウンター・プレス」、および「戦術」のノード(ワード)が含まれ、第2のデータ集合体に「カウンター」、「戦術」、「プレミアリーグ」、「Jリーグ」、「日本代表」、および「チケット」のノード(ワード)が含まれる場合を想定する。この場合、「カウンター」、「プレミアリーグ」、および「戦術」は、第1および第2のデータ集合体に共通して含まれ、「プレッシング」、「ゲーゲンプレス」、および「カウンター・プレス」は、第1のデータ集合体に含まれるが、第2のデータ集合体には含まれない。したがって、情報比較部412は、「プレッシング」、「ゲーゲンプレス」、および「カウンター・プレス」を比較結果として出力する。また、情報比較部412は、キーワード「高血圧」および「食事」についても同様に比較結果を出力する。
【0086】
次に、対象文書の要約を生成する(ステップS203)。
図11に示すように、要約生成部413は、共通率が所定値以下であるか否かを判定し(ステップS301)、共通率が所定値以下である場合(ステップS301:YES)、削減率を規定値に設定する(ステップS302)。共通率は、第1のデータ集合体と第2のデータ集合体とにおいて共通するノード(ワード)の数を第1のデータ集合体の全ノード(全ワード)数で割った値である。また、所定値は、特に限定されるものではないが、本実施形態では、例えば、0.2に設定されうる。例えば、キーワード「高血圧」について共通率を算出した結果、0.1であった場合、共通率は所定値以下であるので、要約生成部413は、ユーザーAが高血圧について十分な知識を有していないと判断し、削減率を規定値(例えば、固定値)に設定する。固定値は、例えば、一律に0.9(90%)でありうる。続いて、設定された削減率で対象文書の要約を生成する(ステップS303)。要約生成部413は、設定された削減率(例えば、90%)で対象文書の要約を生成する。
【0087】
一方、共通率が所定値以下ではない、すなわち所定値を超える場合(ステップS301:NO)、比較結果に基づいて対象文書の要約を生成する(ステップS304)。上述の例の場合では、第1および第2のデータ集合体に共通して含まれるノードは「カウンター」、「プレミアリーグ」、および「戦術」の3個であり、第1のデータ集合体の全ノード数は6個である。したがって、共通率は、3/6=0.5である。所定値が0.2である場合、共通率は所定値以下ではないので、要約生成部413は、比較結果に基づいて対象文書の要約を生成する。
【0088】
例えば、
図12には、サッカーにおいて使用される用語「ゲーゲンプレス」を含む対象文書の要約の事例が示されている(図中において「ゲーゲンプレス」に下線を付している)。ここでは、上述のように、ユーザーAが「ゲーゲンプレス」の知識を有していない、すなわち情報比較部412の比較結果として「ゲーゲンプレス」が抽出されていることを想定している。対象文書は、[1]~[13]の13個の文を含む。
【0089】
要約生成部413は、比較結果のワードと、重要度スコアの高い文を残すように対象文書の要約を行う。より具体的には、「ゲーゲンプレス」を含む[7],[9]~[11],[13]の文と、重要度スコアが「2」以上(グレーで表示)の文(すなわち、[4],[12]の文)とを残し、重要度スコアが「1」の文を削除する。「要約結果(実施例)」の欄がチェックされている文が要約結果に含まれる文である。
【0090】
一方、比較例は、ユーザーAの知識が考慮されない従来の要約生成技術を用いて要約した場合の要約結果である。
図12に示す比較例では、重要度スコアが「2」以上の文に加えて、所定の基準により[10],[11]の文についても要約結果に含められている。「要約結果(比較例)」の欄がチェックされている文が要約結果に含まれる文である。
【0091】
このように、本実施形態では、ユーザーAの知識を考慮して、「ゲーゲンプレス」を含む文を欠落させることなく、全て要約結果に含められる。すなわち、要約結果(実施例)の欄のグレーで表示した[7],[9],[13]の文の情報を得ることができる。その結果、対象文書内の情報を効率的に得ることができる。これに対して、比較例では、[7],[9],[13]の文については要約結果に含められないので、これらの文の知識を得ることができない。
【0092】
再び
図9に戻り、出力データを生成する(ステップS204)。出力生成部414は、各テキスト領域について、要約生成部413によって生成された要約結果を結合する。また、出力生成部414は、通知部として機能し、規定の削減率で対象文書の要約が生成された場合、一律の削減率で対象文書の要約が生成された旨をユーザーに通知するメッセージ(例えば、「本話題に関する知識不足により理解困難と判断された為、情報を大幅に削除しました。」)を、要約結果を結合したものの冒頭に付加する。これは、対象文書を理解する上で、ユーザーAの知識が大幅に不足しているため、仮に対象文書の全文が提示されたとしてもユーザーAは理解できない可能性が高いためである。
【0093】
なお、通知は、要約結果にメッセージを付加することに限らず、要約結果の表示形態の変更(例えば、フォントの変更やマーカー付加等)によって行うこともできる。また、要約結果にメッセージを付加せずに、別途、クライアント端末500において上記メッセージを表示したり、上記メッセージに相当する音声を出力したりすることにより、ユーザーに通知してもよい。
【0094】
このように、本実施形態では、対象文書が含む情報と、ユーザーの知識情報とが比較され、対象文書内の情報が、ユーザーが知っている情報と、知らない情報とに区別される。そして、この区別に基づいて、ユーザーが知っている情報については削除し、ユーザーが知らない情報については削除せず残すように対象文書が要約される。これにより、要約結果の情報量を削減しつつ、ユーザーが有する知識に応じて、ユーザーにとって必要・有益な情報を残すことができるので、ユーザーが理解可能な要約を生成できる。
【0095】
以上のように、実施形態において、情報処理システム100、情報処理装置400、および制御プログラムについて説明した。しかしながら、本発明は、その技術思想の範囲内において当業者が適宜に追加、変形、および省略することができる。
【0096】
例えば、上述の実施形態では、データサーバー200において、対象文書の取得、対象文書のテキスト領域への分割、各テキスト領域におけるキーワードの抽出、および各テキスト領域における第1のデータ集合体の生成を行い、知識サーバー300においてユーザーの知識情報を記憶する場合について説明した。しかし、本発明はこのような場合に限定されず、情報処理装置400において、対象文書の取得、対象文書のテキスト領域への分割、各テキスト領域におけるキーワードの抽出、および各テキスト領域における第1のデータ集合体の生成を行い、ユーザーの知識情報を記憶するように構成することもできる。この場合、情報処理装置400のCPUが文書取得部、キーワード抽出部、第1のデータ集合体生成部の機能を担い、補助記憶部が情報記憶部の機能を担う。
【0097】
また、上述の実施形態では、知識サーバー300から情報処理装置400にユーザーの知識情報を読み出して、情報処理装置400の情報比較部412で第1のデータ集合体と第2のデータ集合体との比較を行う場合を説明した。しかし、このような場合に限らず、知識サーバー300において、第1のデータ集合体と第2のデータ集合体との比較を行う構成とすることもできる。
【0098】
また、上述の実施形態では、クライアント端末500のユーザーが、データサーバー200のデータ記憶部242に記憶された複数の文書のうちから、対象文書を指定する場合について説明した。しかしながら、本発明はこのような場合に限定されず、データサーバー200のデータ取得部213が入力データを取得して生成した入力文書を、対象文書特定部212が対象文書として特定し、情報処理装置400が要約を生成するように構成してもよい。このように構成することにより、情報処理システム100の入力データをリアルタイムで要約できる。
【0099】
また、上述の実施形態では、対象文書の要約を生成する処理(ステップS204)は、共通率が所定値以下であるか否かを判定し、共通率が所定値以下である場合は、規定値に設定された削減率で対象文書の要約を生成することについて説明した。しかしながら、本発明はこのような場合に限定されず、共通率が所定値以下である場合でも、比較結果に基づいて入力データの要約を生成するように構成してもよい。
【0100】
また、制御プログラムは、USBメモリー、フレキシブルディスク、CD-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、メモリーやストレージ等に転送され記憶される。また、この制御プログラムは、例えば、単独のアプリケーション・ソフトウェアとして提供されてもよいし、サーバーの一機能としてその各装置のソフトウェアに組み込んでもよい。
【0101】
また、実施形態において制御プログラムにより実行される処理の一部または全部を回路等のハードウェアに置き換えて実行されうる。
【符号の説明】
【0102】
100 情報処理システム、
200 データサーバー、
210 CPU、
220 RAM、
230 ROM、
240 補助記憶部、
241 ユーザー情報データベース、
242 データ記憶部、
250 通信部、
211 対象ユーザー特定部、
212 対象文書特定部、
213 データ取得部、
213 キーワード抽出部、
215 第1のデータ集合体生成部、
300 知識サーバー、
341 個人知識データベース、
400 情報処理装置、
411 第2のデータ集合体生成部、
412 情報比較部、
413 要約生成部、
414 出力生成部、
415 コントローラー、
500 クライアント端末。