特開2024-77325 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社野村総合研究所の特許一覧

特開2024-77325文書評価システム、文書評価方法、及び文書評価プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024077325

(43)【公開日】2024-06-07

(54)【発明の名称】文書評価システム、文書評価方法、及び文書評価プログラム

(51)【国際特許分類】

G06Q 50/10 20120101AFI20240531BHJP

G06F 40/253 20200101ALI20240531BHJP

G06F 3/048 20130101ALI20240531BHJP

【ＦＩ】

G06Q50/10

G06F40/253

G06F3/048

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022189359

(22)【出願日】2022-11-28

(71)【出願人】

【識別番号】000155469

【氏名又は名称】株式会社野村総合研究所

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100080953

【弁理士】

【氏名又は名称】田中克郎

(72)【発明者】

【氏名】角田充弘

(72)【発明者】

【氏名】飛田敏

【テーマコード（参考）】

5B091

5E555

5L049

5L050

【Ｆターム（参考）】

5B091AA15

5B091CA01

5B091CD11

5E555AA22

5E555AA26

5E555AA28

5E555BA02

5E555BA05

5E555BA06

5E555BB02

5E555BB05

5E555BB06

5E555BC04

5E555CB74

5E555DB56

5E555DB58

5E555DC09

5E555DC18

5E555DC35

5E555DC36

5E555DC40

5E555DD06

5E555EA07

5E555EA11

5E555EA19

5E555FA00

5L049CC11

5L050CC11

(57)【要約】

【課題】電子文書の記載の充実度を容易に把握することを可能にする。
【解決手段】文書評価システムは、複数の電子文書のそれぞれにおける少なくとも１つの領域と、少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも１つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも１つのタグに対応する領域の記載に応じて評価する評価部と、評価の結果を出力する出力部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の電子文書のそれぞれにおける少なくとも１つの領域と、前記少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、
前記対応関係情報に基づいて、前記複数の電子文書に含まれる評価対象文書における、前記少なくとも１つのタグに対応する領域の記載の充実度を、前記複数の電子文書のそれぞれにおける前記少なくとも１つのタグに対応する領域の記載に応じて評価する評価部と、
前記評価の結果を出力する出力部と、
を備える文書評価システム。

【請求項2】

前記充実度は、前記評価対象文書における前記少なくとも１つのタグに対応する領域の面積に応じた充実度、及び、前記評価対象文書における前記少なくとも１つのタグに対応する領域の有無に応じた充実度の少なくともいずれかを含む、請求項１に記載の文書評価システム。

【請求項3】

前記出力部は、複数のタグに対応する前記評価の結果をユーザのユーザ端末にレーダーチャート表示するための情報を出力する、請求項１又は２に記載の文書評価システム。

【請求項4】

前記出力部は、前記評価の結果を、前記評価される充実度に応じた色彩を用いてユーザのユーザ端末に表示するための情報を出力する、請求項１又は２に記載の文書評価システム。

【請求項5】

前記評価対象文書は、電子文書の発行主体及び発行時期の少なくともいずれかが異なる複数の評価対象文書を含み、
前記出力部は、発行主体及び発行時期の少なくともいずれかが異なる前記複数の評価対象文書における前記評価の結果をユーザのユーザ端末に重ねて表示するための情報を出力する、
請求項１又は２に記載の文書評価システム。

【請求項6】

コンピュータが、
複数の電子文書のそれぞれにおける少なくとも１つの領域と、前記少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得し、
前記対応関係情報に基づいて、前記複数の電子文書に含まれる評価対象文書における、前記少なくとも１つのタグに対応する領域の記載の充実度を、前記複数の電子文書のそれぞれにおける前記少なくとも１つのタグに対応する領域の記載に応じて評価し、
前記評価の結果を出力する、
文書評価方法。

【請求項7】

コンピュータに、
複数の電子文書のそれぞれにおける少なくとも１つの領域と、前記少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、
前記対応関係情報に基づいて、前記複数の電子文書に含まれる評価対象文書における、前記少なくとも１つのタグに対応する領域の記載の充実度を、前記複数の電子文書のそれぞれにおける前記少なくとも１つのタグに対応する領域の記載に応じて評価する評価部と、
前記評価の結果を出力する出力部と、
を実現させるための文書評価プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書評価システム、文書評価方法、及び文書評価プログラムに関する。

【背景技術】

【0002】

従来、Ｗｅｂサーバ上で公開されている電子文書の情報を取得して、ユーザの端末に表示する技術が知られている。

【0003】

例えば、特許文献１に記載されている電子文書画像生成装置では、Ｗｅｂサーバ上で公開されている電子文書を、クライアントの表示部に表示し、表示された電子文書の中からクライアントにて選択された要素を取得する。そして、当該装置は、取得した要素から画像データを生成し、生成した画像データを印刷装置に送信する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１１―６５３７４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１に記載されている電子文書画像生成装置では、ユーザによって選択された要素に基づいて生成された画像データの印刷画面が、端末画面に表示される。

【0006】

ところで、例えば記載される内容や記載位置が定型化されていない電子文書を参照する際には、当該電子文書の記載の充実度の評価を通じて、当該電子文書に対する評価がなされることがある。しかしながら、特許文献１に記載の装置では、ユーザは、選択した要素の記載内容自体を示す画像データの表示を参照して、当該記載内容の充実度を評価する必要がある。そのため、特許文献１の表示態様では、ユーザは、例えば記載される内容や記載位置が定型化されていない電子文書の記載の充実度を容易に把握することができない。

【0007】

そこで、本発明は、電子文書の記載の充実度を容易に把握することが可能な文書評価システム、文書評価方法、及び文書評価プログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明の一態様に係る文書評価システムは、複数の電子文書のそれぞれにおける少なくとも１つの領域と、少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも１つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも１つのタグに対応する領域の記載に応じて評価する評価部と、評価の結果を出力する出力部と、を備える。

【0009】

本発明の一態様に係る文書評価方法は、コンピュータが、複数の電子文書のそれぞれにおける少なくとも１つの領域と、少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得し、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも１つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも１つのタグに対応する領域の記載に応じて評価し、評価の結果を出力する。

【0010】

本発明の一態様に係る文書評価プログラムは、コンピュータに、複数の電子文書のそれぞれにおける少なくとも１つの領域と、少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも１つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも１つのタグに対応する領域の記載に応じて評価する評価部と、評価の結果を出力する出力部と、を実現させる。

【0011】

なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」又は装置が有する機能が２つ以上の物理的手段、装置、又はソフトウェアにより実現されても、２つ以上の「部」又は装置の機能が１つの物理的手段、装置、又はソフトウェアにより実現されてもよい。

【発明の効果】

【0012】

本発明によれば、電子文書の記載の充実度を容易に把握することが可能な文書評価システム、文書評価方法、及び文書評価プログラムを提供することができる。

【図面の簡単な説明】

【0013】

【図1】本発明の一実施形態である文書評価システム１００の構成を示す図である。

【図2】記憶部１１０に記憶される書誌情報の例を示す図である。

【図3】記憶部１１０に記憶される対応関係情報の例を示す図である。

【図4】ボリューム指標の算出例を示す図である。

【図5】カバレッジ指標の算出例を示す図である。

【図6A】記憶部１１０に記憶される評価結果情報の例を示す図である。

【図6B】記憶部１１０に記憶される評価結果情報の例を示す図である。

【図7】ユーザ端末３００に表示される評価結果の例を示す図である。

【図8】ユーザ端末３００に表示される評価結果の例を示す図である。

【図9】ユーザ端末３００に表示される評価結果の例を示す図である。

【図10】ユーザ端末３００に表示される評価結果の例を示す図である。

【図11】文書評価システム１００における処理の例を示すフローチャートである。

【発明を実施するための形態】

【0014】

添付図面を参照して、本発明の好適な実施形態について説明する。図１は、本発明の一実施形態である文書評価システム１００の構成を示す図である。

【0015】

文書評価システム１００は、対応関係設定システム２００、ユーザ端末３００（３００ａ、３００ｂ）、及び事業者システム４００（４００ａ、４００ｂ）とインターネット等のネットワークを介して通信可能に接続されるシステムである。

【0016】

文書評価システム１００は、文書評価プログラムによって実現される情報処理システムであり、評価対象文書におけるタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおけるタグに対応する領域の記載に応じて評価し、評価結果をユーザ端末３００に表示する情報処理システムである。

【0017】

このとき、文書評価システム１００は、例えば、評価対象文書における少なくとも１つのタグに対応する領域の面積に応じた充実度（後述するボリューム指標に応じた充実度）、及び、評価対象文書におけるタグに対応する領域の有無に応じた充実度（後述するカバレッジ指標に応じた充実度）の少なくともいずれかの充実度を評価することができる。文書評価システム１００の詳細については、後述する。

【0018】

対応関係設定システム２００は、事前に設定される複数のタグのそれぞれと、電子文書のそれぞれにおけるタグに対応する内容が記載されている領域とを対応付けた対応関係情報を生成し、文書評価システム１００に提供する情報処理システムである。

【0019】

ここで、タグは、例えば、記載されている内容に応じた属性を示す情報である。

【0020】

対応関係設定システム２００において、設定者（例えば、対応関係設定システム２００のユーザ）は、電子文書を参照しながら対応関係情報を生成することができる。また、対応関係設定システム２００は、機械学習を用いて、対応関係情報を生成することができる。対応関係情報及び対応関係設定システム２００の詳細については、後述する。

【0021】

なお、対応関係設定システム２００は、文書評価システム１００とは独立した情報処理システムであってもよく、また、文書評価システム１００に組み込まれた情報処理システムであってもよい。

【0022】

ユーザ端末３００（ユーザ端末３００ａ、ユーザ端末３００ｂ）は、文書評価システム１００のユーザが利用するコンピュータであり、スマートフォン、タブレット端末、パーソナルコンピュータ等である。

【0023】

ユーザは、ユーザ端末３００を通じて文書評価システム１００にアクセスして、文書評価システム１００によるユーザ端末３００への評価対象文書の評価結果の表示を受け、表示される評価結果を参照することができる。

【0024】

事業者システム４００（事業者システム４００ａ、事業者システム４００ｂ）は、評価対象文書を含む複数の電子文書を記憶する情報処理システムである。事業者システム４００のそれぞれ（例えば、事業者システム４００ａ、事業者システム４００ｂ）は、複数の電子文書のそれぞれの発行主体（例えば、事業者）が管理する情報処理システムであってもよい。

【0025】

事業者システム４００は、事業者システム４００（具体的には、例えば、事業者システム４００の記憶部）に記憶されている電子文書の内容を示す情報を、文書評価システム１００に提供する。事業者システム４００は、事業者システム４００（具体的には、例えば、事業者システム４００の記憶部）に記憶されている電子文書の内容を示す情報を別の情報処理システムに提供し、当該別の情報処理システムが、文書評価システム１００に当該電子文書の内容を示す情報を提供してもよい。

【0026】

なお、図１において、ユーザ端末３００、事業者システム４００は、それぞれ２つずつ示されているが、ユーザ端末３００及び事業者システム４００の数は限られない。

【0027】

続いて、文書評価システム１００の詳細について説明する。文書評価システム１００は、記憶部１１０、文書取得部１２０、対応関係取得部１３０、評価部１４０、出力部１５０を備える。図１に示す各部は、例えば、記憶領域を用いたり、記憶領域に格納されたプログラムをプロセッサが実行したりすることにより実現することができる。

【0028】

記憶部１１０は、文書評価システム１００において処理される情報を記憶する。記憶部１１０は、例えば、後述する、書誌情報、対応関係情報、文書内容情報、評価結果情報を記憶することができる。

【0029】

記憶部１１０は、事前に書誌情報を記憶する。文書評価システム１００は、例えば、文書評価システム１００の管理者又はユーザの操作に応じて、書誌情報を取得し、記憶部１１０に格納する。

【0030】

ここで、書誌情報は、複数の電子文書のそれぞれの書誌事項に関する情報である。書誌情報は、例えば、電子文書の名称を示す名称情報、電子文書の発行主体（例えば、事業者）を示す発行主体情報、電子文書の発行時期（例えば、発行年度）を示す発行時期情報、電子文書の保存場所を示す保存場所情報を含む。

【0031】

名称情報は、電子文書のファイル名を示す情報であってもよく、また、電子文書のタイトル（例えば、「アニュアルレポート２０２２」、「２０２１年度サステナビリティレポート」等）を示す情報であってもよい。

【0032】

発行主体情報は、例えば、発行主体の名称自体（例えば、「Ａ社」）を示す情報であってもよく、また、発行主体を識別する情報（例えば、企業コード等のＩＤ）であってもよい。

【0033】

発行時期情報は、例えば、電子文書が発行された年度、年、又は年月日を示す情報であってもよい。

【0034】

種別情報は、電子文書の種別を示す情報である。ここで、種別は、例えば、統合報告書（アニュアルレポート、年次報告書）、サステナビリティレポート、コーポレート・ガバナンス報告書、臨時報告書、有価証券報告書、ヒアリングレポート、ウェブサイト情報を含む。なお、文書評価システム１００が処理可能な電子文書の種別は、これに限られない。

【0035】

保存場所情報は、例えば、電子文書が保存されているＵＲＬ（Uniform Resource Locator）を示す情報であってもよい。

【0036】

このように、文書評価システム１００は、例えば、非財務情報が記載された報告書を処理することができる。一般に、企業の非財務情報の収集及び評価には、属人的な作業が多く含まれる。また、非財務情報に関する報告書の形式は、企業ごとに異なる場合がある。そのため、企業の非財務情報の収集及び評価には、多大な時間を要することがある。文書評価システム１００は、例えば、非財務情報が記載された報告書を処理可能であるため、ユーザは、文書評価システム１００を通じて、例えば、非財務情報に関する報告書の記載の充実度を、容易に把握することができる。

【0037】

なお、文書評価システム１００は、非財務情報以外の情報に関する報告書の電子文書を処理可能である。

【0038】

図２は、記憶部１１０に記憶される書誌情報の例を示す図である。記憶部１１０に記憶される書誌情報は、例えば、文書ＩＤ、名称情報、発行主体情報、発行時期情報、種別情報、保存場所情報を含む。ここで、文書ＩＤは、文書評価システム１００において処理される電子文書を識別する情報である。

【0039】

文書取得部１２０は、記憶部１１０に記憶されている書誌情報に基づいて、書誌情報に含まれる保存場所情報が示す保存場所に保存されている複数の電子文書のそれぞれの内容を示す文書内容情報を取得する。

【0040】

すなわち、文書取得部１２０は、例えば、事業者システム４００にアクセスして、事業者システム４００の記憶部に保存されている電子文書の文書内容情報を取得する。文書取得部１２０は、例えば、ウェブスクレイピングにより、事業者システム４００から文書内容情報を取得することができる。

【0041】

このとき、文書取得部１２０は、事業者システム４００の記憶部に保存されている電子文書（例えば、ＰＤＦ（Portable Document Format）形式のファイル）を一時的に取得する。そして、文書取得部１２０は、当該一時的に取得した電子文書に基づいて文書内容情報（例えば、電子文書のデータ実体）を取得（例えば、テキストを抽出）し、文書内容情報を記憶する。なお、この場合、文書取得部１２０は、一時的に取得した電子文書自体を保存しない。これにより、文書評価システム１００は、電子文書の著作権を侵害することなく、電子文書の内容をユーザ端末３００に表示することができる。

【0042】

また、文書取得部１２０は、書誌情報（より具体的には、書誌情報に含まれる発行時期情報）に基づいて、発行時期が異なる複数の電子文書のそれぞれの文書内容情報を取得することができる。

【0043】

また、文書取得部１２０は、書誌情報（より具体的には、書誌情報に含まれる発行主体情報）に基づいて、発行主体が異なる複数の電子文書のそれぞれの文書内容情報を取得することができる。

【0044】

対応関係取得部１３０は、複数の電子文書のそれぞれにおける少なくとも１つの領域と、少なくとも１つの領域に記載されている内容に応じた属性を示す少なくとも１つのタグとを対応付けた対応関係情報を取得し、記憶部１１０に格納する。

【0045】

対応関係取得部１３０は、例えば、対応関係設定システム２００から、対応関係情報を取得することができる。

【0046】

ここで、タグは、例えば、法律、所定の期間が定める指針、又は慣習（特に商慣習）等によって記載又は開示することが求められている項目を示すタグであってもよい。具体的には、Ａ報告書において項目ａの記載が法律等によって求められている場合、対応関係情報には、項目ａを示すタグが含まれる。

【0047】

また、タグは、任意に設定されるタグであってもよい。この場合、タグは、対応関係設定システム２００の管理者若しくはユーザ又は文書評価システム１００の管理者若しくはユーザによって、設定されてもよい。さらに、この場合、タグは、法律、所定の期間が定める指針、又は慣習（特に商慣習）等によって記載又は開示することが求められている項目を示すタグに対応して、複数のタグを１つのタグ（上位タグ）に統合したり、新たなタグを設けたりすることによって設定されてもよい。

【0048】

また、項目は、任意に設定されるタグにさらに設定されるタグであってもよい。具体的には、第１のタグとして、法律、所定の期間が定める指針、又は慣習（特に商慣習）等によって記載又は開示することが求められている項目を示すタグが設定され、第２のタグとして、第１のタグに対応するタグであって、対応関係設定システム２００の管理者によって設定されるタグが設定され、さらに、第３のタグとして、第２のタグに対応するタグであって、文書評価システム１００のユーザによって設定されるタグが設定されてもよい。これにより、ユーザは、独自にタグをカスタマイズでき、ユーザの利便性が向上する。

【0049】

また、電子文書には、複数のタグを含むタググループに対応する領域が設定されてもよい。この場合、タググループに対応する領域は、当該複数のタグのそれぞれに対応する領域の集合であってもよく、また、タググループに対応する内容が記載されている範囲（例えば、特定の章又は項目）の領域であってもよい。

【0050】

具体的には、タググループ「情報開示」は、例えば、タグ「サスティナビリティ情報開示」、タグ「参画するイニシアチブや団体」、タグ「外部からのＥＳＧ評価」を含んでもよい。

【0051】

また、さらに、電子文書には、複数のタググループを含むタグカテゴリに対応する領域が設定されてもよい。この場合、タグカテゴリに対応する領域は、当該複数のタググループのそれぞれに対応する領域の集合であってもよく、また、タグカテゴリに対応する内容が記載されている範囲（例えば、特定の章又は項目）の領域であってもよい。

【0052】

具体的には、タグカテゴリ「企業概要」は、例えば、タググループ「経営メッセージ」、タググループ「事業環境」、タググループ「情報開示」を含んでもよい。

【0053】

対応関係取得部１３０は、発行時期が異なる複数の電子文書における対応関係情報を取得することができる。これにより、後述する評価部１４０は、発行時期が異なる複数の電子文書におけるタグに対応する領域の記載の充実度を評価することができる。

【0054】

また、対応関係取得部１３０は、発行主体が異なる複数の電子文書における対応関係情報を取得することができる。これにより、後述する評価部１４０は、発行主体が異なる複数の電子文書におけるタグに対応する領域の記載の充実度を評価することができる。

【0055】

対応関係設定システム２００は、例えば、設定者（対応関係設定システム２００の管理者又はユーザ）による情報端末の操作に応じて、対応関係情報を生成することができる。

【0056】

具体的には、対応関係設定システム２００において、設定者は、情報端末を操作して、電子文書を参照しながら、複数のタグのそれぞれに対応する内容が記載されている領域を特定する。このとき、例えば、設定者の情報端末は、設定者が選択操作（例えば、ドラッグ操作又はタッチ操作）によって選択した範囲を、タグに対応する内容が記載されている領域と判断する。設定者が選択した領域と、対応するタグとを対応付けた対応関係情報が生成される。そして、対応関係取得部１３０が、生成された対応関係情報を取得する。

【0057】

また、対応関係設定システム２００は、機械学習を用いて、対応関係情報を生成してもよい。このとき、対応関係設定システム２００は、電子文書に記載されているテキストを解析して得られる解析情報に基づいて、対応関係情報を生成してもよい。

【0058】

また、対応関係設定システム２００は、設定者による操作及び機械学習を活用して、対応関係情報を生成し、対応関係取得部１３０は、生成された対応関係情報を取得してもよい。これにより、対応関係取得部１３０は、より精度の高い対応関係情報を取得することができる。

【0059】

図３は、記憶部１１０に記憶される対応関係情報の例を示す図である。記憶部１１０に記憶される対応関係情報は、例えば、文書ＩＤ、タグに関するタグ情報（例えば、第１タグ情報、第２タグ情報等）を含み、タグ情報のそれぞれは、例えば、タグＩＤ、領域情報を含む。

【0060】

タグＩＤは、複数の電子文書のそれぞれの領域に記載されている内容に応じた属性を示すタグを識別する情報である。領域情報は、タグに対応する内容が記載されている、電子文書中の領域（例えば、ページ番号（ｐａｇｅ１）、開始点のＸ座標（ｘ１）、開始点のＹ座標（ｙ１）、幅（ｗ１）、高さ（ｈ１）により特定される領域）を示す情報である。

【0061】

また、タグ情報は、タグが属するタググループ及びタググループが属するタグカテゴリを示す情報をさらに含んでもよい。

【0062】

評価部１４０は、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における少なくとも１つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも１つのタグに対応する領域の記載に応じて評価し、評価の結果を示す評価結果情報を記憶部１１０に格納する。

【0063】

ここで、充実度は、例えば、評価対象文書における少なくとも１つのタグに対応する領域の面積に応じた充実度（後述するボリューム指標に応じた充実度）、及び、評価対象文書における少なくとも１つのタグに対応する領域の有無に応じた充実度（後述するカバレッジ指標に応じた充実度）の少なくともいずれかを含んでもよい。

【0064】

ボリューム指標は、例えば、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における、評価対象文書におけるタグに対応する領域の面積に応じたスコアであってもよい。すなわち、例えば、ボリューム指標を、０点～５点までのスコアとする場合、評価対象文書におけるタグに対応する領域の面積が、複数の電子文書のそれぞれにおけるタグに対応する領域の面積の平均値と同じ値である場合には、２．５点とし、平均値を上回る場合には、２．５点より高いスコアとしてもよい。この場合、ボリューム指標は、評価対象文書におけるタグに対応する領域の面積の偏差値を示す。

【0065】

図４は、ボリューム指標の算出例を示す図である。図４に示す分布は、複数の電子文書における所定のタグに対応する領域の面積の分布を示す。図４に示すボリューム指標の算出例では、評価対象文書におけるタグに対応する領域の面積が分布の平均値である場合、スコアは２．５点となる。また、分布の標準偏差をσ（シグマ）とすると、評価対象文書におけるタグに対応する領域の面積が分布の＋３σの値である場合、例えば、スコアは４．０点となる。例えば、評価対象文書におけるタグに対応する領域の面積が、４０１に対応する値である場合、スコアは３．８点となる。なお、標準偏差に基づくスコアの算出方法はこれに限られない。

【0066】

ボリューム指標が、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における、評価対象文書におけるタグに対応する領域の面積に応じたスコアである場合、ボリューム指標は、不適切なスコアとなる場合がある。ボリューム指標が不適切なスコアとなる場合は、例えば、データサンプル（この場合は、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布）が正規分布から大きくずれた分布である場合、データサンプル内に極端な外れ値がある場合、又はデータサンプルが少ない場合に起こり得る。

【0067】

そこで、ボリューム指標は、四分位偏差を基準にしたスコアであってもよい。すなわち、ボリューム指標を、０点～５点までのスコアとする場合、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における第一四分位数に相当する値を１．５点、中央値を２．５点、第三四分位数に相当する値を３．５点とするボリューム指標としてもよい。これにより、例えば、データサンプル（この場合は、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布）が正規分布から大きくずれた分布である場合、データサンプル内に極端な外れ値がある場合、又はデータサンプルが少ない場合であっても、適切なボリューム指標の算出ができる。なお、四分位偏差に基づくスコアの算出方法はこれに限られない。

【0068】

なお、この場合、他の複数の電子文書は、文書評価システム１００が処理可能な電子文書の全てでもよく、評価対象文書と同一種別の電子文書でもよく、また、評価対象文書と同一種別、かつ、評価対象文書の発行年度の前年度に発行された電子文書であってもよい。

【0069】

また、ボリューム指標は、０点～５点で示されるものであってもよく、それ以外の点数（例えば、０点～１００点等）で示されるものであってもよい。

【0070】

カバレッジ指標は、例えば、他の電子文書の少なくとも１つの電子文書に設定されたタグに対応する領域の個数に対する、評価対象文書に設定されたタグに対応する領域の個数の割合に応じたスコアであってもよい。

【0071】

ここで、他の電子文書の少なくとも１つの電子文書に設定されたタグに対応する領域の個数は、例えば、他の電子文書の少なくとも１つの電子文書のタググループに対応する領域における、当該タググループに含まれる複数のタグに対応する領域の個数である。

【0072】

すなわち、例えば、電子文書の所定の領域に、４つのタグ（タグａ１、タグａ２、タグａ３、タグａ４）を含むタググループＡが設定されうる場合、他の電子文書のうちの少なくとも１つの電子文書が、タググループＡに対応する領域において、３つのタグに対応する領域を備えており、当該３つのタグのうち、評価対象文書が、タググループＡに対応する領域において、２つのタグを備えている場合、カバレッジ指標は、３に対する２の割合に応じたスコアであってもよい。カバレッジ指標を０点～５点までのスコアとすると、この場合、カバレッジ指標は、３．３点であってもよい。

【0073】

図５は、カバレッジ指標の算出例を示す図である。図５は、評価対象文書及び他の電子文書における、タグに対応する領域の有無を示す図である。評価対象文書及び他の電子文書では、タグａ１～タグａ４の４つのタグに対応する内容が記載されうる。評価対象文書では、タグａ１、タグａ３、及びタグａ４に対応する記載があり、他の電子文書では、タグａ１、タグａ２、及びタグａ３に対応する記載がある。

【0074】

この場合、他の電子文書は、３つのタグに対応する記載がある。そして、評価対象文書では、タグａ１及びタグａ３の２つタグにおいて、他の電子文書のタグと重複している。そのため、カバレッジ指標は、例えば、３（他の電子文書に記載があるタグの数）に対する２（評価対象文書と他の電子文書との重なっているタグの数）の割合に応じたスコアとなる。例えばカバレッジ指標を０点～５点までのスコアとすると、この場合、カバレッジ指標は、３．３点となる。

【0075】

カバレッジ指標が、他の電子文書の少なくとも１つの電子文書に設定されたタグに対応する領域の個数に対する、評価対象文書に設定されたタグに対応する領域の個数の割合に応じたスコアである場合、例えば、他の電子文書のうち、１つの電子文書のみに設定されたタグに対応する領域がある場合に、外れ値が生まれ、カバレッジ指標が、不適切なスコアとなる場合がある。すなわち、当該１つの電子文書以外の他の電子文書では記載がないにもかかわらず、当該１つの電子文書のみにタグに対応する記載があるために、評価対象文書のカバレッジ指標が不適切に小さくなる場合がある。

【0076】

そこで、カバレッジ指標を、他の電子文書のうちの所定の割合の電子文書に設定されたタグに対応する領域の個数に対する、評価対象文書に設定されたタグに対応する領域の個数の割合に応じたスコアとしてもよい。このとき、所定の割合は、例えば、１０％であってもよい。これにより、外れ値の影響を抑えることができ、適切なカバレッジ指標を算出することができる。

【0077】

【0078】

また、カバレッジ指標は、０点～５点で示されるものであってもよく、それ以外の点数（例えば、０点～１００点等）で示されるものであってもよい。

【0079】

また、ボリューム指標及びカバレッジ指標の算出に用いる他の電子文書の記載に応じた値の算出は、事前に（例えば、文書取得部１２０による評価対象文書の取得の前に）行われてもよい。すなわち、例えば、ボリューム指標の算出において、過去一年度分の他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における統計値（例えば、平均値、中央値、標準偏差、四分位偏差等）が事前に（例えば、年度の初めに）算出され、当該事前に算出された統計値と、評価対象文書におけるタグに対応する領域の面積とに基づいて、評価対象文書のボリューム指標が算出されてもよい。

【0080】

図６Ａ及び図６Ｂは、記憶部１１０に記憶される評価結果情報の例を示す図である。図６Ａは、ボリューム指標に関する評価結果情報の例を示す図である。図６Ｂは、カバレッジ指標に関する評価結果情報の例を示す図である。

【0081】

図６Ａに示すとおり、記憶部１１０に記憶されるボリューム指標に関する評価結果情報は、例えば、文書ＩＤ、タグＩＤ、ボリューム指標情報を含む。ボリューム指標情報は、ボリューム指標を示す情報であり、例えば、ボリューム指標に応じたスコアを示す情報である。

【0082】

図６Ｂに示すとおり、記憶部１１０に記憶されるボリューム指標に関する評価結果情報は、例えば、文書ＩＤ、タググループＩＤ、カバレッジ指標情報を含む。タググループＩＤは、タググループを識別する情報である。カバレッジ指標情報は、カバレッジ指標を示す情報であり、例えば、カバレッジ指標に応じたスコアを示す情報である。

【0083】

出力部１５０は、評価部１４０による評価の結果を出力する。

【0084】

出力部１５０は、評価の結果をユーザ端末３００に表示するための情報を出力することができる。このとき、出力部１５０は、例えば、記憶部１１０に記憶されている評価結果情報を参照して、評価の結果をユーザ端末３００に表示するための情報を、ユーザ端末３００に出力することができる。なお、出力部１５０は、ユーザ端末３００からの要求に応じて、評価の結果をユーザ端末３００に表示するための情報をユーザ端末３００に出力してもよい。

【0085】

出力部１５０は、評価の結果を、図形（例えば、棒グラフ）を用いてユーザ端末３００に表示するための情報を出力することができる。

【0086】

図７は、ユーザ端末３００に表示される評価結果の例を示す図である。図７に示す画面は、評価の結果が棒グラフを用いて表示される場合の画面の例を示している。図７に示す画面は、例えば、表示している文書を示す情報を表示する領域７０１、及び評価の結果を表示する領域７０２を含む。

【0087】

領域７０１には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。

【0088】

領域７０２には、例えば、タググループごとに、評価対象文書のタググループに対応するボリューム指標及びカバレッジ指標が、棒グラフを用いて表示される。なお、タググループに対応するボリューム指標は、例えば、当該タググループに含まれる複数のタグのボリューム指標の平均値であってもよい。

【0089】

なお、領域７０２には、ボリューム指標及びカバレッジ指標の両方が表示されてもよく、また、ボリューム指標及びカバレッジ指標のいずれか一方が表示されてもよい。ボリューム指標及びカバレッジ指標のいずれか一方が表示される場合、ユーザは、図７に示す画面にさらに設けられる、表示する評価結果を切り替えるボタンを選択して、表示する評価結果（すなわち、ボリューム指標及びカバレッジ指標のいずれを表示するか）を切り替えることができてもよい。

【0090】

なお、領域７０２には、タグごと又はタグカテゴリごとに、ボリューム指標が棒グラフを用いて表示されてもよく、また、タグカテゴリごとにカバレッジ指標が表示されてもよい。領域７０２に、タグカテゴリごとにボリューム指標及びカバレッジ指標が表示される場合、タグカテゴリごとのボリューム指標及びカバレッジ指標は、例えば、当該タグカテゴリに含まれる複数のタググループのボリューム指標及びカバレッジ指標の平均値であってもよい。

【0091】

また、出力部１５０は、複数のタグに対応する評価の結果をユーザ端末３００にレーダーチャート表示するための情報を出力することができる。

【0092】

図８は、ユーザ端末３００に表示される評価結果の例を示す図である。図８に示す画面は、複数のタグに対応する評価の結果がレーダーチャート表示される場合の画面の例を示している。図８に示す画面は、例えば、表示している文書を示す情報を表示する領域８０１、及び評価の結果をレーダーチャート表示する領域８０２を含む。

【0093】

領域８０１には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。

【0094】

領域８０２には、例えば、４つのタグカテゴリに対応するボリューム指標及びカバレッジ指標の両方の結果がレーダーチャート表示される。

【0095】

なお、領域８０２にレーダーチャート表示されるタグカテゴリの個数は、４つに限られない。また、領域８０２には、タグ若しくはタググループに対応するボリューム指標、又はタググループに対応するカバレッジ指標が、レーダーチャート表示されてもよい。

【0096】

また、出力部１５０は、発行主体及び発行時期の少なくともいずれかが異なる複数の評価対象文書における評価の結果をユーザ端末３００に重ねて表示するための情報を出力することができる。

【0097】

図９は、ユーザ端末３００に表示される評価結果の例を示す図である。図９に示す画面は、発行主体が異なる複数の評価対象文書における評価の結果が重ねて表示される場合の画面の例を示す。図９に示す画面は、例えば、表示している文書を示す情報を表示する領域９０１、及び評価の結果をレーダーチャート表示する領域９０２を含む。

【0098】

領域９０１には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。

【0099】

領域９０２には、例えば、２つの発行主体（この場合は、Ａ社及びＢ社）それぞれのボリューム指標及びカバレッジ指標の合計スコアがレーダーチャート表示される。

【0100】

なお、領域９０２には、ボリューム指標及びカバレッジ指標の合計スコアがレーダーチャート表示されているが、ボリューム指標及びカバレッジ指標の平均スコアがレーダーチャート表示されてもよい。

【0101】

また、領域９０２には、ボリューム指標及びカバレッジ指標のいずれかのスコアがレーダーチャート表示されてもよく、ボリューム指標及びカバレッジ指標のスコアがそれぞれ表示されてもよい。ユーザは、図９に示す画面にさらに設けられる、表示する評価結果を切り替えるボタンを選択して、表示する評価結果（すなわち、ボリューム指標及びカバレッジ指標のいずれを表示するか）を切り替えることができてもよい。

【0102】

なお、ユーザ端末３００に、発行時期が異なる複数の評価対象文書における評価の結果が重ねて表示される場合は、領域９０２に相当する領域に、例えば、２つの発行時期（例えば、連続する年度）それぞれの電子文書のボリューム指標及びカバレッジ指標の合計スコアがレーダーチャート表示されればよい。

【0103】

また、出力部１５０は、評価の結果を、評価される充実度に応じた色彩を用いてユーザ端末３００に表示するための情報を出力することができる。

【0104】

図１０は、ユーザ端末３００に表示される評価結果の例を示す図である。図１０に示す画面は、評価の結果が評価される充実度に応じた色彩を用いて表示される場合の画面の例を示している。図１０に示す画面は、例えば、表示している文書を示す情報を表示する領域１００１、評価の結果を評価される充実度に応じた色彩を用いて表示する領域１００２、複数のタググループを統合するタグカテゴリにおける評価結果を表示する領域１００３（１００３ａ、１００３ｂ）、タグカテゴリに属するタググループにおける評価結果を表示する領域１００４、及びスコアと色彩の関係を示す図を表示する領域１００５を含む。

【0105】

領域１００１には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。

【0106】

領域１００２には、例えば、評価の結果を評価される充実度に応じた色彩を用いて表示される。

【0107】

領域１００３（１００３ａ、１００３ｂ）には、タグカテゴリごとに、評価の結果を評価される充実度に応じた色彩を用いて表示される。

【0108】

領域１００４には、領域１００３に表示されるタグカテゴリに属するタググループごとに、評価の結果を評価される充実度に応じた色彩を用いて表示される。

【0109】

領域１００３に表示される評価の結果は、例えば、領域１００３に表示されるタグカテゴリに属するタググループごとのスコア（例えば、領域１００４に表示されるタググループのスコアを含むスコア）の平均値であってもよい。

【0110】

領域１００５には、スコアと色彩の関係を示す図が表示される。領域１００５に表示される図は、濃い色ほど高いスコアを備えることを示している。

【0111】

なお、図１０に示す画面では、評価の結果がグレースケールで表示されているが、評価の結果の表示の方法は、グレースケールに限られず、例えば、色相、明度、彩度の違いを用いて表示されてもよい。

【0112】

出力部１５０が図７～図１０のように評価の結果をユーザ端末３００に表示するための情報を出力することにより、ユーザは、同業他社やベンチマーク企業を同一の評価軸で容易に比較したり、同一発行主体を容易に時系列比較したりすることができる。

【0113】

図１１は、文書評価システム１００における処理の例を示すフローチャートである。

【0114】

まず、文書評価システム１００は、例えば文書評価システム１００の管理者の操作に応じて、書誌情報を取得し、記憶部１１０に格納する（Ｓ１１０１）。文書取得部１２０が、書誌情報に含まれる保存場所情報が示す保存場所から、電子文書の文書内容情報を取得する（Ｓ１１０２）。続いて、対応関係取得部１３０が、例えば対応関係設定システム２００から、対応関係情報を取得する（Ｓ１１０３）。

【0115】

評価部１４０が、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書におけるタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおけるタグに対応する領域の記載に応じて評価する（Ｓ１１０４）。出力部１５０は、評価結果を出力する（Ｓ１１０５）。

【0116】

以上、本発明の一実施形態について説明した。文書評価システム１００は、対応関係情報に基づいて、評価対象文書における少なくとも１つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも１つのタグに対応する領域の記載に応じて評価し、評価の結果を出力することができる。これにより、ユーザは、電子文書の記載の充実度を容易に把握することができる。

【0117】

また、文書評価システム１００は、評価対象文書における少なくとも１つのタグに対応する領域の面積に応じた充実度、及び、評価対象文書における少なくとも１つのタグに対応する領域の有無に応じた充実度の少なくともいずれかを評価することができる。これにより、ユーザは、ボリューム指標及びカバレッジ指標の少なくともいずれかに応じた充実度の評価結果を把握することができる。

【0118】

また、文書評価システム１００は、複数のタグに対応する評価の結果をユーザ端末３００にレーダーチャート表示するための情報、評価の結果を評価される充実度に応じた色彩を用いてユーザ端末３００に表示するための情報、又は発行主体及び発行時期の少なくともいずれかが異なる複数の評価対象文書における評価の結果をユーザ端末３００に重ねて表示するための情報を出力することができる。これにより、ユーザは、評価の結果を容易に把握することができる。

【0119】

なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更／改良され得るととともに、本発明にはその等価物も含まれる。

【符号の説明】

【0120】

１００文書評価システム、１１０記憶部、１２０文書取得部、１３０対応関係取得部、１４０評価部、１５０出力部、２００対応関係設定システム、３００ユーザ端末、４００事業者システム

【図1】