IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社野村総合研究所の特許一覧

特開2024-77325文書評価システム、文書評価方法、及び文書評価プログラム
<>
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図1
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図2
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図3
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図4
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図5
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図6A
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図6B
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図7
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図8
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図9
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図10
  • 特開-文書評価システム、文書評価方法、及び文書評価プログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024077325
(43)【公開日】2024-06-07
(54)【発明の名称】文書評価システム、文書評価方法、及び文書評価プログラム
(51)【国際特許分類】
   G06Q 50/10 20120101AFI20240531BHJP
   G06F 40/253 20200101ALI20240531BHJP
   G06F 3/048 20130101ALI20240531BHJP
【FI】
G06Q50/10
G06F40/253
G06F3/048
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022189359
(22)【出願日】2022-11-28
(71)【出願人】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100080953
【弁理士】
【氏名又は名称】田中 克郎
(72)【発明者】
【氏名】角田 充弘
(72)【発明者】
【氏名】飛田 敏
【テーマコード(参考)】
5B091
5E555
5L049
5L050
【Fターム(参考)】
5B091AA15
5B091CA01
5B091CD11
5E555AA22
5E555AA26
5E555AA28
5E555BA02
5E555BA05
5E555BA06
5E555BB02
5E555BB05
5E555BB06
5E555BC04
5E555CB74
5E555DB56
5E555DB58
5E555DC09
5E555DC18
5E555DC35
5E555DC36
5E555DC40
5E555DD06
5E555EA07
5E555EA11
5E555EA19
5E555FA00
5L049CC11
5L050CC11
(57)【要約】
【課題】電子文書の記載の充実度を容易に把握することを可能にする。
【解決手段】文書評価システムは、複数の電子文書のそれぞれにおける少なくとも1つの領域と、少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも1つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも1つのタグに対応する領域の記載に応じて評価する評価部と、評価の結果を出力する出力部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数の電子文書のそれぞれにおける少なくとも1つの領域と、前記少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、
前記対応関係情報に基づいて、前記複数の電子文書に含まれる評価対象文書における、前記少なくとも1つのタグに対応する領域の記載の充実度を、前記複数の電子文書のそれぞれにおける前記少なくとも1つのタグに対応する領域の記載に応じて評価する評価部と、
前記評価の結果を出力する出力部と、
を備える文書評価システム。
【請求項2】
前記充実度は、前記評価対象文書における前記少なくとも1つのタグに対応する領域の面積に応じた充実度、及び、前記評価対象文書における前記少なくとも1つのタグに対応する領域の有無に応じた充実度の少なくともいずれかを含む、請求項1に記載の文書評価システム。
【請求項3】
前記出力部は、複数のタグに対応する前記評価の結果をユーザのユーザ端末にレーダーチャート表示するための情報を出力する、請求項1又は2に記載の文書評価システム。
【請求項4】
前記出力部は、前記評価の結果を、前記評価される充実度に応じた色彩を用いてユーザのユーザ端末に表示するための情報を出力する、請求項1又は2に記載の文書評価システム。
【請求項5】
前記評価対象文書は、電子文書の発行主体及び発行時期の少なくともいずれかが異なる複数の評価対象文書を含み、
前記出力部は、発行主体及び発行時期の少なくともいずれかが異なる前記複数の評価対象文書における前記評価の結果をユーザのユーザ端末に重ねて表示するための情報を出力する、
請求項1又は2に記載の文書評価システム。
【請求項6】
コンピュータが、
複数の電子文書のそれぞれにおける少なくとも1つの領域と、前記少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得し、
前記対応関係情報に基づいて、前記複数の電子文書に含まれる評価対象文書における、前記少なくとも1つのタグに対応する領域の記載の充実度を、前記複数の電子文書のそれぞれにおける前記少なくとも1つのタグに対応する領域の記載に応じて評価し、
前記評価の結果を出力する、
文書評価方法。
【請求項7】
コンピュータに、
複数の電子文書のそれぞれにおける少なくとも1つの領域と、前記少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、
前記対応関係情報に基づいて、前記複数の電子文書に含まれる評価対象文書における、前記少なくとも1つのタグに対応する領域の記載の充実度を、前記複数の電子文書のそれぞれにおける前記少なくとも1つのタグに対応する領域の記載に応じて評価する評価部と、
前記評価の結果を出力する出力部と、
を実現させるための文書評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書評価システム、文書評価方法、及び文書評価プログラムに関する。
【背景技術】
【0002】
従来、Webサーバ上で公開されている電子文書の情報を取得して、ユーザの端末に表示する技術が知られている。
【0003】
例えば、特許文献1に記載されている電子文書画像生成装置では、Webサーバ上で公開されている電子文書を、クライアントの表示部に表示し、表示された電子文書の中からクライアントにて選択された要素を取得する。そして、当該装置は、取得した要素から画像データを生成し、生成した画像データを印刷装置に送信する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2011―65374号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載されている電子文書画像生成装置では、ユーザによって選択された要素に基づいて生成された画像データの印刷画面が、端末画面に表示される。
【0006】
ところで、例えば記載される内容や記載位置が定型化されていない電子文書を参照する際には、当該電子文書の記載の充実度の評価を通じて、当該電子文書に対する評価がなされることがある。しかしながら、特許文献1に記載の装置では、ユーザは、選択した要素の記載内容自体を示す画像データの表示を参照して、当該記載内容の充実度を評価する必要がある。そのため、特許文献1の表示態様では、ユーザは、例えば記載される内容や記載位置が定型化されていない電子文書の記載の充実度を容易に把握することができない。
【0007】
そこで、本発明は、電子文書の記載の充実度を容易に把握することが可能な文書評価システム、文書評価方法、及び文書評価プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様に係る文書評価システムは、複数の電子文書のそれぞれにおける少なくとも1つの領域と、少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも1つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも1つのタグに対応する領域の記載に応じて評価する評価部と、評価の結果を出力する出力部と、を備える。
【0009】
本発明の一態様に係る文書評価方法は、コンピュータが、複数の電子文書のそれぞれにおける少なくとも1つの領域と、少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得し、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも1つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも1つのタグに対応する領域の記載に応じて評価し、評価の結果を出力する。
【0010】
本発明の一態様に係る文書評価プログラムは、コンピュータに、複数の電子文書のそれぞれにおける少なくとも1つの領域と、少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得する対応関係取得部と、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における、少なくとも1つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも1つのタグに対応する領域の記載に応じて評価する評価部と、評価の結果を出力する出力部と、を実現させる。
【0011】
なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」又は装置が有する機能が2つ以上の物理的手段、装置、又はソフトウェアにより実現されても、2つ以上の「部」又は装置の機能が1つの物理的手段、装置、又はソフトウェアにより実現されてもよい。
【発明の効果】
【0012】
本発明によれば、電子文書の記載の充実度を容易に把握することが可能な文書評価システム、文書評価方法、及び文書評価プログラムを提供することができる。
【図面の簡単な説明】
【0013】
図1】本発明の一実施形態である文書評価システム100の構成を示す図である。
図2】記憶部110に記憶される書誌情報の例を示す図である。
図3】記憶部110に記憶される対応関係情報の例を示す図である。
図4】ボリューム指標の算出例を示す図である。
図5】カバレッジ指標の算出例を示す図である。
図6A】記憶部110に記憶される評価結果情報の例を示す図である。
図6B】記憶部110に記憶される評価結果情報の例を示す図である。
図7】ユーザ端末300に表示される評価結果の例を示す図である。
図8】ユーザ端末300に表示される評価結果の例を示す図である。
図9】ユーザ端末300に表示される評価結果の例を示す図である。
図10】ユーザ端末300に表示される評価結果の例を示す図である。
図11】文書評価システム100における処理の例を示すフローチャートである。
【発明を実施するための形態】
【0014】
添付図面を参照して、本発明の好適な実施形態について説明する。図1は、本発明の一実施形態である文書評価システム100の構成を示す図である。
【0015】
文書評価システム100は、対応関係設定システム200、ユーザ端末300(300a、300b)、及び事業者システム400(400a、400b)とインターネット等のネットワークを介して通信可能に接続されるシステムである。
【0016】
文書評価システム100は、文書評価プログラムによって実現される情報処理システムであり、評価対象文書におけるタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおけるタグに対応する領域の記載に応じて評価し、評価結果をユーザ端末300に表示する情報処理システムである。
【0017】
このとき、文書評価システム100は、例えば、評価対象文書における少なくとも1つのタグに対応する領域の面積に応じた充実度(後述するボリューム指標に応じた充実度)、及び、評価対象文書におけるタグに対応する領域の有無に応じた充実度(後述するカバレッジ指標に応じた充実度)の少なくともいずれかの充実度を評価することができる。文書評価システム100の詳細については、後述する。
【0018】
対応関係設定システム200は、事前に設定される複数のタグのそれぞれと、電子文書のそれぞれにおけるタグに対応する内容が記載されている領域とを対応付けた対応関係情報を生成し、文書評価システム100に提供する情報処理システムである。
【0019】
ここで、タグは、例えば、記載されている内容に応じた属性を示す情報である。
【0020】
対応関係設定システム200において、設定者(例えば、対応関係設定システム200のユーザ)は、電子文書を参照しながら対応関係情報を生成することができる。また、対応関係設定システム200は、機械学習を用いて、対応関係情報を生成することができる。対応関係情報及び対応関係設定システム200の詳細については、後述する。
【0021】
なお、対応関係設定システム200は、文書評価システム100とは独立した情報処理システムであってもよく、また、文書評価システム100に組み込まれた情報処理システムであってもよい。
【0022】
ユーザ端末300(ユーザ端末300a、ユーザ端末300b)は、文書評価システム100のユーザが利用するコンピュータであり、スマートフォン、タブレット端末、パーソナルコンピュータ等である。
【0023】
ユーザは、ユーザ端末300を通じて文書評価システム100にアクセスして、文書評価システム100によるユーザ端末300への評価対象文書の評価結果の表示を受け、表示される評価結果を参照することができる。
【0024】
事業者システム400(事業者システム400a、事業者システム400b)は、評価対象文書を含む複数の電子文書を記憶する情報処理システムである。事業者システム400のそれぞれ(例えば、事業者システム400a、事業者システム400b)は、複数の電子文書のそれぞれの発行主体(例えば、事業者)が管理する情報処理システムであってもよい。
【0025】
事業者システム400は、事業者システム400(具体的には、例えば、事業者システム400の記憶部)に記憶されている電子文書の内容を示す情報を、文書評価システム100に提供する。事業者システム400は、事業者システム400(具体的には、例えば、事業者システム400の記憶部)に記憶されている電子文書の内容を示す情報を別の情報処理システムに提供し、当該別の情報処理システムが、文書評価システム100に当該電子文書の内容を示す情報を提供してもよい。
【0026】
なお、図1において、ユーザ端末300、事業者システム400は、それぞれ2つずつ示されているが、ユーザ端末300及び事業者システム400の数は限られない。
【0027】
続いて、文書評価システム100の詳細について説明する。文書評価システム100は、記憶部110、文書取得部120、対応関係取得部130、評価部140、出力部150を備える。図1に示す各部は、例えば、記憶領域を用いたり、記憶領域に格納されたプログラムをプロセッサが実行したりすることにより実現することができる。
【0028】
記憶部110は、文書評価システム100において処理される情報を記憶する。記憶部110は、例えば、後述する、書誌情報、対応関係情報、文書内容情報、評価結果情報を記憶することができる。
【0029】
記憶部110は、事前に書誌情報を記憶する。文書評価システム100は、例えば、文書評価システム100の管理者又はユーザの操作に応じて、書誌情報を取得し、記憶部110に格納する。
【0030】
ここで、書誌情報は、複数の電子文書のそれぞれの書誌事項に関する情報である。書誌情報は、例えば、電子文書の名称を示す名称情報、電子文書の発行主体(例えば、事業者)を示す発行主体情報、電子文書の発行時期(例えば、発行年度)を示す発行時期情報、電子文書の保存場所を示す保存場所情報を含む。
【0031】
名称情報は、電子文書のファイル名を示す情報であってもよく、また、電子文書のタイトル(例えば、「アニュアルレポート2022」、「2021年度サステナビリティレポート」等)を示す情報であってもよい。
【0032】
発行主体情報は、例えば、発行主体の名称自体(例えば、「A社」)を示す情報であってもよく、また、発行主体を識別する情報(例えば、企業コード等のID)であってもよい。
【0033】
発行時期情報は、例えば、電子文書が発行された年度、年、又は年月日を示す情報であってもよい。
【0034】
種別情報は、電子文書の種別を示す情報である。ここで、種別は、例えば、統合報告書(アニュアルレポート、年次報告書)、サステナビリティレポート、コーポレート・ガバナンス報告書、臨時報告書、有価証券報告書、ヒアリングレポート、ウェブサイト情報を含む。なお、文書評価システム100が処理可能な電子文書の種別は、これに限られない。
【0035】
保存場所情報は、例えば、電子文書が保存されているURL(Uniform Resource Locator)を示す情報であってもよい。
【0036】
このように、文書評価システム100は、例えば、非財務情報が記載された報告書を処理することができる。一般に、企業の非財務情報の収集及び評価には、属人的な作業が多く含まれる。また、非財務情報に関する報告書の形式は、企業ごとに異なる場合がある。そのため、企業の非財務情報の収集及び評価には、多大な時間を要することがある。文書評価システム100は、例えば、非財務情報が記載された報告書を処理可能であるため、ユーザは、文書評価システム100を通じて、例えば、非財務情報に関する報告書の記載の充実度を、容易に把握することができる。
【0037】
なお、文書評価システム100は、非財務情報以外の情報に関する報告書の電子文書を処理可能である。
【0038】
図2は、記憶部110に記憶される書誌情報の例を示す図である。記憶部110に記憶される書誌情報は、例えば、文書ID、名称情報、発行主体情報、発行時期情報、種別情報、保存場所情報を含む。ここで、文書IDは、文書評価システム100において処理される電子文書を識別する情報である。
【0039】
文書取得部120は、記憶部110に記憶されている書誌情報に基づいて、書誌情報に含まれる保存場所情報が示す保存場所に保存されている複数の電子文書のそれぞれの内容を示す文書内容情報を取得する。
【0040】
すなわち、文書取得部120は、例えば、事業者システム400にアクセスして、事業者システム400の記憶部に保存されている電子文書の文書内容情報を取得する。文書取得部120は、例えば、ウェブスクレイピングにより、事業者システム400から文書内容情報を取得することができる。
【0041】
このとき、文書取得部120は、事業者システム400の記憶部に保存されている電子文書(例えば、PDF(Portable Document Format)形式のファイル)を一時的に取得する。そして、文書取得部120は、当該一時的に取得した電子文書に基づいて文書内容情報(例えば、電子文書のデータ実体)を取得(例えば、テキストを抽出)し、文書内容情報を記憶する。なお、この場合、文書取得部120は、一時的に取得した電子文書自体を保存しない。これにより、文書評価システム100は、電子文書の著作権を侵害することなく、電子文書の内容をユーザ端末300に表示することができる。
【0042】
また、文書取得部120は、書誌情報(より具体的には、書誌情報に含まれる発行時期情報)に基づいて、発行時期が異なる複数の電子文書のそれぞれの文書内容情報を取得することができる。
【0043】
また、文書取得部120は、書誌情報(より具体的には、書誌情報に含まれる発行主体情報)に基づいて、発行主体が異なる複数の電子文書のそれぞれの文書内容情報を取得することができる。
【0044】
対応関係取得部130は、複数の電子文書のそれぞれにおける少なくとも1つの領域と、少なくとも1つの領域に記載されている内容に応じた属性を示す少なくとも1つのタグとを対応付けた対応関係情報を取得し、記憶部110に格納する。
【0045】
対応関係取得部130は、例えば、対応関係設定システム200から、対応関係情報を取得することができる。
【0046】
ここで、タグは、例えば、法律、所定の期間が定める指針、又は慣習(特に商慣習)等によって記載又は開示することが求められている項目を示すタグであってもよい。具体的には、A報告書において項目aの記載が法律等によって求められている場合、対応関係情報には、項目aを示すタグが含まれる。
【0047】
また、タグは、任意に設定されるタグであってもよい。この場合、タグは、対応関係設定システム200の管理者若しくはユーザ又は文書評価システム100の管理者若しくはユーザによって、設定されてもよい。さらに、この場合、タグは、法律、所定の期間が定める指針、又は慣習(特に商慣習)等によって記載又は開示することが求められている項目を示すタグに対応して、複数のタグを1つのタグ(上位タグ)に統合したり、新たなタグを設けたりすることによって設定されてもよい。
【0048】
また、項目は、任意に設定されるタグにさらに設定されるタグであってもよい。具体的には、第1のタグとして、法律、所定の期間が定める指針、又は慣習(特に商慣習)等によって記載又は開示することが求められている項目を示すタグが設定され、第2のタグとして、第1のタグに対応するタグであって、対応関係設定システム200の管理者によって設定されるタグが設定され、さらに、第3のタグとして、第2のタグに対応するタグであって、文書評価システム100のユーザによって設定されるタグが設定されてもよい。これにより、ユーザは、独自にタグをカスタマイズでき、ユーザの利便性が向上する。
【0049】
また、電子文書には、複数のタグを含むタググループに対応する領域が設定されてもよい。この場合、タググループに対応する領域は、当該複数のタグのそれぞれに対応する領域の集合であってもよく、また、タググループに対応する内容が記載されている範囲(例えば、特定の章又は項目)の領域であってもよい。
【0050】
具体的には、タググループ「情報開示」は、例えば、タグ「サスティナビリティ情報開示」、タグ「参画するイニシアチブや団体」、タグ「外部からのESG評価」を含んでもよい。
【0051】
また、さらに、電子文書には、複数のタググループを含むタグカテゴリに対応する領域が設定されてもよい。この場合、タグカテゴリに対応する領域は、当該複数のタググループのそれぞれに対応する領域の集合であってもよく、また、タグカテゴリに対応する内容が記載されている範囲(例えば、特定の章又は項目)の領域であってもよい。
【0052】
具体的には、タグカテゴリ「企業概要」は、例えば、タググループ「経営メッセージ」、タググループ「事業環境」、タググループ「情報開示」を含んでもよい。
【0053】
対応関係取得部130は、発行時期が異なる複数の電子文書における対応関係情報を取得することができる。これにより、後述する評価部140は、発行時期が異なる複数の電子文書におけるタグに対応する領域の記載の充実度を評価することができる。
【0054】
また、対応関係取得部130は、発行主体が異なる複数の電子文書における対応関係情報を取得することができる。これにより、後述する評価部140は、発行主体が異なる複数の電子文書におけるタグに対応する領域の記載の充実度を評価することができる。
【0055】
対応関係設定システム200は、例えば、設定者(対応関係設定システム200の管理者又はユーザ)による情報端末の操作に応じて、対応関係情報を生成することができる。
【0056】
具体的には、対応関係設定システム200において、設定者は、情報端末を操作して、電子文書を参照しながら、複数のタグのそれぞれに対応する内容が記載されている領域を特定する。このとき、例えば、設定者の情報端末は、設定者が選択操作(例えば、ドラッグ操作又はタッチ操作)によって選択した範囲を、タグに対応する内容が記載されている領域と判断する。設定者が選択した領域と、対応するタグとを対応付けた対応関係情報が生成される。そして、対応関係取得部130が、生成された対応関係情報を取得する。
【0057】
また、対応関係設定システム200は、機械学習を用いて、対応関係情報を生成してもよい。このとき、対応関係設定システム200は、電子文書に記載されているテキストを解析して得られる解析情報に基づいて、対応関係情報を生成してもよい。
【0058】
また、対応関係設定システム200は、設定者による操作及び機械学習を活用して、対応関係情報を生成し、対応関係取得部130は、生成された対応関係情報を取得してもよい。これにより、対応関係取得部130は、より精度の高い対応関係情報を取得することができる。
【0059】
図3は、記憶部110に記憶される対応関係情報の例を示す図である。記憶部110に記憶される対応関係情報は、例えば、文書ID、タグに関するタグ情報(例えば、第1タグ情報、第2タグ情報等)を含み、タグ情報のそれぞれは、例えば、タグID、領域情報を含む。
【0060】
タグIDは、複数の電子文書のそれぞれの領域に記載されている内容に応じた属性を示すタグを識別する情報である。領域情報は、タグに対応する内容が記載されている、電子文書中の領域(例えば、ページ番号(page1)、開始点のX座標(x1)、開始点のY座標(y1)、幅(w1)、高さ(h1)により特定される領域)を示す情報である。
【0061】
また、タグ情報は、タグが属するタググループ及びタググループが属するタグカテゴリを示す情報をさらに含んでもよい。
【0062】
評価部140は、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書における少なくとも1つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも1つのタグに対応する領域の記載に応じて評価し、評価の結果を示す評価結果情報を記憶部110に格納する。
【0063】
ここで、充実度は、例えば、評価対象文書における少なくとも1つのタグに対応する領域の面積に応じた充実度(後述するボリューム指標に応じた充実度)、及び、評価対象文書における少なくとも1つのタグに対応する領域の有無に応じた充実度(後述するカバレッジ指標に応じた充実度)の少なくともいずれかを含んでもよい。
【0064】
ボリューム指標は、例えば、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における、評価対象文書におけるタグに対応する領域の面積に応じたスコアであってもよい。すなわち、例えば、ボリューム指標を、0点~5点までのスコアとする場合、評価対象文書におけるタグに対応する領域の面積が、複数の電子文書のそれぞれにおけるタグに対応する領域の面積の平均値と同じ値である場合には、2.5点とし、平均値を上回る場合には、2.5点より高いスコアとしてもよい。この場合、ボリューム指標は、評価対象文書におけるタグに対応する領域の面積の偏差値を示す。
【0065】
図4は、ボリューム指標の算出例を示す図である。図4に示す分布は、複数の電子文書における所定のタグに対応する領域の面積の分布を示す。図4に示すボリューム指標の算出例では、評価対象文書におけるタグに対応する領域の面積が分布の平均値である場合、スコアは2.5点となる。また、分布の標準偏差をσ(シグマ)とすると、評価対象文書におけるタグに対応する領域の面積が分布の+3σの値である場合、例えば、スコアは4.0点となる。例えば、評価対象文書におけるタグに対応する領域の面積が、401に対応する値である場合、スコアは3.8点となる。なお、標準偏差に基づくスコアの算出方法はこれに限られない。
【0066】
ボリューム指標が、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における、評価対象文書におけるタグに対応する領域の面積に応じたスコアである場合、ボリューム指標は、不適切なスコアとなる場合がある。ボリューム指標が不適切なスコアとなる場合は、例えば、データサンプル(この場合は、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布)が正規分布から大きくずれた分布である場合、データサンプル内に極端な外れ値がある場合、又はデータサンプルが少ない場合に起こり得る。
【0067】
そこで、ボリューム指標は、四分位偏差を基準にしたスコアであってもよい。すなわち、ボリューム指標を、0点~5点までのスコアとする場合、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における第一四分位数に相当する値を1.5点、中央値を2.5点、第三四分位数に相当する値を3.5点とするボリューム指標としてもよい。これにより、例えば、データサンプル(この場合は、他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布)が正規分布から大きくずれた分布である場合、データサンプル内に極端な外れ値がある場合、又はデータサンプルが少ない場合であっても、適切なボリューム指標の算出ができる。なお、四分位偏差に基づくスコアの算出方法はこれに限られない。
【0068】
なお、この場合、他の複数の電子文書は、文書評価システム100が処理可能な電子文書の全てでもよく、評価対象文書と同一種別の電子文書でもよく、また、評価対象文書と同一種別、かつ、評価対象文書の発行年度の前年度に発行された電子文書であってもよい。
【0069】
また、ボリューム指標は、0点~5点で示されるものであってもよく、それ以外の点数(例えば、0点~100点等)で示されるものであってもよい。
【0070】
カバレッジ指標は、例えば、他の電子文書の少なくとも1つの電子文書に設定されたタグに対応する領域の個数に対する、評価対象文書に設定されたタグに対応する領域の個数の割合に応じたスコアであってもよい。
【0071】
ここで、他の電子文書の少なくとも1つの電子文書に設定されたタグに対応する領域の個数は、例えば、他の電子文書の少なくとも1つの電子文書のタググループに対応する領域における、当該タググループに含まれる複数のタグに対応する領域の個数である。
【0072】
すなわち、例えば、電子文書の所定の領域に、4つのタグ(タグa1、タグa2、タグa3、タグa4)を含むタググループAが設定されうる場合、他の電子文書のうちの少なくとも1つの電子文書が、タググループAに対応する領域において、3つのタグに対応する領域を備えており、当該3つのタグのうち、評価対象文書が、タググループAに対応する領域において、2つのタグを備えている場合、カバレッジ指標は、3に対する2の割合に応じたスコアであってもよい。カバレッジ指標を0点~5点までのスコアとすると、この場合、カバレッジ指標は、3.3点であってもよい。
【0073】
図5は、カバレッジ指標の算出例を示す図である。図5は、評価対象文書及び他の電子文書における、タグに対応する領域の有無を示す図である。評価対象文書及び他の電子文書では、タグa1~タグa4の4つのタグに対応する内容が記載されうる。評価対象文書では、タグa1、タグa3、及びタグa4に対応する記載があり、他の電子文書では、タグa1、タグa2、及びタグa3に対応する記載がある。
【0074】
この場合、他の電子文書は、3つのタグに対応する記載がある。そして、評価対象文書では、タグa1及びタグa3の2つタグにおいて、他の電子文書のタグと重複している。そのため、カバレッジ指標は、例えば、3(他の電子文書に記載があるタグの数)に対する2(評価対象文書と他の電子文書との重なっているタグの数)の割合に応じたスコアとなる。例えばカバレッジ指標を0点~5点までのスコアとすると、この場合、カバレッジ指標は、3.3点となる。
【0075】
カバレッジ指標が、他の電子文書の少なくとも1つの電子文書に設定されたタグに対応する領域の個数に対する、評価対象文書に設定されたタグに対応する領域の個数の割合に応じたスコアである場合、例えば、他の電子文書のうち、1つの電子文書のみに設定されたタグに対応する領域がある場合に、外れ値が生まれ、カバレッジ指標が、不適切なスコアとなる場合がある。すなわち、当該1つの電子文書以外の他の電子文書では記載がないにもかかわらず、当該1つの電子文書のみにタグに対応する記載があるために、評価対象文書のカバレッジ指標が不適切に小さくなる場合がある。
【0076】
そこで、カバレッジ指標を、他の電子文書のうちの所定の割合の電子文書に設定されたタグに対応する領域の個数に対する、評価対象文書に設定されたタグに対応する領域の個数の割合に応じたスコアとしてもよい。このとき、所定の割合は、例えば、10%であってもよい。これにより、外れ値の影響を抑えることができ、適切なカバレッジ指標を算出することができる。
【0077】
なお、この場合、他の複数の電子文書は、文書評価システム100が処理可能な電子文書の全てでもよく、評価対象文書と同一種別の電子文書でもよく、また、評価対象文書と同一種別、かつ、評価対象文書の発行年度の前年度に発行された電子文書であってもよい。
【0078】
また、カバレッジ指標は、0点~5点で示されるものであってもよく、それ以外の点数(例えば、0点~100点等)で示されるものであってもよい。
【0079】
また、ボリューム指標及びカバレッジ指標の算出に用いる他の電子文書の記載に応じた値の算出は、事前に(例えば、文書取得部120による評価対象文書の取得の前に)行われてもよい。すなわち、例えば、ボリューム指標の算出において、過去一年度分の他の複数の電子文書のそれぞれにおけるタグに対応する領域の面積の分布における統計値(例えば、平均値、中央値、標準偏差、四分位偏差等)が事前に(例えば、年度の初めに)算出され、当該事前に算出された統計値と、評価対象文書におけるタグに対応する領域の面積とに基づいて、評価対象文書のボリューム指標が算出されてもよい。
【0080】
図6A及び図6Bは、記憶部110に記憶される評価結果情報の例を示す図である。図6Aは、ボリューム指標に関する評価結果情報の例を示す図である。図6Bは、カバレッジ指標に関する評価結果情報の例を示す図である。
【0081】
図6Aに示すとおり、記憶部110に記憶されるボリューム指標に関する評価結果情報は、例えば、文書ID、タグID、ボリューム指標情報を含む。ボリューム指標情報は、ボリューム指標を示す情報であり、例えば、ボリューム指標に応じたスコアを示す情報である。
【0082】
図6Bに示すとおり、記憶部110に記憶されるボリューム指標に関する評価結果情報は、例えば、文書ID、タググループID、カバレッジ指標情報を含む。タググループIDは、タググループを識別する情報である。カバレッジ指標情報は、カバレッジ指標を示す情報であり、例えば、カバレッジ指標に応じたスコアを示す情報である。
【0083】
出力部150は、評価部140による評価の結果を出力する。
【0084】
出力部150は、評価の結果をユーザ端末300に表示するための情報を出力することができる。このとき、出力部150は、例えば、記憶部110に記憶されている評価結果情報を参照して、評価の結果をユーザ端末300に表示するための情報を、ユーザ端末300に出力することができる。なお、出力部150は、ユーザ端末300からの要求に応じて、評価の結果をユーザ端末300に表示するための情報をユーザ端末300に出力してもよい。
【0085】
出力部150は、評価の結果を、図形(例えば、棒グラフ)を用いてユーザ端末300に表示するための情報を出力することができる。
【0086】
図7は、ユーザ端末300に表示される評価結果の例を示す図である。図7に示す画面は、評価の結果が棒グラフを用いて表示される場合の画面の例を示している。図7に示す画面は、例えば、表示している文書を示す情報を表示する領域701、及び評価の結果を表示する領域702を含む。
【0087】
領域701には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。
【0088】
領域702には、例えば、タググループごとに、評価対象文書のタググループに対応するボリューム指標及びカバレッジ指標が、棒グラフを用いて表示される。なお、タググループに対応するボリューム指標は、例えば、当該タググループに含まれる複数のタグのボリューム指標の平均値であってもよい。
【0089】
なお、領域702には、ボリューム指標及びカバレッジ指標の両方が表示されてもよく、また、ボリューム指標及びカバレッジ指標のいずれか一方が表示されてもよい。ボリューム指標及びカバレッジ指標のいずれか一方が表示される場合、ユーザは、図7に示す画面にさらに設けられる、表示する評価結果を切り替えるボタンを選択して、表示する評価結果(すなわち、ボリューム指標及びカバレッジ指標のいずれを表示するか)を切り替えることができてもよい。
【0090】
なお、領域702には、タグごと又はタグカテゴリごとに、ボリューム指標が棒グラフを用いて表示されてもよく、また、タグカテゴリごとにカバレッジ指標が表示されてもよい。領域702に、タグカテゴリごとにボリューム指標及びカバレッジ指標が表示される場合、タグカテゴリごとのボリューム指標及びカバレッジ指標は、例えば、当該タグカテゴリに含まれる複数のタググループのボリューム指標及びカバレッジ指標の平均値であってもよい。
【0091】
また、出力部150は、複数のタグに対応する評価の結果をユーザ端末300にレーダーチャート表示するための情報を出力することができる。
【0092】
図8は、ユーザ端末300に表示される評価結果の例を示す図である。図8に示す画面は、複数のタグに対応する評価の結果がレーダーチャート表示される場合の画面の例を示している。図8に示す画面は、例えば、表示している文書を示す情報を表示する領域801、及び評価の結果をレーダーチャート表示する領域802を含む。
【0093】
領域801には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。
【0094】
領域802には、例えば、4つのタグカテゴリに対応するボリューム指標及びカバレッジ指標の両方の結果がレーダーチャート表示される。
【0095】
なお、領域802にレーダーチャート表示されるタグカテゴリの個数は、4つに限られない。また、領域802には、タグ若しくはタググループに対応するボリューム指標、又はタググループに対応するカバレッジ指標が、レーダーチャート表示されてもよい。
【0096】
また、出力部150は、発行主体及び発行時期の少なくともいずれかが異なる複数の評価対象文書における評価の結果をユーザ端末300に重ねて表示するための情報を出力することができる。
【0097】
図9は、ユーザ端末300に表示される評価結果の例を示す図である。図9に示す画面は、発行主体が異なる複数の評価対象文書における評価の結果が重ねて表示される場合の画面の例を示す。図9に示す画面は、例えば、表示している文書を示す情報を表示する領域901、及び評価の結果をレーダーチャート表示する領域902を含む。
【0098】
領域901には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。
【0099】
領域902には、例えば、2つの発行主体(この場合は、A社及びB社)それぞれのボリューム指標及びカバレッジ指標の合計スコアがレーダーチャート表示される。
【0100】
なお、領域902には、ボリューム指標及びカバレッジ指標の合計スコアがレーダーチャート表示されているが、ボリューム指標及びカバレッジ指標の平均スコアがレーダーチャート表示されてもよい。
【0101】
また、領域902には、ボリューム指標及びカバレッジ指標のいずれかのスコアがレーダーチャート表示されてもよく、ボリューム指標及びカバレッジ指標のスコアがそれぞれ表示されてもよい。ユーザは、図9に示す画面にさらに設けられる、表示する評価結果を切り替えるボタンを選択して、表示する評価結果(すなわち、ボリューム指標及びカバレッジ指標のいずれを表示するか)を切り替えることができてもよい。
【0102】
なお、ユーザ端末300に、発行時期が異なる複数の評価対象文書における評価の結果が重ねて表示される場合は、領域902に相当する領域に、例えば、2つの発行時期(例えば、連続する年度)それぞれの電子文書のボリューム指標及びカバレッジ指標の合計スコアがレーダーチャート表示されればよい。
【0103】
また、出力部150は、評価の結果を、評価される充実度に応じた色彩を用いてユーザ端末300に表示するための情報を出力することができる。
【0104】
図10は、ユーザ端末300に表示される評価結果の例を示す図である。図10に示す画面は、評価の結果が評価される充実度に応じた色彩を用いて表示される場合の画面の例を示している。図10に示す画面は、例えば、表示している文書を示す情報を表示する領域1001、評価の結果を評価される充実度に応じた色彩を用いて表示する領域1002、複数のタググループを統合するタグカテゴリにおける評価結果を表示する領域1003(1003a、1003b)、タグカテゴリに属するタググループにおける評価結果を表示する領域1004、及びスコアと色彩の関係を示す図を表示する領域1005を含む。
【0105】
領域1001には、例えば、評価対象文書の発行主体、発行年度、文書のタイトルを示す情報が表示される。
【0106】
領域1002には、例えば、評価の結果を評価される充実度に応じた色彩を用いて表示される。
【0107】
領域1003(1003a、1003b)には、タグカテゴリごとに、評価の結果を評価される充実度に応じた色彩を用いて表示される。
【0108】
領域1004には、領域1003に表示されるタグカテゴリに属するタググループごとに、評価の結果を評価される充実度に応じた色彩を用いて表示される。
【0109】
領域1003に表示される評価の結果は、例えば、領域1003に表示されるタグカテゴリに属するタググループごとのスコア(例えば、領域1004に表示されるタググループのスコアを含むスコア)の平均値であってもよい。
【0110】
領域1005には、スコアと色彩の関係を示す図が表示される。領域1005に表示される図は、濃い色ほど高いスコアを備えることを示している。
【0111】
なお、図10に示す画面では、評価の結果がグレースケールで表示されているが、評価の結果の表示の方法は、グレースケールに限られず、例えば、色相、明度、彩度の違いを用いて表示されてもよい。
【0112】
出力部150が図7図10のように評価の結果をユーザ端末300に表示するための情報を出力することにより、ユーザは、同業他社やベンチマーク企業を同一の評価軸で容易に比較したり、同一発行主体を容易に時系列比較したりすることができる。
【0113】
図11は、文書評価システム100における処理の例を示すフローチャートである。
【0114】
まず、文書評価システム100は、例えば文書評価システム100の管理者の操作に応じて、書誌情報を取得し、記憶部110に格納する(S1101)。文書取得部120が、書誌情報に含まれる保存場所情報が示す保存場所から、電子文書の文書内容情報を取得する(S1102)。続いて、対応関係取得部130が、例えば対応関係設定システム200から、対応関係情報を取得する(S1103)。
【0115】
評価部140が、対応関係情報に基づいて、複数の電子文書に含まれる評価対象文書におけるタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおけるタグに対応する領域の記載に応じて評価する(S1104)。出力部150は、評価結果を出力する(S1105)。
【0116】
以上、本発明の一実施形態について説明した。文書評価システム100は、対応関係情報に基づいて、評価対象文書における少なくとも1つのタグに対応する領域の記載の充実度を、複数の電子文書のそれぞれにおける少なくとも1つのタグに対応する領域の記載に応じて評価し、評価の結果を出力することができる。これにより、ユーザは、電子文書の記載の充実度を容易に把握することができる。
【0117】
また、文書評価システム100は、評価対象文書における少なくとも1つのタグに対応する領域の面積に応じた充実度、及び、評価対象文書における少なくとも1つのタグに対応する領域の有無に応じた充実度の少なくともいずれかを評価することができる。これにより、ユーザは、ボリューム指標及びカバレッジ指標の少なくともいずれかに応じた充実度の評価結果を把握することができる。
【0118】
また、文書評価システム100は、複数のタグに対応する評価の結果をユーザ端末300にレーダーチャート表示するための情報、評価の結果を評価される充実度に応じた色彩を用いてユーザ端末300に表示するための情報、又は発行主体及び発行時期の少なくともいずれかが異なる複数の評価対象文書における評価の結果をユーザ端末300に重ねて表示するための情報を出力することができる。これにより、ユーザは、評価の結果を容易に把握することができる。
【0119】
なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更/改良され得るととともに、本発明にはその等価物も含まれる。
【符号の説明】
【0120】
100 文書評価システム、110 記憶部、120 文書取得部、130 対応関係取得部、140 評価部、150 出力部、200 対応関係設定システム、300 ユーザ端末、400 事業者システム
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11