(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024103343
(43)【公開日】2024-08-01
(54)【発明の名称】領域設定システム、領域設定方法、及び領域設定プログラム
(51)【国際特許分類】
G06F 16/383 20190101AFI20240725BHJP
G06F 16/338 20190101ALI20240725BHJP
【FI】
G06F16/383
G06F16/338
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023007622
(22)【出願日】2023-01-20
(71)【出願人】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100080953
【弁理士】
【氏名又は名称】田中 克郎
(72)【発明者】
【氏名】角田 充弘
(72)【発明者】
【氏名】森 俊介
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FB02
5B175HB03
5B175JB02
(57)【要約】
【課題】様々な文書において類似する領域の設定が可能となる。
【解決手段】領域設定システムは、第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得する文書取得部と、第1文書における第1領域と、第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得する第1タグ取得部と、第1文書情報及び第2文書情報に基づいて、第1文書における、第1領域が属するページと類似する、第2文書における少なくとも1つの類似ページを特定する類似ページ特定部と、2つの領域の内容の類似度合いを示す領域類似度に基づいて、第1領域に類似する類似領域を特定する類似領域特定部と、特定される類似領域と第1タグとを対応付けた類似領域タグ情報を生成するタグ設定部と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得する文書取得部と、
前記第1文書における第1領域と、前記第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得する第1タグ取得部と、
前記第1文書情報及び前記第2文書情報に基づいて、前記第1文書における、前記第1領域が属するページと類似する、前記第2文書における少なくとも1つの類似ページを特定する類似ページ特定部と、
2つの領域の内容の類似度合いを示す領域類似度に基づいて、前記第1領域に類似する前記第2文書における類似領域を特定する類似領域特定部と、
前記特定される類似領域と前記第1タグとを対応付けた類似領域タグ情報を生成するタグ設定部と、
を備える領域設定システム。
【請求項2】
前記少なくとも1つの類似ページのそれぞれについて、前記少なくとも1つの類似ページのそれぞれにおける所定の領域を基準とする複数の第1仮領域を設定する仮領域設定部をさらに備え、
前記類似領域特定部は、前記複数の第1仮領域のそれぞれについて、前記複数の第1仮領域のそれぞれの内容と前記第1領域の内容との領域類似度に基づいて、前記複数の第1仮領域のうち、少なくとも1つの第1仮領域を前記類似領域と特定する、
請求項1に記載の領域設定システム。
【請求項3】
前記仮領域設定部は、前記複数の第1仮領域のそれぞれについて、前記複数の第1仮領域のそれぞれを拡大又は縮小させた複数の第2仮領域を設定し、
前記類似領域特定部は、前記複数の第1仮領域のそれぞれ、及び前記複数の第1仮領域のそれぞれの前記複数の第2仮領域のそれぞれについて、前記複数の第1仮領域のそれぞれの内容と前記第1領域の内容との領域類似度、及び前記複数の第2仮領域のそれぞれの内容と前記第1領域の内容との領域類似度に基づいて、前記複数の第1仮領域及び前記複数の第2仮領域のうち、少なくとも1つの第1仮領域及び少なくとも1つの第2仮領域の少なくともいずれかを前記類似領域と特定する、
請求項2に記載の領域設定システム。
【請求項4】
コンピュータが、
第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得し、
前記第1文書における第1領域と、前記第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得し、
前記第1文書情報及び前記第2文書情報に基づいて、前記第1文書における、前記第1領域が属するページと類似する、前記第2文書における少なくとも1つの類似ページを特定し、
2つの領域の内容の類似度合いを示す領域類似度に基づいて、前記第1領域に類似する類似領域を特定し、
前記特定される類似領域と前記第1タグとを対応付けた類似領域タグ情報を生成する、
領域設定方法。
【請求項5】
コンピュータに、
第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得する文書取得部と、
前記第1文書における第1領域と、前記第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得する第1タグ取得部と、
前記第1文書情報及び前記第2文書情報に基づいて、前記第1文書における、前記第1領域が属するページと類似する、前記第2文書における少なくとも1つの類似ページを特定する類似ページ特定部と、
2つの領域の内容の類似度合いを示す領域類似度に基づいて、前記第1領域に類似する類似領域を特定する類似領域特定部と、
前記特定される類似領域と前記第1タグとを対応付けた類似領域タグ情報を生成するタグ設定部と、
を実現させるための領域設定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、領域設定システム、領域設定方法、及び領域設定プログラムに関する。
【背景技術】
【0002】
従来、文書の内容に基づいて、複数の文書の領域を関連付ける技術が知られている。
【0003】
例えば、特許文献1に記載されている文書関連付け装置は、第1文書、及び第1文書から参照される第2文書の指定を受け付け、第2文書を複数の部分に分割する。そして、当該装置は、第1文書の中の一部を成す所定部分の内容と、第2文書の分割後の各部分の内容とを比較して、第2文書の分割後の各部分のうち、第1文書の所定部分に最も関連度の高い部分を関連箇所に特定し、第1文書の所定部分から関連箇所を呼び出し可能に関連付ける。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載されている文書関連付け装置では、第2文書の分割後の各部分に含まれる単語と、第1文書の所定部分に含まれる単語とのマッチング回数に基づいて、第2文書の分割後の各部分のうち、第1文書の所定部分に最も関連度の高い部分を関連箇所に特定する。そのため、第1文書及び第2文書を示す文書データは、記載されている内容を、少なくとも単語単位で保持するデータであることが前提となっている。
【0006】
ところで、文書処理の対象となる文書データは、記載されている内容を単語単位で保持せず、文字ごとに、文字と当該文字の記載位置とを対応付けて保持するデータである場合もある。しかしながら、特許文献1に記載されている文書関連付け装置では、文字ごとに、文字と当該文字の記載位置を示す情報とを対応付けて保持する文書データにおいて、類似する領域を関連付ける処理について、考慮されていなかった。
【0007】
そこで、本発明は、様々な文書において類似する領域の設定が可能な領域設定システム、領域設定方法、及び領域設定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の一態様に係る領域設定システムは、第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得する文書取得部と、第1文書における第1領域と、第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得する第1タグ取得部と、第1文書情報及び第2文書情報に基づいて、第1文書における、第1領域が属するページと類似する、第2文書における少なくとも1つの類似ページを特定する類似ページ特定部と、2つの領域の内容の類似度合いを示す領域類似度に基づいて、第1領域に類似する類似領域を特定する類似領域特定部と、特定される類似領域と第1タグとを対応付けた類似領域タグ情報を生成するタグ設定部と、を備える。
【0009】
本発明の一態様に係る領域設定方法は、コンピュータが、第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得し、第1文書における第1領域と、第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得し、第1文書情報及び第2文書情報に基づいて、第1文書における、第1領域が属するページと類似する、第2文書における少なくとも1つの類似ページを特定し、2つの領域の内容の類似度合いを示す領域類似度に基づいて、第1領域に類似する類似領域を特定し、特定される類似領域と第1タグとを対応付けた類似領域タグ情報を生成する。
【0010】
本発明の一態様に係る領域設定プログラムは、コンピュータに、第1文書に関する第1文書情報及び処理対象となる第2文書に関する第2文書情報を取得する文書取得部と、第1文書における第1領域と、第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得する第1タグ取得部と、第1文書情報及び第2文書情報に基づいて、第1文書における、第1領域が属するページと類似する、第2文書における少なくとも1つの類似ページを特定する類似ページ特定部と、2つの領域の内容の類似度合いを示す領域類似度に基づいて、第1領域に類似する類似領域を特定する類似領域特定部と、特定される類似領域と第1タグとを対応付けた類似領域タグ情報を生成するタグ設定部と、を実現させる。
【0011】
なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」又は装置が有する機能が2つ以上の物理的手段、装置、又はソフトウェアにより実現されても、2つ以上の「部」又は装置の機能が1つの物理的手段、装置、又はソフトウェアにより実現されてもよい。
【発明の効果】
【0012】
本発明によれば、様々な文書において類似する領域の設定が可能な領域設定システム、領域設定方法、及び領域設定プログラムを提供することができる。
【図面の簡単な説明】
【0013】
【
図1】
図1は、本発明の一実施形態である領域設定システム100の構成を示す図である。
【
図2】記憶部110に記憶される文書情報の例を示す図である。
【
図3】記憶部110に記憶される第1領域タグ情報の例を示す図である。
【
図4】記憶部110に記憶される類似領域タグ情報の例を示す図である。
【
図6A】第2文書における複数の第1仮領域を示す図である。
【
図6B】第2文書における複数の第2仮領域を示す図である。
【
図6C】第2文書における類似領域を示す図である。
【
図7】領域設定システム100における処理の例を示すフローチャートである。
【発明を実施するための形態】
【0014】
添付図面を参照して、本発明の好適な実施形態について説明する。
図1は、本発明の一実施形態である領域設定システム100の構成を示す図である。
【0015】
領域設定システム100は、領域設定プログラムによって実現される情報処理システムであり、第1文書の第1領域に類似する、第2文書の類似領域を設定し、第1領域に対応する第1タグを類似領域に対応付ける情報処理システムである。
【0016】
まず、領域設定システム100は、第1領域に第1タグが設定された第1文書、及び第2文書を取得する。領域設定システム100は、第1領域が属する第1文書におけるページと類似する、第2文書における類似ページを特定する。
【0017】
そして、領域設定システム100は、2つの領域の内容の類似度合いを示す領域類似度に基づいて、第1領域に類似する類似領域を特定し、類似領域と第1タグとを対応付ける。
【0018】
図1は、本発明の一実施形態である領域設定システム100の構成を示す図である。領域設定システム100は、文書管理システム200、タグ管理システム300、及びユーザ端末400とインターネット等のネットワークを介して通信可能に接続される。領域設定システム100の詳細については、後述する。
【0019】
文書管理システム200は、領域設定システム100に対し、第1文書及び第2文書を提供する。
【0020】
文書管理システム200は、例えば、第1文書及び第2文書の発行主体(例えば、事業者)が管理する情報処理システムであってもよい。
【0021】
タグ管理システム300は、第1文書における第1領域と、第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を提供する。
【0022】
タグ管理システム300は、タグ管理システム300の管理者又はユーザの操作に基づいて、第1領域タグ情報を生成してもよい。そして、タグ管理システム300は、タグ管理システム300において生成された第1領域タグ情報を、領域設定システム100に提供してもよい。
【0023】
なお、タグ管理システム300は、領域設定システム100と独立した情報処理システムであってもよく、また、領域設定システム100に組み込まれる情報処理システムであってもよい。
【0024】
ユーザ端末400は、領域設定システム100のユーザが利用するコンピュータであり、スマートフォン、タブレット端末、パーソナルコンピュータ等である。
【0025】
ユーザは、ユーザ端末400を通じて領域設定システム100を利用し、第1領域に類似する、第2文書の類似領域を特定し、類似領域に第1タグを設定する。
【0026】
また、ユーザ端末400は、第1文書、第2文書、及び第1領域タグ情報を領域設定システム100に提供してもよい。
【0027】
なお、
図1では、文書管理システム200、タグ管理システム300、及びユーザ端末400をそれぞれ1つずつ示しているが、文書管理システム200、タグ管理システム300、及びユーザ端末400の数はこれに限られない。
【0028】
続いて、領域設定システム100の詳細について説明する。領域設定システム100は、記憶部110、文書取得部120、第1タグ取得部130、類似ページ特定部140、仮領域設定部150、類似度評価部160、類似領域特定部170、タグ設定部180、出力部190を備える。
図1に示す各部は、例えば、記憶領域を用いたり、記憶領域に格納されたプログラムをプロセッサが実行したりすることにより実現することができる。
【0029】
記憶部110は、領域設定システム100において処理される情報を記憶する。記憶部110は、例えば、後述する、文書情報(第1文書に関する第1文書情報及び第2文書に関する第2文書情報)、第1領域タグ情報、類似領域タグ情報を記憶することができる。
【0030】
文書取得部120は、文書情報(第1文書情報及び第2文書情報)を取得し、記憶部110に格納する。
【0031】
第1文書は、後述する第1タグが設定された第1領域を含む電子文書である。第2文書は、領域設定システム100における領域設定処理の対象となる電子文書である。
【0032】
文書取得部120は、第1文書情報及び第2文書情報の少なくともいずれかを文書管理システム200から取得してもよく、また、第1文書情報及び第2文書情報の少なくともいずれかをユーザ端末400から取得してもよい。
【0033】
文書取得部120が文書管理システム200から文書情報を取得する場合、文書取得部120は、文書管理システム200の記憶部に保存されている電子文書(例えば、PDF(Portable Document Format)形式のファイル)を一時的に取得する。そして、文書取得部120は、当該一時的に取得した電子文書に基づいて文書内容情報(例えば、電子文書のデータ実体)を取得(例えば、テキストを抽出)し、文書内容情報を記憶する。なお、この場合、文書取得部120は、一時的に取得した電子文書自体を保存しない。これにより、領域設定システム100は、電子文書の著作権を侵害することなく、電子文書の内容をユーザ端末400に表示することができる。
【0034】
文書取得部120が取得する文書情報は、文書に記載される文字列が一定の構造(例えば、単語、文、又は段落等)と対応付けられている形式の情報であってもよい。
【0035】
また、文書取得部120が取得する文書情報は、文書に記載される文字列が一定の構造(例えば、単語、文、又は段落等)と対応付けられている形式の情報でなく、文字ごとに、文字と、当該文字が位置する文書中の座標を示す情報とが対応付けられている形式の情報(例えば、PDF(Portable Document Format)形式のファイル)であってもよい。すなわち、この場合、文書に記載されている内容を一定の構造(例えば、単語、文、又は段落等)の下で把握する場合には、所定の処理(例えば、付近に位置する文字同士を一連の文字列若しくは単語と認識する処理や自然言語処理)が必要となる。
【0036】
図2は、記憶部110に記憶される文書情報の例を示す図である。記憶部110に記憶される文書情報は、例えば、文書ID及び文書内容情報を含む。
【0037】
文書IDは、領域設定システム100において処理される文書を識別する文書識別情報である。
【0038】
文書内容情報は、文書の内容を示す情報である。文書内容情報は、例えば、文書に含まれる文字列を示す情報であってもよく、また、文字ごとに、文字を示す情報と、当該文字の位置する文書中の座標を示す情報とを対応付けた情報であってもよい。
【0039】
なお、文書情報は、第1文書情報及び第2文書情報ごとに、記憶部110に記憶されてもよい。
【0040】
第1タグ取得部130は、第1文書における第1領域と、第1領域の内容に応じた属性を示す第1タグとが対応付けられた第1領域タグ情報を取得し、記憶部110に格納する。
【0041】
ここで、第1領域は、第1文書における所定の領域である。第1領域は、例えば、第1文書の領域のうち、一定の単位(例えば、後述するタグ)に対応する内容が記載されている領域である。
【0042】
第1領域に含まれる文字列は、単語、文節、文単位の文字列であってもよく、また、複数の文からなる文字列であってもよい。また、第1領域には、文字列以外の情報(例えば、図表)が含まれていてもよい。
【0043】
タグは、第1領域に記載されている内容に応じた属性を示す。
【0044】
タグは、例えば、第1領域に含まれる文字列の意味内容を示すものであってもよい。すなわち、例えば、第1文書が請求書である場合、タグは、例えば、「請求日」、「請求額」、「購入商品」等であってもよい。
【0045】
また、タグは、例えば、法律、所定の機関が定める指針、又は慣習(特に商慣習)等によって文書に記載又は開示することが求められている項目を示すものであってもよい。すなわち、例えば、第1文書が、企業が発行するアニュアルレポートである場合、タグは、例えば、「企業理念」、「CSRへの取り組み」等であってもよい。
【0046】
また、タグは、領域設定システム100の管理者、ユーザ端末400のユーザ、又はユーザの操作に応じてタグを設定する外部の情報処理システムの管理者によって、任意に設定されるものであってもよい。
【0047】
また、電子文書には、複数のタグを含むタググループに対応する領域が設定されてもよい。この場合、タググループに対応する領域は、当該複数のタグのそれぞれに対応する領域の集合であってもよく、また、タググループに対応する内容が記載されている範囲(例えば、特定の章又は項目)の領域であってもよい。
【0048】
具体的には、タググループ「情報開示」は、例えば、タグ「サスティナビリティ情報開示」、タグ「参画するイニシアチブや団体」、及びタグ「外部からのESG評価」を含んでもよい。
【0049】
また、さらに、電子文書には、複数のタググループを含むタグカテゴリに対応する領域が設定されてもよい。この場合、タグカテゴリに対応する領域は、当該複数のタググループのそれぞれに対応する領域の集合であってもよく、また、タグカテゴリに対応する内容が記載されている範囲(例えば、特定の章又は項目)の領域であってもよい。
【0050】
具体的には、タグカテゴリ「企業概要」は、例えば、タググループ「経営メッセージ」、タググループ「事業環境」、及びタググループ「情報開示」を含んでもよい。
【0051】
なお、本実施形態におけるタグは、適宜、タググループ又はタグカテゴリと読み替えることができる。すなわち、第1領域は、タググループ又はタグカテゴリに対応する内容が記載されている領域であってもよい。
【0052】
第1タグ取得部130は、第1領域タグ情報を、タグ管理システム300から取得してもよく、また、ユーザ端末400から取得してもよい。
【0053】
図3は、記憶部110に記憶される第1領域タグ情報の例を示す図である。記憶部110に記憶される第1領域タグ情報は、例えば、タグID、タグ内容情報、文書ID、座標情報を含む。
【0054】
タグIDは、文書の領域に対応付けられるタグを識別するタグ識別情報である。タグ内容情報は、タグの内容を示す情報である。
【0055】
座標情報は、タグに対応する第1領域の、第1文書における座標を示す情報である。また、座標情報は、電子文書中の記載位置(例えば、ページ番号、開始点のX座標、開始点のY座標、幅、及び高さにより特定される領域)を示す情報であってもよい。
【0056】
また、座標情報が示す座標は、第1文書の複数のページに及ぶ領域を示す座標であってもよい。
【0057】
また、第1領域タグ情報は、タグが属するタググループ及びタググループが属するタグカテゴリを示す情報をさらに含んでもよい。
【0058】
類似ページ特定部140は、第1文書情報及び第2文書情報に基づいて、第1文書における第1領域が属するページと類似する、第2文書における少なくとも1つの類似ページを特定する。
【0059】
類似ページ特定部140は、所定の演算処理によって算出されるページ類似度に基づいて、少なくとも1つの類似ページを特定することができる。
【0060】
すなわち、類似ページ特定部140は、第1領域が属するページと、第2文書における複数(例えば、全て)のページのそれぞれとのページ類似度をそれぞれ算出し、例えば、最も高いページ類似度を備える第2文書におけるページを、類似ページと特定することができる。
【0061】
また、類似ページ特定部140は、第1領域が属するページと、第2文書における複数(例えば、全て)のページのそれぞれとのページ類似度をそれぞれ算出し、例えば、ページ類似度が所定の閾値を上回る、第2文書における少なくとも1つのページ(例えば、複数のページ)を、類似ページと特定することができる。
【0062】
ここで、所定の演算処理によって算出されるページ類似度は、例えば、コサイン類似度であってもよい。
【0063】
コサイン類似度は、例えば、2つの文書(文書又は文書における特定のページ)の類似性を評価する際に用いられる指標である。2つの文書におけるコサイン類似度は、当該2つの文書における複数の単語をベクトルに置き換えて計算することができる。なお、2つの文書における複数の単語をベクトルに置き換える手法は、既知の手法であってもよく、例えば、各文書において各単語が出現する頻度を表す尺度を用いる手法であってもよい。
【0064】
また、ページ類似度は、例えば、ダイス係数(Dice係数)に基づいて評価される類似度であってもよい。すなわち、この場合、2つの文書(文書又は文書における特定のページ)内のテキストのそれぞれを、連続するN文字からなるNグラム(例えば、バイグラム)の集合と捉えた上で、一方の集合と他方の集合とのダイス係数が大きいほど、当該2つの文書の類似度が高いと評価されてもよい。これにより、領域設定システム100は、文字ごとに、第1領域に類似する類似領域を設定することができる。
【0065】
仮領域設定部150は、類似ページ特定部140によって特定される少なくとも1つの類似ページのそれぞれについて、少なくとも1つの類似ページのそれぞれにおける所定の領域を基準とする複数の第1仮領域を設定する。
【0066】
複数の第1仮領域は、例えば、第1文書における第1領域に対応する、類似ページにおける所定の領域を基準とする領域であってもよい。
【0067】
具体的には、仮領域設定部150は、まず、第1文書における第1領域の座標情報(この場合は、例えば、開始点のX座標、開始点のY座標、幅、及び高さ)と同一の、類似ページにおける基準領域を特定する。続いて、仮領域設定部150は、当該基準領域を基準に、類似ページの全体に、当該基準領域と同じサイズの領域を複数の第1仮領域として設定する。このとき、仮領域設定部150は、例えば、複数の第1仮領域のそれぞれが重ならないように、基準領域の上下左右の領域、及び当該上下左右の領域のそれぞれの上下左右の領域を、複数の第1仮領域と設定してもよい。
【0068】
また、仮領域設定部150は、複数の第1仮領域のそれぞれについて、複数の第1仮領域のそれぞれを拡大又は縮小させた複数の第2仮領域を設定することができる。
【0069】
なお、拡大及び縮小の程度は、例えば、領域設定システムの管理者の事前の設定に応じたものであってもよい。
【0070】
また、複数の第2領域のそれぞれは、類似ページ内の領域であってもよく、また、類似ページとは異なるページの領域(例えば、類似ページの直前又は直後のページに及ぶ領域)であってもよい。
【0071】
このように、仮領域設定部150は、少なくとも1つの類似ページ(例えば、複数の類似ページ)のそれぞれについて、複数の仮領域を設定することができる。これにより、領域設定システム100は、少なくとも1つの類似ページにおける(例えば、複数の類似ページにまたがった)複数の仮領域を探索し、第1領域に類似する類似領域を特定することができる。
【0072】
類似度評価部160は、2つの領域の内容の類似度合いを示す領域類似度であって、第1領域の内容と仮領域(例えば、第1仮領域又は第2仮領域)の内容との領域類似度(例えば、第1領域類似度又は第2領域類似度)を評価する。
【0073】
ここで、類似度評価部160による評価の方法は、例えば、編集距離類似度に基づく評価であってもよい。すなわち、領域類似度は、編集距離類似度であってもよい。
【0074】
編集距離類似度は、例えば、2つの文字列において、一方の文字列をもう一方の文字列に変換するに際してなされる、当該一方の文字列に対する編集操作(挿入、削除、又は置換の操作)に応じて算出される編集距離に応じた類似度である。すなわち、編集距離の値が大きいほど、編集距離類似度は小さくなり、編集距離の値が小さいほど、編集距離類似度は大きくなる。
【0075】
なお、編集距離は、例えば、レーベンシュタイン距離(Levenshtein Distance)、ジャロ・ウィンクラー距離(Jaro-Winkler Distance)、ジャッカード距離(ジャッカード係数(Jaccard係数)に応じた距離)であってもよい。
【0076】
類似領域特定部170は、領域類似度に基づいて、第1領域に類似する類似領域を特定する。
【0077】
類似領域特定部170は、複数の第1仮領域のそれぞれについて、第1領域の内容と複数の第1仮領域のそれぞれの内容との第1領域類似度に基づいて、複数の第1仮領域のうち、少なくとも1つの第1仮領域を、類似領域と特定することができる。具体的には、例えば、類似領域特定部170は、複数の第1仮領域のうち、最も高い第1領域類似度を備える第1仮領域を、類似領域と特定する。
【0078】
また、類似領域特定部170は、複数の第1仮領域のそれぞれ、及び複数の第1仮領域のそれぞれの複数の第2仮領域のそれぞれについて、第1領域の内容と複数の第1仮領域のそれぞれの内容との第1領域類似度、及び第1領域の内容と複数の第2仮領域のそれぞれの内容との第2領域類似度に基づいて、複数の第1仮領域及び複数の第2仮領域のうち、少なくとも1つの第1仮領域及び少なくとも1つの第2仮領域の少なくともいずれかを、類似領域と特定することができる。具体的には、例えば、類似領域特定部170は、複数の第2仮領域のうち、最も高い第2領域類似度を備える第2仮領域を、類似領域と特定する。
【0079】
タグ設定部180は、類似領域特定部170によって特定される類似領域と、第1領域タグ情報が示す第1タグとを対応付けた類似領域タグ情報を生成し、記憶部110に格納する。
【0080】
ここで、類似領域は、類似領域特定部170により、第1領域に類似する領域として特定されている。そのため、第1領域に対応する第1タグは、類似領域にも対応している場合がある。そこで、タグ設定部180は、類似領域と第1タグとを対応付けた類似領域タグ情報を生成する。これにより、ユーザは、第2文書を参照して第2文書の類似領域にタグを設定しなくとも、第1文書の第1領域に設定されている第1タグを基に、第1領域に類似する類似領域に、第1タグを設定することができる。
【0081】
図4は、記憶部110に記憶される類似領域タグ情報の例を示す図である。記憶部110に記憶される類似領域タグ情報は、例えば、タグID、タグ内容情報、文書ID、座標情報を含む。類似領域タグ情報に含まれるタグID、タグ内容情報、文書ID、及び座標情報は、第1領域タグ情報に含まれるタグID、タグ内容情報、文書ID、及び座標情報と同様である。
【0082】
続いて、類似領域を特定する処理について、図を用いて説明する。
【0083】
図5は、第1文書を示す図である。
図5に示す第1文書は、「2021年度レポート」である。
図5に示す第1文書は、第1領域として設定される領域501を含む。
【0084】
【0085】
図6Aは、第2文書における複数の第1仮領域を示す図である。
図6Aに示す第2文書は、第1領域の座標情報(この場合は、例えば、開始点のX座標、開始点のY座標、幅、及び高さ)と同一の基準領域601、及び仮領域設定部150によって、複数の第1仮領域のそれぞれが重ならないように、基準領域の上下左右の領域、及び当該上下左右の領域のそれぞれの上下左右の領域に設定された、複数の第1仮領域602を含む。
【0086】
なお、第2文書における複数の第1仮領域は、複数の類似ページのそれぞれに設定されてもよい。この場合、仮領域設定部150及び類似度評価部160は、複数の類似ページのそれぞれについて、処理を行う。
【0087】
図6Bは、第2文書における複数の第2仮領域を示す図である。
図6Bに示す第2文書は、複数の第1仮領域のうち、基準領域601に対応する複数の第2仮領域(例えば、基準領域601を拡大又は縮小させた第2仮領域603及び604)を含む。なお、
図6Bにおいて、基準領域601以外の第1仮領域に対応する第2仮領域の表示は、省略している。
【0088】
類似度評価部160は、複数の第2仮領域のそれぞれ(例えば、第2仮領域603及び604)について、第1領域を示す領域501との第2領域類似度を評価する。なお、この場合、第2仮領域603は、領域501に類似する領域を含むものの、領域501に対応する領域以外の領域も大きく含むため、領域501に類似する類似領域として適切ではない。また、第2仮領域604は、領域501に類似する領域を一部に含むものの、領域501に類似する類似領域として適切ではない。
【0089】
そして、仮領域設定部150及び類似度評価部160の探索処理の結果に基づいて、類似領域特定部170は、複数の第2仮領域のうち、例えば、最も高い第2領域類似度を備える第2仮領域を、類似領域として特定する。
【0090】
図6Cは、第2文書における類似領域を示す図である。
図6Cに示す第2文書は、類似領域特定部170より特定された類似領域として、領域605を含む。領域605は、複数の第2仮領域のうち、最も高い第2領域類似度を備える第2仮領域である。
【0091】
このように、領域設定システム100(特に、仮領域設定部150、類似度評価部160、及び類似領域特定部170)による一連の類似領域特定処理は、少なくとも1つの類似ページにおける(例えば、複数の類似ページにまたがった)複数の仮領域を探索し、第1領域に類似する類似領域を特定する。すなわち、領域設定システム100は、基準領域を移動、拡大、又は縮小させた複数の仮領域のそれぞれの領域類似度を評価することにより、類似領域を探索しているといえる。これにより、領域設定システム100は、第1領域に類似する類似領域を設定することができる。
【0092】
領域設定システム100による一連の類似領域特定処理は、特に、第2文書情報が、文書に記載される文字列が一定の構造(例えば、単語、文、又は段落等)と対応付けられている形式の情報でなく、文字ごとに、文字と、当該文字が位置する文書中の座標を示す情報とが対応付けられている形式の情報である場合であっても、類似領域を設定することができる。
【0093】
出力部190は、類似領域タグ情報を出力する。
【0094】
出力部190は、類似領域タグ情報を、タグ管理システム300に出力してもよく、また、ユーザ端末400に出力してもよい。
【0095】
出力部190が類似領域タグ情報を出力することにより、ユーザは、出力された類似領域タグ情報、及び例えば文書管理システム200から取得される第2文書情報に基づいて、類似領域にタグが設定された第2文書を参照することができる。なお、出力部190がタグ管理システム300に類似領域タグ情報を出力する場合、ユーザは、適宜、タグ管理システム300から類似領域タグ情報を取得すればよい。
【0096】
図7は、領域設定システム100における処理の例を示すフローチャートである。
【0097】
まず、文書取得部120が、例えば文書管理システム200から、第1文書情報及び第2文書情報を取得し、第1タグ取得部130が、例えばタグ管理システム300から、第1領域と第1タグとが対応付けられた第1領域タグ情報を取得する(S701)。類似ページ特定部140が、第1文書情報及び第2文書情報に基づいて、第1文書における第1領域が属するページと類似する、第2文書における少なくとも1つの類似ページを特定する(S702)。
【0098】
続いて、仮領域設定部150が、複数の第1仮領域、及び複数の第1仮領域のそれぞれに対応する複数の第2仮領域を設定する(S703)。類似度評価部160が、第1領域と、複数の第2仮領域のそれぞれとの領域類似度を評価する(S704)。
【0099】
類似領域特定部170が、例えば、複数の第2仮領域のうち、最も高い領域類似度を備える第2仮領域を、類似領域と特定する(S705)。タグ設定部180が、特定された類似領域と、第1タグとが対応付けられた類似領域タグ情報を生成する(S706)。出力部190が、類似領域タグ情報を出力する(S707)。
【0100】
以上、本発明の一実施形態について説明した。領域設定システム100は、第1文書情報、第2文書情報、及び第1領域タグ情報を取得し、第1領域が属するページと類似する少なくとも1つの類似ページを特定し、領域類似度に基づいて第1領域に類似する類似領域を特定し、類似領域と第1タグとを対応付けた類似領域タグ情報を生成することができる。これにより、様々な文書において類似の領域の設定が可能となる。
【0101】
また、領域設定システム100は、複数の第1仮領域を設定し、複数の第1仮領域のそれぞれの内容と第1領域の内容との類似度を示す第1領域類似度に基づいて、複数の第1仮領域のうち、少なくとも1つの第1仮領域を類似領域と特定することができる。
【0102】
また、領域設定システム100は、複数の第1仮領域のそれぞれの内容と第1領域の内容との類似度を示す第1領域類似度、及び複数の第2仮領域のそれぞれの内容と第1領域の内容との類似度を示す第2領域類似度に基づいて、複数の第1仮領域及び複数の第2仮領域のうち、少なくとも1つの第1仮領域及び少なくとも1つの第2仮領域の少なくともいずれかを類似領域と特定することができる。これにより、領域設定システム100は、仮領域の設定及び領域類似度の評価を通じて、第1領域に類似する類似領域を特定することができる。
【0103】
なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更/改良され得るととともに、本発明にはその等価物も含まれる。
【符号の説明】
【0104】
100 領域設定システム、110 記憶部、120 文書取得部、130 第1タグ取得部、140 類似ページ特定部、150 仮領域設定部、160 類似度評価部、170 類似領域特定部、180 タグ設定部、190 出力部、200 文書管理システム、300 タグ管理システム、400 ユーザ端末