IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社野村総合研究所の特許一覧

特開2024-115438文書処理システム、文書処理方法、及び文書処理プログラム
<>
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図1
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図2
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図3
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図4
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図5
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図6
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図7
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図8
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図9
  • 特開-文書処理システム、文書処理方法、及び文書処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024115438
(43)【公開日】2024-08-26
(54)【発明の名称】文書処理システム、文書処理方法、及び文書処理プログラム
(51)【国際特許分類】
   G06F 40/117 20200101AFI20240819BHJP
   G06F 40/279 20200101ALI20240819BHJP
   G06F 40/216 20200101ALI20240819BHJP
【FI】
G06F40/117
G06F40/279
G06F40/216
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023021135
(22)【出願日】2023-02-14
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVASCRIPT
(71)【出願人】
【識別番号】000155469
【氏名又は名称】株式会社野村総合研究所
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100080953
【弁理士】
【氏名又は名称】田中 克郎
(72)【発明者】
【氏名】角田 充弘
(72)【発明者】
【氏名】森 俊介
【テーマコード(参考)】
5B091
5B109
【Fターム(参考)】
5B091EA01
5B109NH02
(57)【要約】
【課題】学習結果に基づいたユーザの操作をさらなる学習に活用することができる。
【解決手段】文書処理システムは、ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得する対象領域取得部と、少なくとも1つの学習用文書における、学習用領域と、学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、対象領域に対応する予測タグを予測し、予測タグと対象領域との対応関係を示す予測タグ設定情報を生成するタグ予測部と、予測タグを表示するユーザ端末における操作に基づいて、対象領域に対応する確定タグを設定し、確定タグと対象領域との対応関係を示す確定タグ設定情報を生成するタグ確定部と、確定タグ設定情報に基づいて、タグ予測モデルを更新する再学習部と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得する対象領域取得部と、
少なくとも1つの学習用文書における、学習用領域と、前記学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、前記対象領域に対応する予測タグを予測し、前記予測タグと前記対象領域との対応関係を示す予測タグ設定情報を生成するタグ予測部と、
前記予測タグを表示する前記ユーザ端末における操作に基づいて、前記対象領域に対応する確定タグを設定し、前記確定タグと前記対象領域との対応関係を示す確定タグ設定情報を生成するタグ確定部と、
前記確定タグ設定情報に基づいて、前記タグ予測モデルを更新する再学習部と、
を備える文書処理システム。
【請求項2】
前記予測タグ設定情報及び前記確定タグ設定情報の少なくともいずれかに基づいて、前記ユーザ端末に対し、前記予測タグ及び前記確定タグの少なくともいずれかに応じた表示態様により前記対象領域を表示した、前記対象文書の少なくとも一部を表示する文書表示部をさらに備える、請求項1に記載の文書処理システム。
【請求項3】
前記文書表示部は、前記予測タグ設定情報に基づいて、前記対象領域に対応する前記予測タグを表示する、前記ユーザ端末における前記確定タグの設定操作のための画面を前記ユーザ端末にさらに表示する、請求項2に記載の文書処理システム。
【請求項4】
前記予測タグ設定情報は、前記タグ予測部による予測確度に関する予測確度情報を含み、
前記文書表示部は、前記対象領域ごとに前記予測確度情報を表示する、前記ユーザ端末における前記確定タグの設定操作のための画面を前記ユーザ端末にさらに表示する、請求項2に記載の文書処理システム。
【請求項5】
前記文書表示部は、前記対象領域ごとに、前記タグ確定部による確定の状況に関する確定状況情報を表示する、前記ユーザ端末における前記確定タグの設定操作のための画面を前記ユーザ端末にさらに表示する、請求項2に記載の文書処理システム。
【請求項6】
前記対象領域の少なくとも一部が複数のタグに対応している場合、前記複数のタグに対応していることが認識可能な形式で、前記対象領域を含む前記対象文書の少なくとも一部を表示する文書表示部をさらに備える、請求項1に記載の文書処理システム。
【請求項7】
前記確定タグ設定情報を、前記対象文書を示す情報と独立して出力するタグ出力部をさらに備える請求項1~5のいずれか一項に記載の文書処理システム。
【請求項8】
コンピュータが、
ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得し、
少なくとも1つの学習用文書における、学習用領域と、前記学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、前記対象領域に対応する予測タグを予測し、前記予測タグと前記対象領域との対応関係を示す予測タグ設定情報を生成し、
前記予測タグを表示する前記ユーザ端末における操作に基づいて、前記対象領域に対応する確定タグを設定し、前記確定タグと前記対象領域との対応関係を示す確定タグ設定情報を生成し、
前記確定タグ設定情報に基づいて、前記タグ予測モデルを更新する、
文書処理方法。
【請求項9】
コンピュータに、
ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得する領域取得部と、
少なくとも1つの学習用文書における、学習用領域と、前記学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、前記対象領域に対応する予測タグを予測し、前記予測タグと前記対象領域との対応関係を示す予測タグ設定情報を生成するタグ予測部と、
前記予測タグを表示する前記ユーザ端末における操作に基づいて、前記対象領域に対応する確定タグを設定し、前記確定タグと前記対象領域との対応関係を示す確定タグ設定情報を生成するタグ確定部と、
前記確定タグ設定情報に基づいて、前記タグ予測モデルを更新する再学習部と、
を実現させるための文書処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書処理システム、文書処理方法、及び文書処理プログラムに関する。
【背景技術】
【0002】
従来、事前に設定される記載内容とタグとの関係を学習して、文書中の領域の記載内容に対応するタグを予測するシステムが知られている。
【0003】
例えば、特許文献1に記載されている学習装置は、自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、タグとの関連度合いを示す自己相互情報量を単語ごとに計算し、各単語の自己相互情報量を基に、タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う。そして、当該学習装置は、前処理後の教師データを学習し、タグが付与される記載箇所に関する条件付き確率の一覧を生成する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020―46907号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載されている装置は、ユーザに対し、教師データに基づいた学習結果を提示するにとどまり、学習結果に基づいたユーザの操作をさらに教師データに活用する処理について考慮されていない。
【0006】
そこで、本発明は、学習結果に基づいたユーザの操作をさらなる学習に活用することが可能な文書処理システム、文書処理方法、及び文書処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る文書処理システムは、ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得する対象領域取得部と、少なくとも1つの学習用文書における、学習用領域と、学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、対象領域に対応する予測タグを予測し、予測タグと対象領域との対応関係を示す予測タグ設定情報を生成するタグ予測部と、予測タグを表示するユーザ端末における操作に基づいて、対象領域に対応する確定タグを設定し、確定タグと対象領域との対応関係を示す確定タグ設定情報を生成するタグ確定部と、確定タグ設定情報に基づいて、タグ予測モデルを更新する再学習部と、を備える。
【0008】
本発明の一態様に係る文書処理方法は、コンピュータが、ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得し、少なくとも1つの学習用文書における、学習用領域と、学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、対象領域に対応する予測タグを予測し、予測タグと対象領域との対応関係を示す予測タグ設定情報を生成し、予測タグを表示するユーザ端末における操作に基づいて、対象領域に対応する確定タグを設定し、確定タグと対象領域との対応関係を示す確定タグ設定情報を生成し、確定タグ設定情報に基づいて、タグ予測モデルを更新する。
【0009】
本発明の一態様に係る文書処理プログラムは、コンピュータに、ユーザ端末における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得する領域取得部と、少なくとも1つの学習用文書における、学習用領域と、学習用領域の内容に応じた属性を示すタグとが対応付けられた対応関係情報に基づいて学習される、領域に対応するタグを予測するタグ予測モデルに基づいて、対象領域に対応する予測タグを予測し、予測タグと対象領域との対応関係を示す予測タグ設定情報を生成するタグ予測部と、予測タグを表示するユーザ端末における操作に基づいて、対象領域に対応する確定タグを設定し、確定タグと対象領域との対応関係を示す確定タグ設定情報を生成するタグ確定部と、確定タグ設定情報に基づいて、タグ予測モデルを更新する再学習部と、を実現させる。
【0010】
なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」又は装置が有する機能が2つ以上の物理的手段、装置、又はソフトウェアにより実現されても、2つ以上の「部」又は装置の機能が1つの物理的手段、装置、又はソフトウェアにより実現されてもよい。
【発明の効果】
【0011】
本発明によれば、学習結果に基づいたユーザの操作をさらなる学習に活用することが可能な文書処理システム、文書処理方法、及び文書処理プログラムを提供することができる。
【図面の簡単な説明】
【0012】
図1】本発明の一実施形態である文書処理システム100の構成を示す図である。
図2】記憶部110に記憶される学習用文書情報の例を示す図である。
図3】記憶部110に記憶される対応関係情報の例を示す図である。
図4】記憶部110に記憶される対象領域情報の例を示す図である。
図5】記憶部110に記憶される予測タグ設定情報の例を示す図である。
図6】記憶部110に記憶される確定タグ設定情報の例を示す図である。
図7】文書表示部150による表示の例を示す図である。
図8】文書表示部150による表示の例を示す図である。
図9】文書表示部150による表示の例を示す図である。
図10】文書処理システム100における処理の例を示すフローチャートである。
【発明を実施するための形態】
【0013】
図1は、本発明の一実施形態である文書処理システム100の構成を示す図である。文書処理システム100は、文書管理システム200及びユーザ端末300とインターネット等のネットワークを介して通信可能に接続される、文書処理プログラムによって実現される情報処理システムである。
【0014】
まず、文書処理システム100は、学習用文書に基づいて学習されるタグ予測モデルに基づいて、対象文書の対象領域のタグを予測する。続いて、文書処理システム100は、ユーザの操作に基づいて、予測されるタグを確定する。そして、文書処理システム100は、確定されるタグに基づいて、タグ予測モデルを更新する。文書処理システム100の詳細については、後述する。
【0015】
文書管理システム200は、文書処理システム100に対し、学習用文書及び対象文書を提供する。
【0016】
文書管理システム200は、例えば、学習用文書及び対象文書の発行主体(例えば、事業者)が管理する情報処理システムであってもよい。
【0017】
また、文書管理システム200は、複数の文書管理システム200であってもよい。この場合、複数の文書管理システム200のそれぞれは、少なくとも1つの学習用文書又は対象文書を提供すればよい。すなわち、複数の文書管理システム200のそれぞれは、学習用文書及び対象文書のそれぞれの発行主体が管理する情報処理システムであってもよい。
【0018】
ユーザ端末300は、文書処理システム100のユーザが利用するコンピュータであり、スマートフォン、タブレット端末、パーソナルコンピュータ等である。
【0019】
ユーザは、ユーザ端末300を通じて文書処理システム100を利用し、ユーザ端末300に表示される、予測されるタグと対象領域の記載内容とを参照して、タグを確定する。
【0020】
また、ユーザ端末300は、学習用文書、対象文書、後述する対応関係情報を、文書処理システムに提供してもよい。
【0021】
なお、図1では、文書管理システム200及びユーザ端末300がそれぞれ1つずつ示されているが、文書管理システム200及びユーザ端末300の数はこれに限られない。
【0022】
続いて、文書処理システム100の詳細について説明する。文書処理システム100は、記憶部110、学習用文書取得部115、対応関係取得部120、学習部125、対象領域取得部130、タグ予測部135、タグ確定部140、再学習部145、文書表示部150、タグ出力部155を備える。図1に示す各部は、例えば、記憶領域を用いたり、記憶領域に格納された文書処理プログラムをプロセッサが実行したりすることにより実現することができる。
【0023】
記憶部110は、文書処理システム100において処理される情報を記憶する。記憶部110は、例えば、後述する、学習用文書情報、対応関係情報、タグ予測モデル、対象領域情報、予測タグ設定情報、及び確定タグ設定情報を記憶することができる。
【0024】
学習用文書取得部115は、文書管理システム200から、学習用文書に関する学習用文書情報を取得し、記憶部110に格納する。
【0025】
ここで、学習用文書は、電子的に処理可能な電子文書である。学習用文書は、文書に記載される文字列が一定の構造(例えば、単語、文、又は段落等)と対応付けられている形式の情報でなく、文字ごとに、文字と、当該文字が位置する文書中の座標を示す情報とが対応付けられている形式の情報(例えば、PDF(Portable Document Format)形式のファイル)であってもよい。すなわち、この場合、文書に記載されている内容を一定の構造(例えば、単語、文、又は段落等)の下で把握する場合には、所定の処理(例えば、付近に位置する文字同士を一連の文字列若しくは単語と認識する処理や自然言語処理)が必要となる。
【0026】
学習用文書は、後述する学習部125が学習する際に用いられる電子文書である。すなわち、学習用文書は、後述する対応関係情報が既に設定された電子文書である。
【0027】
学習用文書取得部115が学習用文書を取得する際、学習用文書取得部115は、文書管理システム200の記憶部に保存されている電子文書(例えば、PDF(Portable Document Format)形式のファイル)を一時的に取得する。そして、学習用文書取得部115は、当該一時的に取得した学習用文書に基づいて文書の内容を示す文書内容情報(例えば、学習用文書のデータ実体)を取得(例えば、テキストを抽出)し、文書内容情報を記憶する。この場合、学習用文書取得部115は、一時的に取得した学習用文書自体を保存しない。
【0028】
なお、学習用文書取得部115は、ユーザ端末300から、学習用文書情報を取得してもよい。
【0029】
図2は、記憶部110に記憶される学習用文書情報の例を示す図である。記憶部110に記憶される学習用文書情報は、例えば、文書ID、文書内容情報を含む。文書IDは、記憶部110に記憶される学習用文書情報を識別する情報である。文書内容情報は、学習用文書の内容を示す情報(例えば、文字データ、及び当該文字データが示す文字が記載されている位置を示す座標データ)である。
【0030】
対応関係取得部120は、対応関係情報を取得する。対応関係取得部120は、例えば、文書処理システム100の記憶部110に事前に記憶されている対応関係情報を取得してもよく、また、他の情報処理システム(例えば、文書管理システム200や、対応関係情報を管理する情報処理システム)、又はユーザ端末300から、対応関係情報を取得して、記憶部110に格納してもよい。
【0031】
対応関係情報は、学習用文書における学習用領域と、当該学習用領域の内容に応じた属性を示すタグとが対応付けられた情報である。すなわち、対応関係情報は、後述する学習部125による学習における教師データといえる。
【0032】
ここで、タグは、文書における特定の領域(例えば、学習用領域)に記載されている内容に応じた属性を示す。
【0033】
タグは、例えば、特定の領域に含まれる文字列の意味内容を示すものであってもよい。すなわち、例えば、学習用文書が請求書である場合、タグは、例えば、「請求日」、「請求額」、「購入商品」等であってもよい。
【0034】
また、タグは、例えば、法律、所定の機関が定める指針、又は慣習(特に商慣習)等によって文書に記載又は開示することが求められている項目を示すものであってもよい。すなわち、例えば、学習用文書が、企業が発行するアニュアルレポートである場合、タグは、例えば、「企業理念」、「CSRへの取り組み」等であってもよい。
【0035】
また、タグは、例えば、文書処理システム100の管理者又はユーザ端末300のユーザによって、任意に設定されるものであってもよい。また、タグは、後述するタグ確定部140の処理によって設定されるものであってもよい。
【0036】
また、学習用文書には、複数のタグを含むタググループに対応する領域が設定されてもよい。この場合、タググループに対応する領域は、当該複数のタグのそれぞれに対応する領域の集合であってもよく、また、タググループに対応する内容が記載されている範囲(例えば、特定の章又は項目)の領域であってもよい。具体的には、タググループ「情報開示」は、例えば、タグ「サステナビリティ情報開示」、タグ「参画するイニシアチブや団体」、及びタグ「外部からのESG評価」を含んでもよい。
【0037】
また、さらに、学習用文書には、複数のタググループを含むタグカテゴリに対応する領域が設定されてもよい。この場合、タグカテゴリに対応する領域は、当該複数のタググループのそれぞれに対応する領域の集合であってもよく、また、タグカテゴリに対応する内容が記載されている範囲(例えば、特定の章又は項目)の領域であってもよい。具体的には、タグカテゴリ「企業概要」は、例えば、タググループ「経営メッセージ」、タググループ「事業環境」、及びタググループ「情報開示」を含んでもよい。
【0038】
なお、本実施形態におけるタグは、適宜、タググループ又はタグカテゴリと読み替えることができる。すなわち、学習用領域は、タググループ又はタグカテゴリに対応する内容が記載されている領域であってもよい。
【0039】
図3は、記憶部110に記憶される対応関係情報の例を示す図である。記憶部110に記憶される対応関係情報は、例えば、文書ID、学習用タグ情報を含む。学習用タグ情報は、さらに、領域ID、座標情報、タグ情報を含む。
【0040】
学習用タグ情報は、学習用文書に含まれる学習用領域に対応付けられたタグに関する情報である。
【0041】
領域IDは、電子文書における領域(この場合は、学習用領域)を識別する情報である。
【0042】
座標情報は、電子文書における領域(この場合は、学習用領域)に対応する座標を示す情報である。座標情報は、例えば、学習用領域に対応する、ページ番号(例えば、page1)、X座標(例えば、x1)、Y座標(例えば、y1)、幅(例えば、w1)、高さ(例えば、h1)を示す情報を含む。
【0043】
タグ情報は、学習用領域に記載されている内容に対応するタグを示す情報である。
【0044】
学習部125は、少なくとも1つの学習用文書における、学習用領域とタグとが対応付けられた対応関係情報に基づいて学習し、領域に対応するタグを予測するタグ予測モデルを生成し、生成されるタグ予測モデルを記憶部110に格納する。
【0045】
ここで、タグ予測モデルは、領域を示す情報の入力を受け付けると、当該領域に対応すると予測される予測タグを出力するモデルである。
【0046】
学習部125は、例えば、領域の座標を示す座標情報を学習し、タグ予測モデルを生成してもよい。この場合、タグ予測モデルは、領域を示す情報の入力を受け付けると、当該領域の座標に基づいて、予測タグを出力することができる。
【0047】
また、学習部125は、例えば、領域に記載されている内容を示す文書内容情報を学習し、タグ予測モデルを生成してもよい。この場合、タグ予測モデルは、領域を示す情報の入力を受け付けると、当該領域に記載されている内容に基づいて、予測タグを出力することができる。
【0048】
なお、学習のアルゴリズムは特に限定されないが、学習部125は、例えば、ランダムフォレスト(Random Forest)、SVM(Support Vector Machine)、又はTF-IDFベクトルのコサイン類似度を用いることができる。
【0049】
対象領域取得部130は、ユーザ端末300における操作に基づいて、対象文書に含まれる対象領域に関する対象領域情報を取得し、対象領域情報を記憶部110に格納する。
【0050】
文書処理システム100は、まず、処理対象となる対象文書に関する対象文書情報を取得する。このとき、文書処理システム100は、文書管理システム200から対象文書情報を取得してもよく、また、ユーザ端末300から対象文書情報を取得してもよい。
【0051】
文書処理システム100が文書管理システム200から学習用文書を取得する際、文書処理システム100は、文書管理システム200の記憶部に保存されている電子文書(例えば、PDF(Portable Document Format)形式のファイル)を一時的に取得する。そして、文書処理システム100は、当該一時的に取得した対象文書に基づいて文書の内容を示す文書内容情報(例えば、対象文書のデータ実体)を取得(例えば、テキストを抽出)し、文書内容情報を記憶する。なお、この場合、文書処理システム100は、一時的に取得した対象文書自体を保存しない。これにより、文書処理システム100は、対象文書の著作権を侵害することなく、対象文書の内容をユーザ端末300に表示することができる。
【0052】
続いて、文書処理システム100は、例えば、対象文書をユーザ端末300の表示部に表示する。そして、ユーザが、ユーザ端末300を操作して、対象文書に含まれる対象領域を指定する。このとき、ユーザは、対象文書が表示されるユーザ端末300の表示部を選択(例えば、マウスによる選択操作や、タッチ操作)の操作により、対象領域を指定してもよい。対象領域取得部130は、ユーザ端末300における操作に基づいて、対象領域に関する対象領域情報を取得する。
【0053】
図4は、記憶部110に記憶される対象領域情報の例を示す図である。記憶部110に記憶される対象領域情報は、例えば、領域ID、座標情報を含む。領域IDは、電子文書における領域(この場合は、対象領域)を識別する情報である。座標情報は、電子文書における領域(この場合は、対象領域)に対応する座標を示す情報である。
【0054】
タグ予測部135は、タグ予測モデルに基づいて、対象領域に対応する予測タグを予測し、予測タグと対象領域との対応関係を示す予測タグ設定情報を生成し、予測タグ設定情報を記憶部110に格納する。
【0055】
予測タグ設定情報は、予測タグと対象領域との対応関係を示す情報である。タグ予測部135は、対象領域に対応する1つの予測タグを予測してもよく、また、対象領域に対応する複数の予測タグを予測してもよい。
【0056】
また、タグ予測部135は、予測されるタグの確度を示す予測確度情報を含む予測タグ設定情報を生成してもよい。予測確度情報は、例えば、確度が高いほど、予測されるタグが確からしいことを示す情報である。
【0057】
図5は、記憶部110に記憶される予測タグ設定情報の例を示す図である。記憶部110に記憶される予測タグ設定情報は、例えば、領域ID、予測タグ情報、予測確度情報を含む。
【0058】
タグ確定部140は、予測タグを表示するユーザ端末300における操作に基づいて、対象領域に対応する確定タグを設定し、確定タグと対象領域との対応関係を示す確定タグ設定情報を生成し、確定タグ設定情報を記憶部110に格納する。
【0059】
確定タグ設定情報は、確定タグと対象領域との対応関係を示す情報である。
【0060】
タグ確定部140は、例えば、予測タグを表示するユーザ端末300における、所定のボタン(例えば、「確定」ボタン)に対するユーザの操作に基づいて、予測タグを確定させることができる。
【0061】
図6は、記憶部110に記憶される確定タグ設定情報の例を示す図である。記憶部110に記憶される確定タグ設定情報は、例えば、領域ID、確定タグ情報を含む。確定タグ情報は、タグ確定部140によって設定される確定タグを示す情報である。
【0062】
再学習部145は、確定タグ設定情報に基づいて、タグ予測モデルを更新する。具体的には、再学習部145は、確定タグ設定情報が示す対象領域と確定タグとの対応関係を含む対応関係情報を学習して、新たなタグ予測モデルを生成する。
【0063】
これにより、文書処理システム100は、タグ予測モデルの学習及び予測を一連のシステム(いわばワンパッケージのシステム)としてユーザに提供することができる。ユーザによる文書処理システム100の利用により、タグ予測モデルの精度が向上し、ユーザは、さらに精度の高いタグ予測結果を取得することができる。
【0064】
文書表示部150は、予測タグ設定情報及び確定タグ設定情報の少なくともいずれかに基づいて、ユーザ端末300に対し、予測タグ及び確定タグの少なくともいずれかに応じた表示態様により対象領域を表示した、対象文書の少なくとも一部を表示する。
【0065】
文書表示部150は、例えば、予測タグ設定情報に基づいて、対象領域に対応する予測タグを表示する、ユーザ端末300における確定タグの設定操作のための画面をユーザ端末300に表示することができる。
【0066】
具体的に、図7を用いて説明する。図7は、文書表示部150による表示の例を示す図である。図7は、対象文書においてユーザが選択した対象領域に対応する予測タグを予測し、当該予測タグをユーザ端末300に表示する画面の例を示す。
【0067】
図7に示す画面は、対象文書の少なくとも一部(例えば、特定のページ)を表示する領域701、対象文書においてユーザが選択した対象領域を表示する領域702、対象領域に対応する予測タグを表示する領域703を含む。領域703は、例えば、領域701に重ねて表示される別のウィンドウである。
【0068】
まず、領域701の表示を受けたユーザは、対象領域を選択する操作(例えば、マウスによるドラッグ操作、又はタッチ操作)により、領域702を選択する。文書表示部150は、ユーザによる選択操作に応じて、例えば、領域702をハイライトする。ここで、ハイライトすることは、例えば、所定の透明度を備える、所定の色の矩形を用いて領域702を囲み、領域702を強調することを含む。
【0069】
続いて、対象領域取得部130及びタグ予測部135の処理により、予測タグ設定情報を生成する。文書表示部150は、領域703に予測タグ設定情報に含まれる予測タグ情報が示す予測タグを表示する。このとき、文書表示部150は、予測タグ設定情報に含まれる予測確度情報が示す予測確度の高い順に、予測タグを表示してもよい。
【0070】
そして、ユーザは、領域703に表示される予測タグのうち、領域702に対応する適切な予測タグの選択操作(例えば、マウスによるクリック操作、又はタッチ操作)をする。その結果、選択された予測タグが確定され、タグ確定部140の処理により、確定タグ設定情報が生成される。すなわち、領域703に表示される画面は、ユーザ端末300における確定タグの設定操作のための画面である。
【0071】
なお、領域703に表示される予測タグは、所定の色を伴って表示されてもよい。すなわち、予測タグは、所定の色の文字で表示されてもよく、また、所定の色の矩形の中に表示されてもよい。領域703に表示される予測タグが複数の予測タグである場合、それぞれ異なる色を伴って表示されてもよく、また、同じ色を伴って表示されてもよい。
【0072】
また、文書表示部150は、対象領域ごとに予測確度情報を表示する、ユーザ端末300における確定タグの設定操作のための画面をユーザ端末300に表示することができる。また、文書表示部150は、対象領域ごとに、タグ確定部140による確定の状況に関する確定状況情報を表示する、ユーザ端末300における確定タグの設定操作のための画面をユーザ端末300に表示することができる。
【0073】
具体的に、図8を用いて説明する。図8は、文書表示部150による表示の例を示す図である。図8は、対象文書の少なくとも一部(例えば、特定のページ)を表示する画面と並べて、予測タグを確認し、確定タグを設定する操作のための画面を表示する場合の例を示す。
【0074】
図8に示す画面は、対象文書の少なくとも一部を表示する領域801、予測タグを確認し、確定タグを設定する操作のための画面を表示する領域802を含む。領域802は、さらに、予測タグ設定情報及び確定タグ設定情報を表示する領域803を含む。
【0075】
領域803は、例えば、表形式に、タグと、確度(予測確度)と、タグに対応する内容を表示する。確度が「確定」となっているタグ(例えば、タグ「契約日」)は、予測タグが確定された確定状況にある確定タグを示す。
【0076】
領域803に表示されるタグは、それぞれ、所定の色を伴って表示されてもよい。この場合、タグに対応する内容が記載されている対象領域は、領域801において、領域803に表示されるタグに対応する色でハイライトされてもよい。ハイライトすることは、例えば領域804のように、所定の透明度を備える、所定の色の矩形で領域804を囲み、強調することを含む。領域803に表示されるタグが複数のタグである場合、それぞれ異なる色を伴って領域801及び領域802において表示されてもよく、また、同じ色を伴って表示されてもよい。
【0077】
文書表示部150は、領域803に含まれる、タグに対応する内容が表示される領域805を選択するユーザの選択操作に応じて、例えば、当該内容が記載されている対象文書における領域を表示又はハイライト表示してもよい。この場合、当該内容が記載されている領域が、領域801に表示されていない場合、文書表示部150は、例えば、当該内容が記載されている領域を含むページを、領域801に表示した上で、さらに、当該内容が記載されている領域をハイライト表示してもよい。ハイライト表示は、例えば、所定の透明度を備える、所定の色の矩形で領域804を囲み、強調することを含む。
【0078】
また、タグ確定部140は、領域803に含まれる、タグに対応する内容が表示される領域805を選択するユーザの選択操作に応じて、例えば、当該タグに対応する内容としてタグを確定し、確定タグ設定情報を生成してもよい。また、タグ確定部140は、領域803に表示される所定のボタン(例えば、「確定」ボタン(不図示))に対するユーザの操作に基づいて、予測タグを確定させてもよい。
【0079】
また、文書表示部150は、対象領域の少なくとも一部が複数のタグに対応している場合、複数のタグに対応していることが認識可能な形式で、対象領域を含む対象文書の少なくとも一部をユーザ端末300に表示することができる。
【0080】
具体的に、図9を用いて説明する。図9は、文書表示部150による表示の例を示す図である。図9は、対象領域の少なくとも一部が複数のタグに対応している場合に、複数のタグに対応していることが認識可能な形式で、対象領域を含む対象文書の少なくとも一部を表示する画面の例を示す。
【0081】
図9に示す画面は、対象文書の少なくとも一部を表示する領域901、予測タグを確認し、確定タグを設定する操作のための画面を表示する領域902を含む。領域901には、さらに、タグに対応する対象領域として領域903及び領域904を含む。
【0082】
領域903及び領域904は、それぞれ異なるタグに対応する対象領域であるが、互いに同じ領域(この場合は、領域903の全体)を含み、重なっている。そこで、文書表示部150は、領域が重なっていることが認識可能な形式で、領域をハイライトする。
【0083】
具体的には、文書表示部150は、例えば、領域903及び領域904をそれぞれ異なる色でハイライトしてもよい。これにより、ユーザは、重なっている領域(この場合は、領域903の全体)が複数のタグに対応していることを、視覚的に認識可能となる。
【0084】
また、文書表示部150は、それぞれ異なる透明度で着色された矩形で、領域903及び領域904をハイライトしてもよい。これにより、ユーザは、重なっている領域(この場合は、領域903の全体)が複数のタグに対応していることを、視覚的に認識可能となる。
【0085】
なお、図7図9に示した画面は、文書表示部150による文書表示処理の一例であり、文書表示のインターフェースはこれらに限られない。
【0086】
タグ出力部155は、確定タグ設定情報を、対象文書を示す対象文書情報と独立して出力することができる。タグ出力部155は、例えば、ユーザ端末300に、出力することができる。
【0087】
また、タグ出力部155は、例えば、JSON(JavaScript Object Notation)形式のメタデータとして、確定タグ設定情報を出力してもよい。これにより、ユーザは、文書処理システム100とは異なる、確定タグを表示する情報処理システムに対し、確定タグ設定情報と対象文書情報とを提供することで、確定タグの表示を参照することができる。
【0088】
図10は、文書処理システム100における処理の例を示すフローチャートである。
【0089】
まず、学習用文書取得部115が学習用文書を取得し、対応関係取得部120が対応関係情報を取得する(S1001)。学習部125が、学習用文書及び対応関係情報に基づいて学習し、タグ予測モデルを生成する(S1002)。
【0090】
対象領域取得部130が、対象文書の対象領域を取得する(S1003)。タグ予測部135が、タグ予測モデルに基づいて、対象領域に対応するタグを予測し、予測タグ設定情報を生成する(S1004)。
【0091】
文書表示部150が、予測タグ設定情報に基づいて、ユーザ端末300の表示部に、確定タグの設定操作のための画面を表示する(S1005)。タグ確定部140が、ユーザ端末300における操作に基づいて、対象領域に対応する確定タグを設定し、確定タグ設定情報を生成する(S1006)。再学習部145が、確定タグ設定情報に基づいて再学習し、タグ予測モデルを更新する(S1007)。
【0092】
タグ出力部155が、確定タグ設定情報を、対象文書情報とは独立して出力する(S1008)。
【0093】
以上、本発明の一実施形態について説明した。文書処理システム100は、ユーザ端末300の操作に基づいて対象領域情報を取得し、少なくとも1つの学習用文書における対応関係情報に基づいて学習されるタグ予測モデルに基づいて、対象領域に対応するタグを予測し、ユーザ端末300における操作に基づいて予測タグを確定し、確定タグ設定情報に基づいてタグ予測モデルを更新する。これにより、文書処理システム100は、学習結果に基づいたユーザの操作をさらなる学習に活用することができる。
【0094】
また、文書処理システム100は、予測タグ設定情報及び確定タグ設定情報の少なくともいずれかに基づいて、予測タグ設定情報及び確定タグ設定情報の少なくともいずれかに応じた表示態様により対象領域を表示した、対象文書の少なくとも一部をユーザ端末300に表示することができる。これにより、ユーザは、対象領域に対するタグの予測状況又は確定状況を視覚的に把握することができる。
【0095】
また、文書処理システム100は、予測タグ設定情報に基づいて、対象領域に対応する予測タグを表示する、ユーザ端末300における確定タグの設定操作のための画面をユーザ端末300にさらに表示することができる。これにより、ユーザは、タグの予測状況を把握し、必要に応じて、タグを確定するための操作を行うことができる。
【0096】
また、文書処理システム100は、ユーザ端末300に、予測確度情報をさらに表示することができる。これにより、ユーザは、予測モデルにおける予測確度のさらに参照して、必要に応じて、タグを確定するための操作を行うことができる。
【0097】
また、文書処理システム100は、対象領域ごとに、タグの確定状況をユーザ端末300に表示することができる。これにより、ユーザは、確定済みのタグと未確定のタグとを把握することができる。
【0098】
また、文書処理システム100は、対象領域の少なくとも一部が複数のタグに対応している場合、複数のタグに対応していることが認識可能な形式で、対象文書の少なくとも一部をユーザ端末300に表示することができる。これにより、ユーザは、当該少なくとも一部の領域が複数のタグに対応していることを視覚的に把握することができる。
【0099】
また、文書処理システム100は、確定タグ設定情報を、対象文書情報とは独立して出力することができる。これにより、ユーザは、対象文書と確定タグ設定情報とを独立して管理することができ、必要に応じて、確定タグを表示する情報処理システムを用いて、確定タグを参照することができる。
【0100】
なお、本実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更/改良され得るととともに、本発明にはその等価物も含まれる。
【符号の説明】
【0101】
100 文書処理システム、110 記憶部、115 学習用文書取得部、120 対応関係取得部、125 学習部、130 対象領域取得部、135 タグ予測部、140 タグ確定部、145 再学習部、150 文書表示部、155 タグ出力部、200 文書管理システム、300 ユーザ端末
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10