(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-24
(45)【発行日】2025-05-07
(54)【発明の名称】文書処理装置、プログラム及び文書処理方法
(51)【国際特許分類】
G06F 40/295 20200101AFI20250425BHJP
G06F 40/205 20200101ALI20250425BHJP
【FI】
G06F40/295
G06F40/205
(21)【出願番号】P 2024570420
(86)(22)【出願日】2023-04-11
(86)【国際出願番号】 JP2023014760
(87)【国際公開番号】W WO2024214188
(87)【国際公開日】2024-10-17
【審査請求日】2024-11-27
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100116964
【氏名又は名称】山形 洋一
(74)【代理人】
【識別番号】100120477
【氏名又は名称】佐藤 賢改
(74)【代理人】
【識別番号】100135921
【氏名又は名称】篠原 昌彦
(74)【代理人】
【識別番号】100203677
【氏名又は名称】山口 力
(72)【発明者】
【氏名】金井 美岬
(72)【発明者】
【氏名】斉藤 辰彦
(72)【発明者】
【氏名】小路 悠介
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2010-102668(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定する文字ブロック特定部と、
前記複数の文字ブロックの各々の種別である文字ブロック種別を判定する文字ブロック種別判定部と、
複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、前記複数の文字ブロックに含まれる一つの文字ブロックに対して判定された前記文字ブロック種別における前記抽出対象文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出するメタデータ抽出部と、を備え、
前記文字ブロック種別判定部は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す文字ブロック種別判定情報を参照して、前記複数の文字が前記特徴を有する場合に前記加算値を合計したスコアを、前記二以上の文字ブロック種別の各々で算出し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別に含まれる一つの文字ブロック種別における前記スコアの最も高い文字ブロックを、前記一つの文字ブロック種別と判定し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、前記二以上の文字ブロック種別以外の文字ブロック種別と判定すること
を特徴とする文書処理装置。
【請求項2】
メタデータが既に抽出されている文書データを蓄積文書データとして記憶する文書情報記憶部をさらに備え、
前記特徴には、前記蓄積文書データとの関係が含まれること
を特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記メタデータ抽出部は、前記メタデータ抽出条件情報において、前記抽出対象文字列として、文字列情報に含まれている文字列が示されている場合には、前記文字列情報に含まれている前記文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出すること
を特徴とする請求項1又は2に記載の文書処理装置。
【請求項4】
メタデータが既に抽出されている文書データを蓄積文書データとして記憶する文書情報記憶部をさらに備え、
前記メタデータ抽出部は、前記文字ブロックを特定した前記文書データに前記蓄積文書データが類似する場合に、前記蓄積文書データに含まれている特定の文字列と一致する文字列を、前記文字ブロックを特定した前記文書データから抽出すること
を特徴とする請求項1に記載の文書処理装置。
【請求項5】
コンピュータを、
文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定する文字ブロック特定部、
前記複数の文字ブロックの各々の種別である文字ブロック種別を判定する文字ブロック種別判定部、及び、
複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、前記複数の文字ブロックに含まれる一つの文字ブロックに対して判定された前記文字ブロック種別における前記抽出対象文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出するメタデータ抽出部、として機能させ、
前記文字ブロック種別判定部は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す文字ブロック種別判定情報を参照して、前記複数の文字が前記特徴を有する場合に前記加算値を合計したスコアを、前記二以上の文字ブロック種別の各々で算出し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別に含まれる一つの文字ブロック種別における前記スコアの最も高い文字ブロックを、前記一つの文字ブロック種別と判定し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、前記二以上の文字ブロック種別以外の文字ブロック種別と判定すること
を特徴とするプログラム。
【請求項6】
文字ブロック特定部が、文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定し、
文字ブロック種別判定部が、前記複数の文字ブロックの各々の種別である文字ブロック種別を判定し、
メタデータ抽出部が、複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、前記複数の文字ブロックに含まれる一つの文字ブロックに対して判定された前記文字ブロック種別における前記抽出対象文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出する文書処理方法であって、
前記文字ブロック種別判定部は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す文字ブロック種別判定情報を参照して、前記複数の文字が前記特徴を有する場合に前記加算値を合計したスコアを、前記二以上の文字ブロック種別の各々で算出し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別に含まれる一つの文字ブロック種別における前記スコアの最も高い文字ブロックを、前記一つの文字ブロック種別と判定し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、前記二以上の文字ブロック種別以外の文字ブロック種別と判定すること
を特徴とする文書処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書処理装置、プログラム及び文書処理方法に関する。
【背景技術】
【0002】
従来から、文書内の各文字行に対して、事前に定義したメタデータが持つと推測される特徴を満たすかどうかを分析してスコアリングし、最高のスコアをつけたキーワードを、文書内のメタデータ識別子に対応するメタデータとして抽出する技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では処理対象の文書データ及び事前に定義した辞書のみを用いてメタデータが抽出されている。このため、例えば、関連する製品型番が英数字で表現されるという特徴がある場合に、表記が類似している資料番号が誤って抽出されてしまうという可能性がある。
【0005】
そこで、本開示の一又は複数の態様は、文書データからより適切にメタデータを抽出できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る文書処理装置は、文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定する文字ブロック特定部と、前記複数の文字ブロックの各々の種別である文字ブロック種別を判定する文字ブロック種別判定部と、複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、前記複数の文字ブロックに含まれる一つの文字ブロックに対して判定された前記文字ブロック種別における前記抽出対象文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出するメタデータ抽出部と、を備え、前記文字ブロック種別判定部は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す文字ブロック種別判定情報を参照して、前記複数の文字が前記特徴を有する場合に前記加算値を合計したスコアを、前記二以上の文字ブロック種別の各々で算出し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別に含まれる一つの文字ブロック種別における前記スコアの最も高い文字ブロックを、前記一つの文字ブロック種別と判定し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、前記二以上の文字ブロック種別以外の文字ブロック種別と判定することを特徴とする。
【0007】
本開示の一態様に係るプログラムは、コンピュータを、文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定する文字ブロック特定部、前記複数の文字ブロックの各々の種別である文字ブロック種別を判定する文字ブロック種別判定部、及び、複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、前記複数の文字ブロックに含まれる一つの文字ブロックに対して判定された前記文字ブロック種別における前記抽出対象文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出するメタデータ抽出部、として機能させ、前記文字ブロック種別判定部は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す文字ブロック種別判定情報を参照して、前記複数の文字が前記特徴を有する場合に前記加算値を合計したスコアを、前記二以上の文字ブロック種別の各々で算出し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別に含まれる一つの文字ブロック種別における前記スコアの最も高い文字ブロックを、前記一つの文字ブロック種別と判定し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、前記二以上の文字ブロック種別以外の文字ブロック種別と判定することを特徴とする。
【0008】
本開示の一態様に係る文書処理方法は、文字ブロック特定部が、文書データで示される文書から、一まとまりの複数の文字をそれぞれが含む複数の文字ブロックを特定し、文字ブロック種別判定部が、前記複数の文字ブロックの各々の種別である文字ブロック種別を判定し、メタデータ抽出部が、複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示すメタデータ抽出条件情報に従って、前記複数の文字ブロックに含まれる一つの文字ブロックに対して判定された前記文字ブロック種別における前記抽出対象文字列に一致する文字列を、前記一つの文字ブロックからメタデータとして抽出する文書処理方法であって、前記文字ブロック種別判定部は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す文字ブロック種別判定情報を参照して、前記複数の文字が前記特徴を有する場合に前記加算値を合計したスコアを、前記二以上の文字ブロック種別の各々で算出し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別に含まれる一つの文字ブロック種別における前記スコアの最も高い文字ブロックを、前記一つの文字ブロック種別と判定し、前記複数の文字ブロックの内、前記二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、前記二以上の文字ブロック種別以外の文字ブロック種別と判定することを特徴とする。
【発明の効果】
【0009】
本開示の一又は複数の態様によれば、より適切にメタデータを抽出できるようになる。
【図面の簡単な説明】
【0010】
【
図1】実施の形態1に係る文書処理装置の構成を概略的に示す構成図である。
【
図2】実施の形態1における文字ブロック種別判定情報の一例を示す概略図である。
【
図3】文字列DBに記憶されている組織情報の一例を示す概略図である。
【
図4】文字列DBに記憶されている製品情報の一例を示す概略図である。
【
図5】メタデータ抽出条件情報の一例を示す概略図である。
【
図6】PCの構成を概略的に示すブロック図である。
【
図7】実施の形態1に係る文書処理装置の動作を示すフローチャートである。
【
図8】文字ブロック種別判定部での動作の詳細を示すフローチャートである。
【
図9】処理対象の文書データで示されている文書の例を示す概略図である。
【
図10】文字ブロック特定結果の例を示す概略図である。
【
図11】実施の形態2に係る文書処理装置の構成を概略的に示す構成図である。
【
図12】実施の形態2における文字ブロック種別判定情報の一例を示す概略図である。
【発明を実施するための形態】
【0011】
実施の形態1.
図1は、実施の形態1に係る文書処理装置100の構成を概略的に示す構成図である。
文書処理装置100は、文字ブロック種別判定情報記憶部101と、文字列DB(DataBase)102と、メタデータ抽出条件情報記憶部103と、文字ブロック特定部104と、文字ブロック種別判定部105と、メタデータ抽出部106とを備える。
【0012】
文字ブロック種別判定情報記憶部101は、文字ブロックの種別を判定するための情報である文字ブロック種別判定情報を記憶する。文字ブロック種別判定情報は、二以上の文字ブロック種別の各々が有する特徴に対する加算値を示す。文字ブロックは、後述のように文書データで示される文書から特定された文字のまとまりである。言い換えると、文字ブロックは、一まとまりの複数の文字を含む。
【0013】
図2は、実施の形態1における文字ブロック種別判定情報の一例を示す概略図である。
図2に示されている文字ブロック種別判定情報101aは、ID列101bと、文字ブロック種別列101cと、特徴列101dと、スコア加算値列101eとを備えるテーブル形式の情報である。
【0014】
ID列101bは、文字ブロック種別判定情報101aの各々の行を識別するための識別情報であるID(IDentification)を格納する。
【0015】
文字ブロック種別列101cは、文字ブロックの種別である文字ブロック種別を格納する。
特徴列101dは、文字ブロック種別の特徴を格納する。
スコア加算値列101eは、文字ブロックが、同じ行の特徴を有する場合に、同じ行の文字ブロック種別のスコアとして加算する値である加算値を格納する。
【0016】
文字ブロック種別判定情報101aにより、文字ブロック種別毎に、文字ブロックが有する特徴と、文字ブロックがその特徴を有する場合に、その文字ブロック種別のスコアとして加算する加算値とが対応付けられる。
【0017】
図1に戻り、文字列DB102は、メタデータとして実在する文字列を示す文字列情報を記憶する文字列情報記憶部である。例えば、文字列DB102は、実際に組織に存在する所属名、及び、実際に存在する製品番号を記憶する。
【0018】
図3は、文字列DB102に記憶されている組織情報の一例を示す概略図である。
図3に示されている組織情報102aは、ID列102bと、部列102cと、課列102dと、略称列102eとを有するテーブル形式の情報である。
【0019】
ID列102bは、組織情報102aの各々の行を識別するためのIDを格納する。
部列102cは、組織(例えば、会社)の部の名称を格納する。
課列102dは、組織の課の名称を格納する。課は、部に含まれる所属先であるものとする。
略称列102eは、同じ行の課の名称の略称を格納する。
組織情報102aからは、部の名称、課の名称及び課の略称を特定することができる。
【0020】
図4は、文字列DB102に記憶されている製品情報の一例を示す概略図である。
図4に示されている製品情報102fは、ID列102gと、製品型番列102hとを有するテーブル形式の情報である。
ID列102gは、製品情報102fの各々の行を識別するためのIDを格納する。
製品型番列102hは、製品の型番を格納する。
製品情報102fからは、製品の型番を特定することができる。
【0021】
図1に戻り、メタデータ抽出条件情報記憶部103は、メタデータとして抽出する文字列を抽出する条件を示すメタデータ抽出条件情報を記憶する。メタデータ抽出条件情報は、複数の文字ブロック種別の各々から抽出すべき文字列である抽出対象文字列を示す。
【0022】
図5は、メタデータ抽出条件情報の一例を示す概略図である。
図5に示されているメタデータ抽出条件情報103aは、ID列103bと、メタデータ種別列103cと、抽出対象となる文字ブロック種別列103dと、抽出対象から抽出する文字列列103eとを有するテーブル形式の情報である。
【0023】
ID列103bは、メタデータ抽出条件情報103aの各々の行を識別するためのIDを格納する。
メタデータ種別列103cは、抽出対象から抽出される文字列のメタデータとしての種別であるメタデータ種別を格納する。
抽出対象となる文字ブロック種別列103dは、同じ行の抽出対象から抽出する文字列列103eで特定される文字列を抽出する対象である抽出対象となる文字ブロックの文字ブロック種別を格納する。
抽出対象から抽出する文字列列103eは、同じ行の抽出対象となる文字ブロック種別列103dで特定される文字ブロック種別の文字ブロックから抽出される文字列を示す抽出対象文字列情報を格納する。抽出対象文字列情報で示される文字列が、抽出対象文字列となる。
【0024】
メタデータ抽出条件情報103aにより、文字ブロックから抽出する文字列と、その文字列を抽出する文字ブロックの文字ブロック種別とが特定される。
【0025】
図1に戻り、文字ブロック特定部104は、文書データで示される文書から文字ブロックを特定する。
例えば、文字ブロック特定部104は、枠線がある場合には、枠線で示される枠内の文字列を文字ブロックとして特定すればよい。
【0026】
また、文字ブロック特定部104は、枠線がない場合には、文字間の空白の幅、行間の空白の高さ、又は、行間のアラインメント(例えば、中央揃え、左揃え、右揃え)の種類に基づいて、文字ブロックを特定すればよい。
具体的には、文字ブロック特定部104は、文字間の空白の幅が予め定められた閾値よりも広い場合、又は、文字間の空白の幅が、他の箇所の文字間の空白の幅から変化する場合に、文字ブロックが切れると判断する。
また、文字ブロック特定部104は、行間の空白の高さが予め定められた閾値よりも広い場合、又は、行間の空白の高さが、他の箇所の行間の空白の高さから変化する場合に、文字ブロックが切れると判断する。
さらに、文字ブロック特定部104は、行間のアライメントが変化する場合に、文字ブロックが切れると判断する。
そして、文字ブロック特定部104は、以上の判断を、適宜組み合わせることで、文字のまとまりである文字ブロックを特定する。
【0027】
文字ブロック種別判定部105は、複数の文字ブロックの各々の種別である文字ブロック種別を判定する。
例えば、文字ブロック種別判定部105は、文字ブロック特定部104が特定した文字ブロックが、文字ブロック種別判定情報記憶部101に登録されている特徴を満たすか否かによって、文字ブロック種別毎にスコアを算出し、算出されたスコアに基づいて、タイトル、作成者、本文等の文字ブロック種別を判定する。
【0028】
具体的には、文字ブロック種別判定部105は、文字ブロック種別判定情報を参照して、文字ブロックに含まれている複数の文字が、文字ブロック種別判定情報で示されている特徴を有する場合に、文字ブロック種別判定情報で示される加算値を合計したスコアを、文字ブロック種別の各々で算出する。そして、文字ブロック種別判定部105は、複数の文字ブロックの内、文字ブロック種別判定情報で示されている二以上の文字ブロック種別の内の一つの文字ブロック種別におけるスコアの最も高い文字ブロックを、その一つの文字ブロック種別と判定する。また、文字ブロック種別判定部105は、複数の文字ブロックの内、その二以上の文字ブロック種別の何れとも判定されなかった文字ブロックを、その二以上の文字ブロック種別以外の文字ブロック種別と判定する。
【0029】
メタデータ抽出部106は、メタデータ抽出条件情報記憶部103に記憶されているメタデータ抽出条件情報に従って、文字ブロック種別における抽出対象文字列に一致する文字列を、その文字ブロック種別と判定された文字ブロックからメタデータとして抽出する。
なお、メタデータ抽出部106は、メタデータ抽出条件情報において、抽出対象文字列として、文字列DB102に含まれている文字列が示されている場合には、文字列DB102に記憶されている情報に含まれているその文字列に一致する文字列を、文字ブロックからメタデータとして抽出する。
【0030】
次に、実施の形態1に係る文書処理装置100のハードウェア構成を説明する。
実施の形態1に係る文書処理装置100は、
図6に示されているようなPC10により構成することができる。
PC10は、プロセッサ11と、メモリ12と、補助記憶装置13と、ディスプレイ14と、入力I/F(InterFace)15と、通信I/F16とを備える。
【0031】
プロセッサ11は、文書処理装置100全体を制御する。例えば、プロセッサ11は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)等である。プロセッサ11は、マルチプロセッサでもよい。また、文書処理装置100は、処理回路を有してもよい。
【0032】
メモリ12は、文書処理装置100の主記憶装置である。例えば、メモリ12は、RAM(Random Access Memory)等である。
補助記憶装置13は、文書処理装置100の永続的な記憶装置である。例えば、補助記憶装置13は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)等である。
【0033】
ディスプレイ14は、各種画面画像を表示する。
入力I/F15は、各種指示の入力を受け付ける。入力I/F15は、例えば、キーボード及びマウス等である。
通信I/F16は、例えば、インターネット等のネットワークを介して、他の装置とデータの送受を行うインタフェースである。例えば、通信I/F16は、NIC(Network Interface Controller)等である。
【0034】
以上に記載された文字ブロック特定部104、文字ブロック種別判定部105及びメタデータ抽出部106は、メモリ12と、メモリ12に格納されているプログラムを実行するプロセッサ11とにより実現することができる。
【0035】
このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
【0036】
文字ブロック種別判定情報記憶部101、文字列DB(DataBase)102及びメタデータ抽出条件情報記憶部103は、補助記憶装置13により実現することができる。
【0037】
次に、実施の形態1に係る文書処理装置100の動作について説明する。
図7は、実施の形態1に係る文書処理装置100の動作を示すフローチャートである。
まず、文字ブロック特定部104は、文書データで示される文書から文字ブロックを特定する(S10)。ここで、文字ブロック特定部104は、特定された文字ブロックについて、文字ブロックの中心座標と、文字列と、その書体情報とを関連付ける文字ブロック情報を生成する。ここでの書体情報は、文字ブロック種別の判定に使用する情報が含まれていればよい。例えば、
図2に示されている例では、書体情報は、「フォントサイズ」及び「太文字であること」である。
【0038】
次に、文字ブロック種別判定部105は、文字ブロック情報で示される文字ブロック毎に、文字ブロック種別判定情報記憶部101及び文字列DB102に記憶されている情報を参照することで、文字ブロック種別を判定する(S11)。ここでの処理については、
図8を用いて詳細に説明する。
【0039】
次に、メタデータ抽出部106は、メタデータ抽出条件情報記憶部103及び文字列DB102に記憶されている情報を参照し、文字ブロック情報で示される文字ブロックの文字列から、メタデータを抽出する(S12)。メタデータ抽出部106は、メタデータ抽出条件情報で示されている抽出対象となる文字ブロック種別に対応する文字ブロックに含まれている文字列から、メタデータ抽出条件情報で示されている、抽出対象から抽出する文字列を、メタデータとして抽出する。
【0040】
図8は、文字ブロック種別判定部105での動作の詳細を示すフローチャートである。
まず、文字ブロック種別判定部105は、文字ブロック種別判定情報記憶部101に記憶されている文字ブロック種別判定情報を参照して、文字ブロック情報で示されている文字ブロック毎にスコアを算出する(S20)。
【0041】
次に、文字ブロック種別判定部105は、文字ブロック種別毎に、ステップS20で算出されたスコアが最も高い文字ブロックを、その文字ブロック種別と判定する(S21)。このとき複数の文字ブロック種別が割り振られる文字ブロックがあってもよい。いずれの文字ブロック種別も割り振られなかった文字ブロックについては、文字ブロック種別判定部105は、文字ブロック種別「本文(BODY)」と判定する。
【0042】
図9及び
図10を用いて、文書処理装置100の動作例を説明する。
図9は、処理対象の文書データで示されている文書の例を示す概略図である。
図10は、
図9に示されている文書に対する文字ブロックの特定結果の例を示す概略図である。
【0043】
まず、文字ブロック特定部104は、
図9に示されている文書に対して、
図10に示されている文字ブロックB1~B8を特定して、文字ブロックB1~B8のそれぞれから、文字ブロックの中心座標、文字列及びその書体情報を特定する。
【0044】
次に、文字ブロック種別判定部105は、文字ブロックB1~B8のそれぞれに対して、文字ブロック種別を判定する。
【0045】
文字ブロック種別判定部105の具体的な動作の一例を示す。
ここでは、
図2に示されている文字ブロック種別判定情報101a、
図3に示されている組織情報102a及び
図4に示されている製品情報102fに基づいて、文字ブロック種別を判定する例を説明する。
【0046】
まず、
図10に示されている文字ブロックB4の文字ブロック種別「AUTHOR」のスコアは、
図2におけるID1、ID2及びID6の特徴に該当するため、1.0+0.8+1.0+1/2=3.3となる。
また、文字ブロックB5の文字ブロック種別「AUTHOR」のスコアは、
図2におけるID1、ID2、ID5及びID6の特徴に該当するため、1.0+0.8+1.0+0.5+1/1=4.3となる。
【0047】
同様にして、文字ブロック種別判定部105は、他の文字ブロックB1~B3及びB6~B8に対して、文字ブロック種別「AUTHOR」のスコアを算出する。
そして、文字ブロック種別「AUTHOR」のスコアが最も高い文字ブロックは、文字ブロックB5であるため、文字ブロック種別判定部105は、文字ブロックB5を文字ブロック種別「AUTHOR」と判定する。
【0048】
同様にして、文字ブロック種別判定部105は、文字ブロック種別「TITLE」に対しても、全ての文字ブロックB1~B8のそれぞれにおいてスコアを算出して、文字ブロックB1を文字ブロック種別「TITLE」と判定する。
【0049】
そして、文字ブロック種別判定部105は、文字ブロック種別「AUTHOR」及び文字ブロック種別「TITLE」の何れとも判定されなかった文字ブロックB2~B4及びB6~B8を文字ブロック種別「BODY」と判定する。
【0050】
次に、メタデータ抽出部106の具体的な動作の一例を示す。
ここでは、上記のように、
図10に示されている文字ブロックB1~B8に対して、
図2に示されている文字ブロック種別判定情報101a、
図3に示されている組織情報102a及び
図4に示されている製品情報102fに基づいて、文字ブロック種別が判定されているものとして説明する。
また、メタデータ抽出条件情報記憶部103には、メタデータ抽出条件情報103aが記憶されているものとして説明する。
【0051】
メタデータ抽出条件情報103aでは、抽出対象から抽出する文字列である「人物名」、「組織名」及び「日付の表現」は、文字ブロック種別「AUTHOR」から抽出されることになっているため、メタデータ抽出部106は、文字列DB102に記憶されている情報を参照することで、文字ブロックB5から人物名「高橋」、組織名「一技課」及び日付表現「2022/04/01」を抽出する。
【0052】
また、メタデータ抽出条件情報103aでは、抽出対象から抽出する文字列である「製品型番」は、文字ブロック種別「BODY」から抽出されることになっているため、メタデータ抽出部106は、文字ブロックB2~B4及びB6~B8から、製品情報102fに記憶されている製品型番を抽出する。ここでは、文字ブロックB7から「AA1234B」が抽出される。
【0053】
以上のように、実施の形態1では、メタデータ抽出条件情報103aを参照して、メタデータとして抽出する文字列が含まれている文字ブロックの文字ブロック種別が特定されるため、より適切にメタデータを抽出することができる。
【0054】
実施の形態2.
上述した実施の形態1では、メタデータの判定にメタデータとして実在する文字列を記憶している文字列DB102を用いているが、実施の形態は、このような例に限定されない。例えば、メタデータの判定に、既にメタデータが抽出されている文書データを利用することもできる。この構成を実施の形態2として説明する。
【0055】
図11は、実施の形態2に係る文書処理装置200の構成を概略的に示す構成図である。
文書処理装置200は、文字ブロック種別判定情報記憶部201と、文字列DB102と、メタデータ抽出条件情報記憶部103と、文字ブロック特定部104と、文字ブロック種別判定部205と、メタデータ抽出部206と、文書情報DB207とを備える。
【0056】
実施の形態2に係る文書処理装置200の文字列DB102、メタデータ抽出条件情報記憶部103及び文字ブロック特定部104は、実施の形態1に係る文書処理装置100の文字列DB102、メタデータ抽出条件情報記憶部103及び文字ブロック特定部104と同様である。
【0057】
文書情報DB207は、既にメタデータが抽出されている文書データについて、文書データと、抽出されたメタデータとを関連付けて記憶する文書情報記憶部である。文書情報DB207に記憶されている文書データを蓄積文書データともいう。
【0058】
文字ブロック種別判定情報記憶部201は、文字ブロック種別判定情報を記憶する。実施の形態2における文字ブロック種別判定情報は、文書情報DB207に記憶されている文書データとの関係に基づいて、文字ブロックの種別を判定するための情報も含んでいる。
【0059】
図12は、実施の形態2における文字ブロック種別判定情報の一例を示す概略図である。
図12に示されている文字ブロック種別判定情報201aは、ID列201bと、文字ブロック種別列201cと、特徴列201dと、スコア加算値列201eとを備えるテーブル形式の情報である。
【0060】
ここで、実施の形態2における文字ブロック種別判定情報201aのID列201b、文字ブロック種別列201c、特徴列201d及びスコア加算値列201eは、実施の形態1における文字ブロック種別判定情報101aのID列101b、文字ブロック種別列101c、特徴列101d及びスコア加算値列101eと同様である。
但し、実施の形態2における文字ブロック種別判定情報201aでは、ID10及びID11に示されているように、文書情報DB207に記憶されている文書データとの関係に基づいて、文字ブロックの種別を判定するための情報が含まれている。
【0061】
ここで、例えば、処理対象の文書データで示される文書と、文書情報DB207に記憶されている文書データで示される文書のいずれにも出現する単語の数を算出し、処理対象の文書データで示される文書に出現する全単語数に占める、文書情報DB207に記憶されている文書データで示される文書にも出現する単語数が閾値を超える場合に、これらの文書データが類似していると判定することができる。なお、文書データの類似の判断は、別の方法で判断されてもよい。
【0062】
文字ブロック種別判定部205は、文字ブロック特定部104が特定した文字ブロックが、文字ブロック種別判定情報記憶部201に登録されている特徴を満たすか否かによって、文字ブロック種別毎にスコアを算出し、算出されたスコアに基づいて、タイトル、作成者、本文等の文字ブロック種別を判定する。
実施の形態2では、文字ブロック種別判定部205は、文書情報DB207に記憶されている文書データも参照して、文字ブロック種別の判定を行う。
【0063】
メタデータ抽出部206は、メタデータ抽出条件情報記憶部103に記憶されているメタデータ抽出条件情報に従って、文字ブロック種別における抽出対象文字列に一致する文字列を、対応する文字ブロックからメタデータとして抽出する。
【0064】
ここで、実施の形態2では、メタデータ抽出部206は、メタデータ抽出対象となっている文書データに蓄積文書データが類似する場合に、蓄積文書データに含まれている特定の文字列と一致する文字列を、その文書データから抽出する。
【0065】
具体的には、実施の形態2では、メタデータ抽出部206は、文書情報DB207に記憶されている文書データ及びメタデータを参照して、例えば、処理対象の文書データと類似する文書データを文書情報DB207で検索し、その類似する文書データの作成者の名前が文字列に含まれているか否かを判定することで、特定された文字ブロックからメタデータを抽出してもよい。
【0066】
以上のように、実施の形態2によれば、既にメタデータが抽出されている文書データを利用することで、より適切にメタデータを抽出することができる。
【符号の説明】
【0067】
100,200 文書処理装置、 101,201 文字ブロック種別判定情報記憶部、 102 文字列DB、 103 メタデータ抽出条件情報記憶部、 104 文字ブロック特定部、 105,205 文字ブロック種別判定部、 106,206 メタデータ抽出部、 207 文書情報DB。