(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-14
(45)【発行日】2022-11-22
(54)【発明の名称】文書解析装置、文書構成解析方法及びプログラム
(51)【国際特許分類】
G06F 40/258 20200101AFI20221115BHJP
G06F 40/284 20200101ALI20221115BHJP
G06F 40/14 20200101ALI20221115BHJP
【FI】
G06F40/258
G06F40/284
G06F40/14
(21)【出願番号】P 2018118411
(22)【出願日】2018-06-22
【審査請求日】2021-05-19
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110001254
【氏名又は名称】弁理士法人光陽国際特許事務所
(72)【発明者】
【氏名】田代 航一
【審査官】木村 大吾
(56)【参考文献】
【文献】特開平11-250041(JP,A)
【文献】特開2009-294950(JP,A)
【文献】米国特許第05669007(US,A)
【文献】竹内 和広,松本 裕治,テキスト構造に基づく要約生成制約条件の検討,情報処理学会研究報告 Vol.2000 No.65,日本,社団法人情報処理学会,2000年07月19日,第2000巻第65号【ISSN】0919-6072,p.9-p.16
【文献】川崎 洋治 Yoji Kawasaki,文書構造情報の抽出とメタデータ化 Automatic Extraction of Document Metadata and its RDF-based Repres,情報処理学会研究報告 Vol.2003 No.37 IPSJ SIG Notes,日本,社団法人情報処理学会 Information Processing Socie,2003年03月28日,第2003巻,第37号,43~50頁
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
互いに異なる複数の
解析手法で文章の構成をそれぞれ解析する解析部と、
前記解析の結果に基づいて、前記文章の構成に係る所定の単位区分ごとに、前記複数の
解析手法で当該単位区分の範囲をそれぞれ特定する特定部と、
前記複数の
解析手法による前記解析の結果に基づいて、前記単位区分ごとに、前記複数の
解析手法でそれぞれ特定された当該単位区分の範囲のうちいずれかを選択する選択部と、
を備えることを特徴とする文書解析装置。
【請求項2】
前記特定部は、前記複数の
解析手法でそれぞれ特定された前記単位区分の範囲ごとに、当該範囲の特定の結果に係る確実性の度合を算出し、
前記選択部は、前記確実性の度合に基づいて選択を行う
ことを特徴とする請求項1記載の文書解析装置。
【請求項3】
前記選択部は、前記単位区分ごとに、前記複数の
解析手法のうち前記確実性の度合が最も高い範囲を選択することを特徴とする請求項2記載の文書解析装置。
【請求項4】
前記特定部は、前記単位区分の範囲に係る表題をそれぞれ特定し、当該特定された表題のもっともらしさに基づいて前記確実性の度合を算出することを特徴とする請求項2又は3記載の文書解析装置。
【請求項5】
前記特定部は、前記単位区分の範囲を表題と本文とに分類して特定し、当該特定された表題のもっともらしさ及び前記本文のもっともらしさに基づいて前記確実性の度合を算出することを特徴とする請求項2又は3記載の文書解析装置。
【請求項6】
前記複数の
解析手法は、3種類以上であり、
前記選択部は、前記単位区分ごとに、前記複数の
解析手法により特定された前記単位区分の範囲による多数決に従って選択することが可能であることを特徴とする請求項1~5のいずれか一項に記載の文書解析装置。
【請求項7】
前記複数の
解析手法には、文章の字句解析が含まれることを特徴とする請求項1~6のいずれか一項に記載の文書解析装置。
【請求項8】
前記複数の
解析手法には、前記文章を含む文書の表示画像データを用いた画像解析が含まれることを特徴とする請求項1~7のいずれか一項に記載の文書解析装置。
【請求項9】
前記文章が構造化文書として記述されている場合には、前記解析部は、当該文章の構造解析を含む前記複数の
解析手法により前記文章の構成を解析することを特徴とする請求項1~8のいずれか一項に記載の文書解析装置。
【請求項10】
前記特定部は、前記選択された各単位区分の範囲間で隙間が生じたり、重複が生じたりしないように、当該各単位区分の範囲の間の位置関係を調整して前記各単位区分の範囲を再度特定することを特徴とする請求項1~9のいずれか一項に記載の文書解析装置。
【請求項11】
前記選択部は、解析部において解析された文章範囲のうち先頭の前記単位区分について前記選択を行い、
前記特定部は、前記選択がなされた前記単位区分の後端位置が前記文章範囲の末尾ではない場合には、当該後端位置以降を次の解析対象の前記文章範囲として、前記解析を繰り返す
ことを特徴とする請求項10記載の文書解析装置。
【請求項12】
前記特定部は、前記選択がなされなかった前記単位区分の範囲に前記選択がなされた前記単位区分の範囲と異なるものがある場合には、前記選択がなされた前記単位区分の範囲に基づいて、前記選択がなされなかった前記単位区分の範囲が特定されている前記範囲の特定の結果を調整することを特徴とする請求項10記載の文書解析装置。
【請求項13】
前記特定部は、前記複数の
解析手法でそれぞれ特定された前記単位区分の範囲ごとに、当該範囲の特定の結果に係る確実性の度合を算出し、
前記調整された範囲の前記確実性の度合を併せて調整し、
前記選択部は、前記確実性の度合に基づいて選択を行う
ことを特徴とする請求項12記載の文書解析装置。
【請求項14】
前記特定部は、一の
解析手法により特定された一の単位区分の範囲に、他の
解析手法により複数の前記単位区分が特定されている場合には、前記解析の結果に基づいて前記一の単位区分の範囲に複数の単位区分を特定するか否かを決定することを特徴とする請求項1~13のいずれか一項に記載の文書解析装置。
【請求項15】
前記単位区分の境界に係る設定を記憶する記憶部を備え、
前記特定部は、前記設定に基づいて前記単位区分の境界を特定する
ことを特徴とする請求項1~14のいずれか一項に記載の文書解析装置。
【請求項16】
前記単位区分の境界に係る設定を行う設定部を備え、
前記特定部は、前記設定に基づいて前記単位区分の境界を特定する
ことを特徴とする請求項1~15のいずれか一項に記載の文書解析装置。
【請求項17】
前記設定には、前記単位区分に係る表題の前の位置が含まれることを特徴とする請求項15又は16記載の文書解析装置。
【請求項18】
前記設定には、前記文章を含む文書データがページレイアウトの設定済みである場合における所定ページ数ごとのページ末尾が含まれることを特徴とする請求項15~17のいずれか一項に記載の文書解析装置。
【請求項19】
前記設定には、前記文章を含む文書データが行単位でのレイアウトの設定済みである場合における所定の行数ごとの末尾が含まれることを特徴とする請求項15~18のいずれか一項に記載の文書解析装置。
【請求項20】
前記解析部は、前記複数の
解析手法のいずれかで文章の構成を解析する個別解析部を当該複数の
解析手法についてそれぞれ少なくとも一つずつ有することを特徴とする請求項1~19のいずれか一項に記載の文書解析装置。
【請求項21】
前記解析部は、前記複数の
解析手法のうち取得された指定に応じたいずれかにより文章の構成を解析する個別解析部を前記複数の
解析手法の数以上有することを特徴とする請求項1~19のいずれか一項に記載の文書解析装置。
【請求項22】
文書解析装置の制御部により行われる文書構成解析方法であって、
互いに異なる複数の
解析手法で文章の構成をそれぞれ解析する解析ステップ、
前記解析の結果に基づいて、前記文章の構成に係る所定の単位区分ごとに、前記複数の
解析手法で当該単位区分の範囲をそれぞれ特定する特定ステップ、
前記複数の
解析手法による前記解析の結果に基づいて、前記単位区分ごとに、前記複数の
解析手法でそれぞれ特定された当該単位区分の範囲のうちいずれかを選択する選択ステップ、
を含むことを特徴とする文書構成解析方法。
【請求項23】
コンピューターに
複数の
解析手法で文章の構成をそれぞれ解析する解析ステップと、
前記解析の結果に基づいて、前記文章の構成に係る所定の単位区分ごとに、前記複数の
解析手法で当該単位区分の範囲をそれぞれ特定する特定ステップと、
前記複数の
解析手法による前記解析の結果に基づいて、前記単位区分ごとに、前記複数の
解析手法でそれぞれ特定された当該単位区分の範囲のうちいずれかを選択する選択ステップと、
を実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書解析装置、文書構成解析方法及びプログラムに関する。
【背景技術】
【0002】
従来、文書データの表示や各種処理を行うために、構文解析を行う技術がある(特許文献1)。また、文書データの字句解析を行って、当該文書データから要約に適した文を抽出する技術がある(特許文献2)。
【0003】
比較的長い文書、特に、技術文書や事務的な文書では、章、節や項目などにより本文を区切って構成されているものが多い。しかしながら、文書データが明確に構造化文書で規定されていない非構造化文書も多く存在する。これらの非構造化文書を解析して構造化文書に変換する技術が知られている(特許文献3)。また、スキャンされた文書画像データを解析して目次文書を作成する技術がある(特許文献4)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2010-282347号公報
【文献】特開2017-10107号公報
【文献】特開2016-6661号公報
【文献】米国特許第9454696号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、文章の切れ目の設定のしかたは、文書によって多様である。また、非公式な文書などでは、しばしば一貫した様式で設定がなされていない場合も多い。これらに対し、特定の手法により画一的な基準で文書の全体構成を判定しようとすると、正確な構成が得られなくなりやすいという課題がある。
【0006】
この発明の目的は、より適切に文章構成の判定を行うことのできる文書解析装置、文書構成解析方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、請求項1記載の発明は、
互いに異なる複数の解析手法で文章の構成をそれぞれ解析する解析部と、
前記解析の結果に基づいて、前記文章の構成に係る所定の単位区分ごとに、前記複数の解析手法で当該単位区分の範囲をそれぞれ特定する特定部と、
前記複数の解析手法による前記解析の結果に基づいて、前記単位区分ごとに、前記複数の解析手法でそれぞれ特定された当該単位区分の範囲のうちいずれかを選択する選択部と、
を備えることを特徴とする文書解析装置である。
【0008】
また、請求項2記載の発明は、請求項1記載の文書解析装置において、
前記特定部は、前記複数の解析手法でそれぞれ特定された前記単位区分の範囲ごとに、当該範囲の特定の結果に係る確実性の度合を算出し、
前記選択部は、前記確実性の度合に基づいて選択を行う
ことを特徴とする。
【0009】
また、請求項3記載の発明は、請求項2記載の文書解析装置において、
前記選択部は、前記単位区分ごとに、前記複数の解析手法のうち前記確実性の度合が最も高い範囲を選択することを特徴とする。
【0010】
また、請求項4記載の発明は、請求項2又は3記載の文書解析装置において、
前記特定部は、前記単位区分の範囲に係る表題をそれぞれ特定し、当該特定された表題のもっともらしさに基づいて前記確実性の度合を算出することを特徴とする。
【0011】
また、請求項5記載の発明は、請求項2又は3記載の文書解析装置において、
前記特定部は、前記単位区分の範囲を表題と本文とに分類して特定し、当該特定された表題のもっともらしさ及び前記本文のもっともらしさに基づいて前記確実性の度合を算出することを特徴とする。
【0012】
また、請求項6記載の発明は、請求項1~5のいずれか一項に記載の文書解析装置において、
前記複数の解析手法は、3種類以上であり、
前記選択部は、前記単位区分ごとに、前記複数の解析手法により特定された前記単位区分の範囲による多数決に従って選択することが可能であることを特徴とする。
【0013】
また、請求項7記載の発明は、請求項1~6のいずれか一項に記載の文書解析装置において、
前記複数の解析手法には、文章の字句解析が含まれることを特徴とする。
【0014】
また、請求項8記載の発明は、請求項1~7のいずれか一項に記載の文書解析装置において、
前記複数の解析手法には、前記文章を含む文書の表示画像データを用いた画像解析が含まれることを特徴とする。
【0015】
また、請求項9記載の発明は、請求項1~8のいずれか一項に記載の文書解析装置において、
前記文章が構造化文書として記述されている場合には、前記解析部は、当該文章の構造解析を含む前記複数の解析手法により前記文章の構成を解析することを特徴とする。
【0016】
また、請求項10記載の発明は、請求項1~9のいずれか一項に記載の文書解析装置において、
前記特定部は、前記選択された各単位区分の範囲間で隙間が生じたり、重複が生じたりしないように、当該各単位区分の範囲の間の位置関係を調整して前記各単位区分の範囲を再度特定することを特徴とする。
【0017】
また、請求項11記載の発明は、請求項10記載の文書解析装置において、
前記選択部は、解析部において解析された文章範囲のうち先頭の前記単位区分について前記選択を行い、
前記特定部は、前記選択がなされた前記単位区分の後端位置が前記文章範囲の末尾ではない場合には、当該後端位置以降を次の解析対象の前記文章範囲として、前記解析を繰り返す
ことを特徴とする。
【0018】
また、請求項12記載の発明は、請求項10記載の文書解析装置において、
前記特定部は、前記選択がなされなかった前記単位区分の範囲に前記選択がなされた前記単位区分の範囲と異なるものがある場合には、前記選択がなされた前記単位区分の範囲に基づいて、前記選択がなされなかった前記単位区分の範囲が特定されている前記範囲の特定の結果を調整することを特徴とする。
【0019】
また、請求項13記載の発明は、請求項12記載の文書解析装置において、
前記特定部は、前記複数の解析手法でそれぞれ特定された前記単位区分の範囲ごとに、当該範囲の特定の結果に係る確実性の度合を算出し、
前記調整された範囲の前記確実性の度合を併せて調整し、
前記選択部は、前記確実性の度合に基づいて選択を行う
ことを特徴とする。
【0020】
また、請求項14記載の発明は、請求項1~13のいずれか一項に記載の文書解析装置において、
前記特定部は、一の解析手法により特定された一の単位区分の範囲に、他の解析手法により複数の前記単位区分が特定されている場合には、前記解析の結果に基づいて前記一の単位区分の範囲に複数の単位区分を特定するか否かを決定することを特徴とする。
【0021】
また、請求項15記載の発明は、請求項1~14のいずれか一項に記載の文書解析装置において、
前記単位区分の境界に係る設定を記憶する記憶部を備え、
前記特定部は、前記設定に基づいて前記単位区分の境界を特定する
ことを特徴とする。
【0022】
また、請求項16記載の発明は、請求項1~15のいずれか一項に記載の文書解析装置において、
前記単位区分の境界に係る設定を行う設定部を備え、
前記特定部は、前記設定に基づいて前記単位区分の境界を特定する
ことを特徴とする。
【0023】
また、請求項17記載の発明は、請求項15又は16記載の文書解析装置において、
前記設定には、前記単位区分に係る表題の前の位置が含まれることを特徴とする。
【0024】
また、請求項18記載の発明は、請求項15~17のいずれか一項に記載の文書解析装置において、
前記設定には、前記文章を含む文書データがページレイアウトの設定済みである場合における所定ページ数ごとのページ末尾が含まれることを特徴とする。
【0025】
また、請求項19記載の発明は、請求項15~18のいずれか一項に記載の文書解析装置において、
前記設定には、前記文章を含む文書データが行単位でのレイアウトの設定済みである場合における所定の行数ごとの末尾が含まれることを特徴とする。
【0026】
また、請求項20記載の発明は、請求項1~19のいずれか一項に記載の文書解析装置において、
前記解析部は、前記複数の解析手法のいずれかで文章の構成を解析する個別解析部を当該複数の解析手法についてそれぞれ少なくとも一つずつ有することを特徴とする。
【0027】
また、請求項21記載の発明は、請求項1~19のいずれか一項に記載の文書解析装置において、
前記解析部は、前記複数の解析手法のうち取得された指定に応じたいずれかにより文章の構成を解析する個別解析部を前記複数の解析手法の数以上有することを特徴とする。
【0028】
また、請求項22記載の発明は、
文書解析装置の制御部により行われる文書構成解析方法であって、
互いに異なる複数の解析手法で文章の構成をそれぞれ解析する解析ステップ、
前記解析の結果に基づいて、前記文章の構成に係る所定の単位区分ごとに、前記複数の解析手法で当該単位区分の範囲をそれぞれ特定する特定ステップ、
前記複数の解析手法による前記解析の結果に基づいて、前記単位区分ごとに、前記複数の解析手法でそれぞれ特定された当該単位区分の範囲のうちいずれかを選択する選択ステップ、
を含むことを特徴とする文書構成解析方法である。
【0029】
また、請求項23記載の発明は、
コンピューターに
互いに異なる複数の解析手法で文章の構成をそれぞれ解析する解析ステップと、
前記解析の結果に基づいて、前記文章の構成に係る所定の単位区分ごとに、前記複数の解析手法で当該単位区分の範囲をそれぞれ特定する特定ステップと、
前記複数の解析手法による前記解析の結果に基づいて、前記単位区分ごとに、前記複数の解析手法でそれぞれ特定された当該単位区分の範囲のうちいずれかを選択する選択ステップと、
を実行させることを特徴とするプログラムである。
【発明の効果】
【0030】
本発明に従うと、より適切に文章構成の判定を行うことができるという効果がある。
【図面の簡単な説明】
【0031】
【
図1】第1実施形態の文章構成解析システムの全体構成を示す模式図である。
【
図2】処理装置の機能構成を示すブロック図である。
【
図3】解析対象とされる文章の内容の一例を示す図である。
【
図4】各解析手法で特定された文章の論理区分(章、節や項)と、当該区分の自信度とを示す例である。
【
図5】文章の先頭の区分の範囲より後ろの部分について、各解析手法で特定された区分と、当該区分の自信度とを示す例である。
【
図6】構成解析処理の制御部による制御手順を示すフローチャートである。
【
図7】構成解析処理で呼び出されるタグ解析処理及びテキスト解析処理の制御手順を示すフローチャートである。
【
図8】構成解析処理で呼び出される画像解析処理の制御手順を示すフローチャートである。
【
図9】構成解析処理で呼び出される構成選択処理の制御部による制御手順を示すフローチャートである。
【
図10】自信度の設定対象の変形例を示す図である。
【
図11】構成選択処理の変形例を示すフローチャートである。
【
図12】特定された区分数が解析手法ごとに異なる場合の特定例を示す図である。
【
図13】構成解析処理の変形例を示すフローチャートである。
【
図14】構成選択処理の変形例について説明する図である。
【
図15】構成選択処理の変形例を示すフローチャートである。
【
図16】第2実施形態の文書解析システムの全体構成を示す図である。
【
図17】第2実施形態の文書解析システムのうち文書解析処理を行う部分の機能構成を示すブロック図である。
【
図18】第2実施形態の構成解析処理の制御手順を示すフローチャートである。
【
図19】第3実施形態の文書解析システムのうち文書解析処理を行う部分の機能構成を示すブロック図である。
【
図20】第3実施形態の構成解析処理の制御手順を示すフローチャートである。
【発明を実施するための形態】
【0032】
以下、本発明の実施の形態を図面に基づいて説明する。
[第1実施形態]
図1は第1実施形態の文章構成解析システム1の全体構成を示す模式図である。
文章構成解析システム1は、処理装置10(文書解析装置)と、端末装置40とを含む。処理装置10と端末装置40とは、ネットワーク配線、例えば、LAN(Local Area Network)ケーブルなどにより通信接続されている。あるいは、接続は、無線LANなどでワイヤレスになされていてもよいし、USBケーブルなどで1対1になされていてもよい。
【0033】
端末装置40は、ユーザーが使用するパーソナルコンピューター(PC)などである。処理装置10は、端末装置40から文章構成解析の要求とともに送られた文章データの解析処理を行うコンピューターである。
【0034】
図2は、処理装置10の機能構成を示すブロック図である。
処理装置10は、制御部11(解析部、特定部、選択部、設定部)と、通信部12と、記憶部13などを備える。
【0035】
制御部11は、CPU111(Central Processing Unit)と、RAM112(Random Access Memory)などを備える。CPU111は、各種演算処理を行う。RAM112は、CPU111に作業用のメモリー空間を提供し、一時データを記憶する。制御部11は、処理装置10の動作を統括制御する。また、制御部11は、文章構成解析に係る処理を行う。
【0036】
通信部12は、ネットワークに接続され、所定の通信規格(プロトコル)に従って外部機器との通信を制御する。通信部12は、例えば、ネットワークカード(LANカード)などを備える。
【0037】
記憶部13は、CPU111が実行する各種のプログラム131や設定データなどを記憶する。記憶部13は、フラッシュメモリーなどの各種不揮発性のメモリー及び/又はハードディスクドライブ(HDD)などを備える。プログラム131には、文章構成の解析に係るプログラムが含まれる。設定データには、区切り特定位置情報132が含まれる。区切り特定位置情報132は、文章構成の区切りとして特定される位置についての情報を含む。
【0038】
処理装置10は、これらに加えて表示部や操作受付部などを備えていてもよい。表示部としては、各種ディスプレイを含み、操作受付部としては、キーボードやポインティングデバイス(マウスなど)を含み得る。
【0039】
次に、本実施形態の処理装置10における文章構成解析について説明する。
【0040】
図3は、解析対象とされる文章の内容の一例を示す図である。
ここで対象となる文書は、例えば、内容が章、節、項などで区分けされて生成されているものである。ここでは、文書の表示状態では、
図3(a)に示すように、新製品の開発進行状況について、製品ごとに節に区切られ、当該製品内で各々ハードウェアとソフトウェアとにより項分けされている。
【0041】
各節や項のタイトル(表題)は、それぞれ太文字で記載されている。また、各節の先頭前には、行方向に空間が設けられている。さらに、各タイトルの先頭は、字下げがなされている。しかしながら、一部のタイトル(項目タイトルST21、ST31など)では、字下げが省略されている。テキストエディター(テキスト編集ソフトウェア)などを用いてユーザーが任意に作成した非公式な文書などでは、しばしばこのように、様式の統一が図られていない場合がある。
【0042】
本実施形態の文章構成解析システム1では、この文書(文章)を解析し、解析の結果に基づいて、設定に応じて定められる区切り位置に応じた構成単位(単位区分)ごとに区分(すなわち、各単位区分の範囲を決定)する。例えば、節のタイトルを基準として節ごとに区分する設定に基づいて、タイトルや本文としてもっともらしい様式や表現を検出、評価し、区分(論理区分)の各範囲の特定を行う。このとき、文章構成解析システム1では、複数の解析手法(可能な限り3種類以上)が用いられてそれぞれ範囲の特定が行われ、区分ごとに、複数の特定範囲のうち、より適切ないずれかの解析手法で特定されたものがそれぞれ選択される。
【0043】
複数の解析手法としては、従来知られている手法がそれぞれ用いられる。ここでは、マークアップ言語を用いた構造化文書などの文書(各種XML文書、OOXML文書、ODF文書、HTML文書や、LaTeX文書のソースファイルなど)のタグやコマンドを利用した構造解析、文書のテキスト内容を用いてタイトルらしい部分を抽出するテキスト解析(字句解析)、及び文書の表示画像データを用いた画像解析が併用される。構造化文書ではない場合には、構造解析が除外される。また、テキスト文書に改ページの設定が含まれない場合であって区分をページ単位で行う設定である場合などには、テキスト解析は除外され得る。対象文書がテキスト文書の場合には、当該テキスト文書の表示状態を画像化して画像解析を行う。対象文書が文書画像の場合には、画像データをテキスト化してテキスト解析を行う。
【0044】
タグ解析処理では、構造化文書におけるマークアップ言語による記述(タグ要素)を検出して文章の構造を解析する。タグ解析処理では、例えば、各種タグが抽出されて、その中から区分け(章、節や項目の範囲指定や区切りなど)やタイトル表示などに一般的に用いられるものが検索される。
【0045】
図3(b)に示すように、
図3(a)で示した表示画像は、構造化文書のデータでは、テキストが種々のタグを用いて記述されている。構造化文書では、主にタグを用いて「<タグ名>内容</タグ名>」といった形式で内容に係る情報が指定される。タグ名には、タイトル、章タイトル、節タイトル、本文テキストや注釈(フットノートなど)といった内容種別を示すタグ要素名や、フォントサイズ、フォント種別(フォントタイプ)、表示色、太字(ボールド)、斜字(イタリック)、下線付きといった書式を示すタグ要素名が、必要に応じて当該タグ要素に係る属性名及びその属性値(数字に限らず記号や文字を含む)を伴って含まれる。したがって、章タイトルや節タイトルに該当するタグが検出されれば、当該タグで示されるテキストが章や節(区分)の先頭のテキストであると判断され得る。
【0046】
図3(b)の例では、例えば、章タイトルである<ctitle>や節タイトルである<stitle>などのタグが該当する。一方で、タイトルとして明示されずに、テキスト内(ここでは、例えば、<t></t>タグ要素による)で独立に太字(bold font)で記載指定されている(ここでは、例えば、<bf></bf>タグ要素による)ものも、項見出しとして選択し得る。XML文書などでは、タグ要素名の設定自由度が高く、ここで示すタグ要素名や属性名も特定のソフトウェアなどに依存するものではない。適切にタグを検出するために、タイトルに類する名称を英語日本語問わず検出可能に検出基準(ルール)が定められればよい。
【0047】
また、完全に正確な構造で文書が構成されていない場合を考慮に入れて、タグの対応関係などを全て厳密に考慮しないこととしてもよい。この場合、タグ解析処理では、特定される区切り位置(境界位置)のスペース、選択されたタイトルの字数や他のタイトルとの対応関係などに応じて、両端境界位置間の区分のもっともらしさが確実性の度合(以降、自信度と記す)として定量的に評価される。すなわち、タグ解析処理では、タグで内容種別や書式などが指定された対象のテキストも考慮に入れて区分の特定に係る自信度の評価がなされる。ヘッダーなどでタグが予め定められた様式(フォーマット)に従っているものであることが判別可能な場合には、当該様式を前提として解析を行ってもよい。また、反対に、タグ名の記述や対応関係(閉じていないなど)に誤記などがある場合でも、当該誤記を判別して、正確なタグの記述を推定することとしてもよい。
【0048】
テキスト解析処理では、テキストの字句解析を行う。解析対象が構造化文書の場合には、タグなどのスタイル指定などは除外される。なお、タグなどマークアップ言語によって改行や行間スペースなどが記述されている場合には、これらについては改行文字に置き換えて(改行として取り扱って)字句解析を行うこととしてもよい。字句解析では、例えば、タイトルとして、段落先頭に章番号や節番号などが付され(
図3(a)における数字N1など)、先頭にインデントや空白文字が挿入され(
図3(a)における字下げI1、I2、I3、I11、I12、I21など)本文と比較して少ない字数で改行がなされている(
図3(a)のタイトル文字列F1、F2、F3、F11、F12、F21、F22、F31など)、といった本文とは異なる特徴(タイトル記載としての妥当性に係る各条件)を検出、評価する。また、これらの条件の一部又は全部を満たす部分(文字列)について、末尾に句点、コロン、セミコロンや鍵括弧(引用符)が設けられていない、日本語の末尾が用言ではない、英語のフレーズにおいてbe動詞が省略されている、といった、タイトルとしてのもっともらしさに係る各条件を評価する。また、これらの他、タイトルの候補とされる部分と当該候補部分以外の本文部分とを分類し、本文部分からそれぞれ特徴的な語句を検出し、当該特徴的な語句を組み合わせた表現であるか否かにより、候補部分がタイトルとしてどの程度もっともらしいかを評価してもよい。
【0049】
例えば、これら妥当性やもっともらしさの条件に応じてそれぞれ点数が加算(減算)され、これらの組み合わせ、すなわち、合計得点や相対的な指標値などを上述の自信度とする。そして、当該自信度が所定の基準を満たす両端境界位置間(一のタイトルの前から次のタイトルの前まで)が、区分として特定され得る。なお、章番号や節番号など(アルファベット順、50音順、いろは48文字順などの文字によるものを含む)がユーザーの入力によって記述されている場合には、これらの番号が必ずしも正確に順番どおりとなっているとは限らないので、番号の配列順を厳密に考慮しないこととしてもよい。例えば、章タイトルとして特定された文字列(段落)の先頭に、「1」、「3」が検出された場合に、その間に必ず第2章が特定されなければならないわけではない。
【0050】
画像解析処理では、文書画像(文書の表示画像データ)を用いて区分けやタイトルの識別を行う。文章の区分(章、節など)の境界や当該区分のタイトルは、文書画像データから区分間のスペース及び/又は字下げの配置(表示面左端や最も左にある文字位置からの水平方向距離など)、フォントの種別及び/又はサイズの違い(本文より大きい)などを検出条件(ルール)として検出される。例えば、各章や節の先頭に位置するタイトルは、太字(bold font)であったり、フォントサイズが本文よりも大きかったりする。また、タイトルの先頭及び当該タイトルに続く文章の先頭は、字下げがなされている場合が多い。ここでは、
図3(b)に示したように、製品Aの項における「ハードウェア」はインデントで字下げされている(ここでは、例えば、テキストタグtに係るインデントの属性indによる)のに対し、「ソフトウェア」は、スペースで字下げされているが、画像上では同一である。また、タイトルの上下は、通常の行間よりも幅が広い場合がある(
図3(a)の領域A1、A2、A3など)。また、タイトル行は、改行がなく、文章と比較して短い場合が多い。画像解析処理では、文書画像から検出可能なこれらのレイアウトなどに係る条件との合致有無を定量的に自信度として求める。そして、自信度が所定の基準を満たす区間(2つの境界位置間)を文章の区分として特定する。例えば、各条件を満たすか否かによってそれぞれ点数が加算(減算)され、合計得点や相対的な指標値が基準を満たす範囲を区分として特定することができる。
【0051】
すなわち、複数の解析処理では、各々別個の基準に基づいて区分の特定及び評価(自信度の算出)を行い、当該自信度に基づいて、最終的な区分の範囲が決定(いずれかが選択)される。そのうちの一部、例えば、タイトルが区切り特定位置として設定されている場合におけるタイトルの長さ(文字数又はタイトルの先頭から末尾までの距離)、フォント種別及びフォントサイズなどについて、複数の解析処理で重複して評価されるものがあってもよい。また、特に、構造化文書では、文書のテキストデータ自体やその編集画面と、実際に出力される表示画像データとが同一のレイアウトになるとは限られない。また、表示画像データでは、別途指定がない限り、フォントサイズ、余白と表示出力対象(ディスプレイや印刷媒体など)などに応じて、文章中の適宜な位置で自動改行されてよい。
【0052】
図3の例では、例えば、構造解析では、タイトルに係るタグで記述されたタイトル文字列F1~F3よりも、テキスト内で改行されて記述されたタイトル文字列F11、F12、F21、F22、F31などのほうが、区分の先頭位置(境界位置)としてのもっともらしさが低くなるように評価基準を定めることができる。一方で、画像解析などでは、これらの場合にもっともらしさには大きな差が生じにくい。また、インデントで字下げされたタイトル文字列F11よりも、スペースで字下げされたタイトル文字列F21の方が、構造解析では区分の先頭位置としてのもっともらしさが低くなるように評価基準を定めることができる。一方で、画像解析などでは、これらの場合にもっともらしさに大きな差が生じにくい。なお、タイトル文字列F22、F31のように、字下げ自体がなされていないと、画像解析でも、もっともらしさが低くなり得る。
【0053】
なお、この
図3の例でも、論理区分は、節内の大区分に対し、その内部でさらに項目ごとに小区分に区分けされた入れ子構造(階層構造)となっている。検出されたタイトル中で「節」などと明示記載されている場合には、当該記述に基づいてどの階層のタイトルであるかが判断され得る。また、区分の節番号(記号を含む。以下同様)と項目番号が列記されている場合には、その番号に基づいて(例えば、「1-2」など)区分の階層が判断され得る。
【0054】
「節」など語の明示記載や、節番号などの明示がない場合には、タイトル文字列の大きさの相違や字下げ(インデント)の大きさの相違などが階層の判断に用いられてよい。また、小区分(下位階層)の1つ目(ここでは、各節の第1項)のタイトルは、節タイトル(上位階層のタイトル)の次の行に本文テキストを挟まずに設けられることが多い。このような特徴的な記述部分を検出することで、どの階層の区分タイトルであるかが判別されてもよい。
【0055】
この場合でも、番号が文書作成者により不適切に記述されている場合を考慮して、階層は、必ずしもタイトルの明示記載どおりに特定されなくてもよい。また、途中までは項目番号が明示されていたものが、明示されないものに変化されている場合でも、上述のタイトル文字列の大きさや字下げの大きさ、タイトルの内容などに基づいて、同一階層であると判断することが可能であってよい。
【0056】
構成の解析の際にいずれの階層の区分の(までの)特定を行うかについては、予め定められていてもよいし、端末装置40からの要求に応じて定められてもよい。すなわち、構成解析処理において、例えば、一つの階層(ここでは、「節」)での区分のみを特定することとしてもよいし、入れ子構造を考慮して複数の階層(ここでは、「節」及び「項」)の区分をいずれも特定することとしてもよい。なお、「節」の区分のみを特定する場合であっても、各種解析処理において、解析対象の文書が階層構造を有することが考慮されてよい。
【0057】
次に、複数の解析処理によってそれぞれ得られた区分のうち、適切なものを選択する動作について説明する。以降では、節タイトルに基づいて上記階層構造のうち単一の階層(「節」)の区分を特定する場合について説明する。
【0058】
図4は、各解析手法で特定された文章の論理区分(タイトルを区切り特定位置として特定される区分)と、当該区分の自信度(少なくともタイトルのもっともらしさに基づく自信度)とを示す例である。上述のように、文書データの解析範囲に対し、複数の手法で特定された区分の範囲がその自信度とともに取得される。例えば、
図4(a)に示すように、タグ解析により1ページの文書から3つの区分が特定され、それぞれの区分の自信度が80%、70%、70%と求められる。また、
図4(b)に示すように、テキスト解析により、3つの区分が特定され、それぞれの区分の範囲の自信度が70%、80%、80%と求められる。また、
図4(c)に示すように、画像解析により3つの区分が特定され、それぞれの区分の自信度が50%、60%、70%と求められる。
【0059】
これらのうち、先頭の区分の範囲は、タグ解析とテキスト解析では同一であり、画像解析では他の2つと異なっている。本実施形態の処理装置10では、これらのうち最も自信度の高い区分の範囲を選択して採用する。また、自信度が最大の複数の解析手法による区分が互いに異なる場合には、複数(3つ以上)の解析手法における多数決などで区分の範囲を選択してもよい。ここでは、自信度が最大(80%)のタグ解析による区分の結果(テキスト解析による結果とも等しい)が選択、採用される。
【0060】
次に、この先頭の区分の選択結果を踏まえ、当該先頭の区分の末尾(後端位置)以降を次に解析範囲として、論理区分の処理を繰り返す。単純に各区分で異なる選択結果を得ただけでは、異なる解析手法で特定されている区分の間に重複や隙間が生じ得るので、これらを生じさせないように区分の間の位置関係を調整して各区分を再度特定しながら、すなわち、ここでは、選択された後端位置に次の区分の先頭をあわせるように調整を行って順次処理を進める。
【0061】
図5は、文章の先頭の区分の範囲より後ろの部分について、各解析手法で特定された区分と、当該区分の自信度とを示す例である。解析対象の文章範囲のうち先頭の区分の末尾が確定すると、
図5(a)に示すように、タグ解析では、2番目の区分と3番目の区分の自信度がいずれも70%とされている。また、
図5(b)に示すように、テキスト解析では、2番目の区分の自信度が90%となり、3番目の区分の自信度が80%と求められている。また、
図5(c)に示すように、画像解析では、2番目の区分の自信度が80%となり、3番目の区分の自信度は70%と求められている。特定されている区分の境界位置は、
図4に示した1回目の位置から変更はない。すなわち、区分の先頭位置が固定されたことが自信度の変化に反映されている。
【0062】
自信度の変化は、2番目の区分の先頭位置(すなわち、先頭の区分の末尾)が確定されたことにより当該先頭位置の判断に係る不確実性が低下した(なくなった)ことによる。これにより、自信度には、2番目の区分の末尾の特定に係る不確実性が適切に反映され、より正確に2番目の区分の範囲を特定することが可能となる。
【0063】
これらを比較した結果、2番目の区分としては、自信度が最も高いテキスト解析によるもの(
図5(b))が選択される。この2番目の区分の範囲は、画像解析による区分の範囲(
図5(c))と同一であり、画像解析による区分の範囲(
図5(a))とは異なる。
【0064】
この2番目の区分の範囲が確定されると、2番目の区分の末尾が固定されるので、この3番目の区分の末尾以降を解析範囲として、さらに論理区分けの処理を行う。しかし、いずれの処理でも解析範囲は複数の区分に分割されないので、残りの解析範囲全体が3番目の区分として特定される。すなわち、文章全体でいずれか一つの解析による区分の結果が選択されるのではなく、区分ごとにそれぞれ独立に適切な解析結果が選択される。したがって、各区分の範囲が異なる解析結果により特定されることになってよい。
【0065】
上記では、節タイトル(表題)の前の位置を境界(区切り特定位置)として節といった論理区分の設定されるものとして説明したが、区分の境界の特定に係る設定(区分の境界に係る設定)は、これに限られない場合がある。例えば、区切り特定位置として、所定ページ数ごと(例えば各ページ)のページ末尾が設定されて、当該設定に基づく区分(設定済みのページレイアウト上の区分)が行われる場合には、タグ解析やテキスト解析では、改ページ設定が検出される。画像解析では、各ページの末尾が直ちに定まるので、当該末尾に対応するテキストが特定されればよい。
【0066】
また、区切り特定位置として、所定行数ごとの末尾が設定されて、当該設定に基づく区分(設定済みの行単位のレイアウト上の区分)が行われる場合には、例えば、タグ解析処理では、所定の表示様式に従い、フォントサイズごと一行ごとの標準表示文字数と出力フォントサイズの関係や、改行設定の有無などに応じて、表示上の行数を見積もればよい。また、テキストデータの改行がそのまま出力に反映される場合には、テキスト解析処理では、単純に改行の数が計数される。画像解析処理では、表示画像上の行数を計数して、末尾を特定すればよい。なお、構造化文書データやテキストデータにおいて、レイアウト上の処理が厳密になされていない場合データと実際の表示との間でずれが生じ得る。このようなずれは、例えば、句読点や小書きの文字の行末処理など推定可能なものについては、推定することで自信度を算出してもよい。ずれが累積的に重なって評価が難しい、あるいは推定自体が難しい場合などは、例えば、自信度とは別に、文書種別と解析手法との関係などに応じて解析手法自体に対する信頼度を設定し、自信度に信頼度を乗じるなどによって評価を算出してもよい。上述のようなレイアウト上の問題の場合には、画像解析の信頼度がタグ解析やテキスト解析よりも信頼度が高く設定されればよい。
【0067】
これら節タイトル、ページ末尾や所定行数末尾といった区切り特定位置の設定情報は、上述の区切り特定位置情報132として予め記憶部13に記憶されている。また、端末装置40から文書データ及び解析要求とともに区切り特定位置情報が取得されて、RAM112(記憶部13とともに本実施形態において区切り特定位置情報を記憶する記憶部の一部である)に一時的に保持されてもよい。制御部11は、この区切り特定位置情報に基づいて、区分の特定(区分の境界の特定)を行う。区切り特定位置情報が記憶部13とRAM112の両方に保持され得る場合には、いずれか一方、例えば、RAM112に記憶されたものが優先され、RAM112に設定が記憶されていない場合に区切り特定位置情報132の設定が参照、利用されればよい。
【0068】
あるいは、区切り特定位置の設定は、予め固定されていなくてもよい。文章構造の解析において、階層構造(入れ子構造)が特定された後、当該入れ子構造において所定の階層のもの、例えば、一番上の階層の区分タイトル前を区切り特定位置として動的に定めるように設定部としての制御部11により設定がなされてもよい。
【0069】
図6は、構成解析処理の制御部11による制御手順を示すフローチャートである。
この構成解析処理は、例えば、端末装置40から文書データとともに送信された構成解析要求に基づいて開始される。
【0070】
構成解析処理が開始されると、制御部11(CPU111)は、受信した文書データを取得する(ステップS101)。制御部11は、文章構成の解析範囲を設定する(ステップS102)。
【0071】
制御部11は、文書データのタグ解析処理を行う(ステップS103)。制御部11は、文書データのテキスト解析処理を行う(ステップS104)。制御部11は、文書データの画像解析処理を行う(ステップS105)。なお、ステップS103~S105の処理の順番は任意に変更可能である。あるいは、ステップS103~S105の処理は、同時並列的に実行されてもよい。
【0072】
制御部11は、構成選択処理を行う(ステップS106;選択ステップ、選択手段)。制御部11は、文書データの文章の最後まで構成の選択が終了したか否かを判別する(ステップS107)。構成の選択が最後まで終了していないと判別された場合には(ステップS107で“NO”)、制御部11の処理は、ステップS102に戻る。
【0073】
構成の選択が最後まで終了したと判別された場合には(ステップS107で“YES”)、制御部11は、全ての選択結果を集約する(ステップS108)。ここでは、制御部11は、単純に特定された区分の範囲を単純に配列すればよい。制御部11は、選択結果に基づいて出力データを生成する(ステップS109)。出力データの様式は、予め定められていてもよいし、構成解析要求とともに端末装置40から指定されてもよい。ここでは、例えば、出力データとして、各章、節、項目等のタイトルを必要に応じて番号を付して列挙したものを生成する。表示画像データに基づくページ番号や行番号などが付されてもよい。そして、制御部11は、構成解析処理を終了する。
【0074】
図7及び
図8は、構成解析処理で呼び出されるタグ解析処理、テキスト解析処理及び画像解析処理の制御手順を示すフローチャートである。
【0075】
タグ解析処理が呼び出されると、
図7(a)に示すように、制御部11は、解析対象の文書データが構造化文書のデータであるか(マークアップ言語で記述されているか)否かを判別する(ステップS201)。構造化文書ではないと判別された場合には(ステップS201で“NO”)、制御部11は、エラー出力をして(ステップS211)、タグ解析処理を終了し、処理を構成解析処理に戻す。
【0076】
文書データが構造化文書であると判別された場合には(ステップS201で“YES”)、制御部11は、タグを抽出する(ステップS202)。なお、文書と関係ないヘッダー部分のタグなどは、初めから抽出対象から除外されてもよい。制御部11は、タグの解析を行い、文章構造を特定する(ステップS203)。制御部11は、区切り特定位置情報に応じた文章の区切り位置を特定することで構成(区分)を特定する。上述のように、区切り特定位置情報を取得する代わりに、制御部11が文書構造に基づいて区切り特定位置を設定してもよい。また、制御部11は、特定結果の自信度を算出する(ステップS204)。このステップS204の処理は、後述の構成選択処理でまとめて行われてもよい。制御部11は、タグ解析処理を終了し、処理を構成解析処理に戻す。
【0077】
また、テキスト解析処理が呼び出されて開始されると、
図7(b)に示すように、制御部11は、解析対象の文書データがテキスト文書であるか否か(テキストデータの構造化文書を含む)を判別する(ステップS301)。テキスト文書ではないと判別された場合、すなわち、ここでは、文書の表示画像データであると判別された場合には(ステップS301で“YES”)、制御部11は、表示画像データから文字を読み取ってテキスト化を行う(ステップS311)。それから、制御部11の処理は、ステップS302に移行する。テキスト文書であると判別された場合には、制御部11の処理は、ステップS302に移行する。
【0078】
ステップS302の処理に移行すると、制御部11は、文書データからテキストを抽出する処理を行う(ステップS302)。すなわち、制御部11は、構造化文書のタグやテキスト文書のテキスト以外のもの(挿入画像など)を除外する。制御部11は、テキスト部分の解析を行う(ステップS303)。制御部11は、区切り特定位置情報に基づく文章の区切りを特定することで構成(区分)を特定する。区切り特定位置情報を取得する代わりに、制御部11が文書構造に基づいて区切り特定位置を設定してもよい。また、制御部11は、特定結果の自信度を算出する(ステップS304)。ステップS304の処理は、後述の構成選択処理でまとめて行われてもよい。制御部11は、テキスト解析処理を終了し、処理を構成解析処理に戻す。
【0079】
また、画像解析処理が呼び出されて開始されると、
図8に示すように、制御部11は、解析対象の文書データがテキスト文書であるか否かを判別する(ステップS401)。テキスト文書であると判別された場合には(ステップS401で“YES”)、制御部11は、文書データの表示データを生成して画像化する(ステップS411)。それから、制御部11の処理は、ステップS402へ移行する。文書データがテキスト文書データではない(文書の表示画像データである)と判別された場合には(ステップS401で“NO”)、制御部11の処理は、ステップS402へ移行する。
【0080】
ステップS402の処理へ移行すると、制御部11は、文書画像を解析する(ステップS402)。制御部11は、区切り特定位置情報に基づく文章の区切り位置を特定することで、区分を特定する(ステップS403)。区切り特定位置情報を取得する代わりに、制御部11が文書構造に基づいて区切り特定位置を設定してもよい。制御部11は、このとき、必要に応じて、区切り位置(境界位置)を特定して他の解析処理の結果と対応付けるためのテキスト(文字列)を表示画像データから抽出してよい。また、制御部11は、特定結果の自信度を算出する。ステップS403の処理は、後述の構成選択処理でまとめて行われてもよい。制御部11は、画像解析処理を終了し、処理を構成解析処理に戻す。
上記各解析処理のうち、ステップS202、S203、ステップS302、S303、及びステップS402の各処理が、本実施形態の文書構成解析方法(プログラム131)における解析ステップを構成する。
また、ステップS204、S304、S403の処理が特定ステップを構成する。
【0081】
図9は、構成解析処理で呼び出される構成選択処理の制御部11による制御手順を示すフローチャートである。
【0082】
構成選択処理が開始されると、制御部11は、区切り特定位置情報132を記憶部13から読み出して取得する(ステップS501)。区切り特定位置情報がRAM112に記憶されている場合には、制御部11は、当該区切り特定位置情報をRAM112から読み出してもよい。制御部11は、解析結果(及び特定されている場合には、各区分の特定結果)を各解析手法について各々取得する(ステップS502)。制御部11は、必ずしも全ての解析結果、特定結果を取得する必要はなく、解析範囲の先頭から区切り特定位置情報に基づく境界位置が確実に含まれる範囲、例えば、階層構造となっている区分において特定対象とされる階層の一つ上の階層又は一番上の階層の区分一つ分などが含まれる範囲を取得してもよい。
【0083】
制御部11は、各解析手法で特定された各区分について、各々自信度を算出する。ここでは、例えば、特定された区分内のタイトルのタイトルらしさと本文の本文らしさとをそれぞれ算出し、上述の各処理で求められた自信度を各々調整する(ステップS503)。上述の各処理で最終的な自信度が全て求められている場合には、ここで新たに算出する必要はない。反対に、各解析処理では自信度の算出が行われず、単純に区分の境界位置となり得ると判断された部分を特定し、ここで自信度が求められてもよい。さらには、タグ解析処理におけるステップS204の処理、テキスト解析処理におけるステップS304の処理及び画像解析処理におけるステップS403の処理が省略されている場合には、これらの処理をまとめてこのステップS503で行ってもよい。
【0084】
制御部11は、複数の解析手法により解析範囲内でそれぞれ最初に得られた区分のうち自信度が最も高い区分の範囲、すなわち、当該区分の末尾の境界位置を選択する(ステップS504)。制御部11は、当該区分の末尾の境界位置を次の解析範囲の先頭に設定する(ステップS505)。そして、制御部11は、構成選択処理を終了して処理を構成解析処理に戻す。このステップS505の処理は、上述の特定ステップに含まれ得る。
【0085】
[変形例1]
図10は、自信度の設定対象の変形例(変形例1)を示す図である。上記実施の形態では、区分の自信度を設定したが、ここでは、区分の境界位置(区切り位置)に対して自信度を設定する。区分の自信度では、上述のように、区分の先頭の境界位置及び区分の末尾の境界位置のもっともらしさの組み合わせによって自信度が変化するが、このように、当該境界位置のみの自信度が定められることで、上述のように、先頭から順番に境界位置を特定していく場合に比較が容易である。
【0086】
[変形例2]
図11は、上記実施形態の処理装置10で実行される構成選択処理の変形例(変形例2)を示すフローチャートである。この構成選択処理では、上記実施形態の構成選択処理におけるステップS504の処理がステップS511、S512の処理に置き換えられている。その他の処理内容は同一であり、同一の処理内容には同一の符号を付して詳しい説明を省略する。
【0087】
ステップS503の処理の後、制御部11は、算出された自信度が所定の基準値以下の解析結果を除外する(ステップS511)。制御部11は、残りの解析結果について、自信度で重み付けをした多数決に従って区分の境界位置を選択する(ステップS512)。すなわち、ここでは、3種類の解析結果のうち1つが除外された場合、残りの二つのうち、自信度が高いほう(すなわち、最も自信度が高いもの)が選択される。一方で、3種類の解析結果のいずれも除外されなかった場合には、最も自信度が高い境界位置が他の2つの解析結果で得られた共通の境界位置と異なる場合に、共通の境界位置が選択される場合がある。なお、重み付けは、単純にそれぞれ均等であってもよい。それから、制御部11の処理は、ステップS505に移行する。
【0088】
図12は、特定された区分数が解析手法ごとに異なる場合の特定例を示す図である。複数の解析手法により特定された区分数は、解析範囲内で互いに異なる場合があり得る。
【0089】
例えば、ある解析手法(一の手法)で特定されている直近の境界位置(
図12(a)の境界位置a1)まで(あるいは、単一の区分内(一の単位区分の範囲、これらに基づいて特定され得る区分の範囲内を含んでよい)に、他の解析手法(他の手法)により複数の境界位置(
図12(b)の境界位置b1、b2、及び
図12(c)の境界位置c1、c2)が特定されている(あるいは、複数の区分が特定されている)場合には、当該他の解析手法の境界位置については、一の解析手法では境界位置として特定されていない(例えば、
図11のステップS511で、境界位置の自信度が基準値以下)と判断して選択処理を行うこととしてよい。また、ステップS511の判別処理で、全ての解析結果が除外された場合には、選択対象として特定されている境界位置のいずれも選択されないこととしてよい。すなわち、いずれか一部の解析手法でのみ特定されている区分の境界位置については、境界位置として特定するか否か自体が判断され得る。このような調整が行われないと、境界位置a1、b1、c1が比較され、次に境界位置a2、b2、c2が比較され、さらに、境界位置a3、b3、c3が比較されることになる。すなわち、それぞれ、本来対応しない境界位置同士の比較となって不自然な結果が生じる。また、境界位置b4、c4に対応するタグ解析に係る境界がなくなる。
【0090】
[変形例3]
図13~
図15は、上記実施形態の処理装置10で実行される構成解析処理の変形例(変形例3)及び当該変形例の構成解析処理で呼び出される構成選択処理の制御部11による制御手順を示すフローチャートである。
【0091】
図13に示す構成解析処理は、
図7に示した上記実施形態の構成解析処理と比較して、ステップS107の処理で“NO”に分岐した場合の戻り先の処理がステップS102からステップS106に変更されている点のみが異なる。すなわち、タグ解析処理、テキスト解析処理及び画像解析処理は、解析範囲についてそれぞれ一度だけ行われる。
【0092】
図14は、この変形例3の構成解析処理で呼び出されて実行される構成選択処理における境界位置の選択と当該選択に係る処理について説明する図である。
【0093】
本実施形態の構成選択処理では、解析範囲の先頭から順に、それぞれ複数の解析手法で特定された境界位置から一つが選択されていく。このとき、
図14(a)に示すように、選択されなかった解析手法で特定されていた境界位置が選択された境界位置(太線)よりも前にある場合(選択されなかった範囲が選択された範囲と異なるものがある場合)には、次の区分の範囲が短縮されることになる。一方、
図14(b)に示すように、選択されなかった境界位置が選択された境界位置(太線)よりも後ろにある場合(選択されなかった範囲が選択された範囲と上記に対して反対方向に異なるものがある場合)には、先の区分の範囲のうち、特定された境界位置より後ろ側一部が分離されることになる。これらの範囲の(特定の結果の)調整がなされて再度特定された部分(短縮された区分の範囲や分離された区分の範囲)の自信度は、当該範囲の調整時に併せて新たに設定(調整)される。この自信度は、単純にもとの属していた区分の自信度であってもよいし、前後の区分の自信度が考慮されてもよい。あるいは、区分の境界位置を定めた状態で当該区分の自信度を算出し直してもよい。ここでは、
図14(a)に示す例では、もとの区分(2番目)の範囲の自信度が60%であったのに対し、分離された残りの部分の自信度が80%に変化している。また、
図14(b)に示す例では、元の区分(先頭)の範囲の自信度が50%であり、分割された残りの区分の範囲の自信度も50%のままである。この段階では、3番目の区分の範囲には影響はなく、自信度は
図14(a)、(b)ともに70%のままである。
【0094】
図15は、変形例3の構成解析処理で呼び出されて実行される構成選択処理の制御部11による制御手順を示すフローチャートである。この構成選択処理は、上記実施形態(
図10)の構成選択処理と比較して、ステップS521~S523の処理が追加され、また、ステップS505の処理がステップS524の処理に置き換えられている。その他の処理内容は同一であり、同一の処理内容には同一の符号を付して詳しい説明を省略する。
【0095】
制御部11は、ステップS504の処理で境界位置を選択すると、制御部11は、選択された境界位置とは異なる境界位置を特定していた解析結果があるか否かを判別する(ステップS521)。
【0096】
選択された境界位置と異なる境界位置を特定した解析結果があると判別された場合には(ステップS521で“YES”)、区分先頭の境界位置が変更される当該区分の新たな自信度を設定する(ステップS522)。それから、制御部11の処理は、ステップS523に移行する。区分が分割される解析結果がないと判別された場合には(ステップS521で“NO”)、制御部11の処理は、ステップS523に移行する。
【0097】
ステップS523の処理に移行すると、制御部11は、解析範囲内の境界位置を探索終了したか否か(すべての境界位置が選択対象とされたか否か)を判別する(ステップS521)。探索を終了したと判別された場合には(ステップS521で“YES”)、制御部11は、構成選択処理を終了して処理を構成解析処理に戻す。
【0098】
探索を終了していないと判別された場合には(ステップS523で“NO”)、制御部11は、次の解析範囲の先頭を直近のステップS504の処理で選択された境界位置に変更設定する(ステップS524)。それから、制御部11の処理は、ステップS504に戻る。
【0099】
以上のように、本実施形態の処理装置10(文書解析装置)は、制御部11を備える。制御部11は、解析部として、複数の解析手法(ここでは、タグ解析処理、テキスト解析処理及び画像解析処理)で文章の構成をそれぞれ解析し、特定部として、文章の構成に係る所定の区分(ここでは、節タイトルを基準とした節単位)ごとに、上記複数の解析手法で区分の範囲をそれぞれ特定する。また、制御部11は、選択部として、上記複数の解析手法による解析の結果に基づいて、区分ごとに、複数の解析手法でそれぞれ特定された区分の範囲のうちいずれかを選択する。
このように、複数の解析手法を併用することで、文書の種別に応じてより正確に区分を特定しやすくなる。そして、区分ごとに適切な手法で得られた区分の範囲を選択することで、文章に一貫性がなかったり、文章の途中で記載の態様が変わったりといった場合、特に、非公式な文書や不特定多数への公開を前提としていない内部文書などにおいて、誤判定を低減し、安定して適切な単位区分の範囲が特定しやすくなる。また、特に、単一の解析方法を前提として高度に判定基準や設定を複雑化、向上させなくてもよいので、処理やメンテナンスの手間及びコストを削減しやすい。したがって、この処理装置10では、より適切に文書の構成を判別することができる。
そして、このように適切に構成を判別することで、区分ごとにタイトル、概要や重要な用語などを効果的に抽出し、文書を整理したり要点を確認したりすることが可能となる。特に、重要な用語の抽出(データマイニング)などで、テキストと本文とを分離することで、バイアスやノイズの発生を防ぎ、より精度のよい処理が可能になる。
【0100】
また、制御部11は、特定部として、複数の手法でそれぞれ特定された区分の範囲ごとに、当該範囲の特定の結果に係る確実性の度合として自信度を算出する。制御部11は、選択部として、自信度に基づいて単位区分の範囲の選択を行う。
このように、各手法で特定した区分の評価を定量的に行って好ましい手法を各々選択することで、容易かつより確実に正確な文章構成を得ることができる。
【0101】
また、制御部11は、選択部として、区分ごとに、複数の手法のうち自信度が最も高い範囲を選択する。このように単純に最も正確に区分の範囲の特定が行われていると思われる手法による区分の特定範囲を用いることで、処理を複雑化せずに効率よく文章構成を得ることができる。
【0102】
また、制御部11は、特定部として、単位区分の範囲に係るタイトルをそれぞれ特定し、当該特定されたタイトルのもっともらしさに基づいて確実性の度合を算出する。多くの文書では、論理区分の先頭にタイトルが設けられているので、このタイトルが特定対象の論理区分の先頭に設けられるタイトルとしてどの程度適切であるかを判断することで、論理区分をより正確に行うことができる。そして、タイトルは、構造的な特徴、すなわち、タグで明示されるようなもの、字句的な特徴、すなわち、当該論理区分内の代表的な語を短く示すもの、及び表示的な特徴、すなわち、太字であったり字下げがなされていたり上下にスペースが設けられていたりするもの、を兼ね備えることが多いものの、絶対的な条件ではないので、これらを並行して検出し、各々評価して確実性の高いものを選択することで、より安定して確実に論理区分の判定を行うことが可能となる。本文らしい表示には、通常の文章のほか、箇条書きや引用などが含まれていてよい。
【0103】
また、制御部11は、特定部として、区分の範囲をタイトルと本文とに分類して特定し、当該特定されたタイトルのもっともらしさ及び本文のもっともらしさに基づいて自信度を算出する。すなわち、タイトルだけではなく、タイトルと本文とを相対的及び/又は並列的に評価することで、より安定して確実に論理区分の判定を行うことができる。
【0104】
また、変形例2では、複数の手法としては、3種類以上が用いられ、制御部11は、選択部として、区分ごとに、複数の手法により特定された区分の範囲による多数決に従って選択する。すなわち、複数の同一の特定結果をより重視することで、特に、いずれの解析手法でも自信度が十分に高くない場合などでも、より適切に特定結果の正確性が維持される。
【0105】
また、複数の手法には、テキスト解析が含まれる。文章内のタイトルと本文との表現的特徴の違いなどから論理区分の同定がされるので、見た目やフォーマットの無視や不統一などによらずに実質的な区分を特定することができる。
【0106】
また、複数の手法には、文章を含む文書の表示画像データを用いた画像解析が含まれる。例えば、内部文書などでは、書式を厳密に統一せずに見た目をある程度そろえて出力することも多いので、このような場合に容易に文書作成者が意図した論理区分の範囲を特定することができる。
【0107】
また、文章が構造化文書として記述されている場合には、制御部11は、特定部として、当該文章のタグ解析を含む複数の手法により文章の構成を解析する。構造化文書では、タイトルや本文の種別が明確に規定されていることが多いので、これらを考慮することで、タイトルとして記載された部分を明確に識別することができる。一方で、文書作成者が意図しないで見かけ上では違和感のない不正確なタグを利用してしまうこともあるので、他の解析手法と組み合わせることで、不正確なタグ位置の特定を避けやすい。
【0108】
また、制御部11は、特定部として、前記選択された各単位区分の範囲間で隙間が生じたり、重複が生じたりししないように、当該各区分の範囲間の位置関係を調整して前記各単位区分の範囲を再度特定する。すなわち、異なる解析手法で異なる区分範囲が設定されている場合に、単純に各々から区分の範囲が選択されると、区分の範囲間の隙間が生じたり、重複が生じたりする場合がある。制御部11では、このような状況が生じないような処理で区分の範囲を特定し、また、選択していくことで、適正に一つながりの区分の判定が行われる。これにより、適正に区分ごとに必要な情報を抽出、整理することができる。
【0109】
また、制御部11は、選択部として、当該制御部11において解析された文章範囲のうち先頭の単位区分について選択を行い、特定部として、選択がなされた単位区分の後端位置が解析範囲の末尾ではない場合には、後端位置以降を次の解析対象の解析範囲として、解析を繰り返す。
このように前から順番に区分範囲を特定し、範囲が決定されるごとに当該決定範囲を除外して各解析手法による区分をやり直すので、確定していない部分についてより適切に自信度を定義することができる。また、境界位置が異なる他の区分をそのまま残しておかないので、容易かつ適切に一つながりの複数の区分を特定することができる。
【0110】
また、制御部11は、特定部として、選択がなされなかった区分の範囲に選択がなされた区分の範囲と異なるものがある場合には、選択がなされた区分の範囲に基づいて、選択がなされなかった区分の範囲を調整する。すなわち、区分ごとに異なる解析手法に基づく特定範囲を選択する場合に、不連続となったり重複したりする部分が出ないように、逐次調整していくので、適切に一つながりの複数の区分を特定することができる。
【0111】
また、変形例3に示した例では、制御部11は、特定部として、上記のように調整された範囲の自信度を併せて調整する。すなわち、他の解析手法による区分の境界位置が修正されることで、修正されない境界位置に係る自信度のみを算出すればよいことになるので、これに応じてより適切に評価を比較して確実性の高い区分を順次特定していくことができる。
【0112】
また、変形例2に示したように、制御部11は、特定部として、一の解析手法により特定された一の区分の範囲に、他の解析手法により複数の区分が特定されている場合には、解析の結果に基づいて一の区分の範囲に複数の区分を特定するか否かを決定する。すなわち、各解析手法で特定された区分の数が異なるような場合に、他の全ての解析手法と対応する位置に境界位置が特定されていない解析手法がある部分については、当該部分にそもそも境界位置があるか否かの判別を行うこととすることができる。これにより、不要な区分の境界位置が同定される可能性を低減させることができる。また、複数の解析手法間で対応しない区分間で比較するような状況を避けることができる。
【0113】
また、区分の境界に係る設定である区切り特定位置情報132記憶する記憶部13(RAM112を含み得る)を備え、制御部11は、特定部として、この設定に基づいて区分の境界を特定する。すなわち、予め定められた区切り特定位置情報132に基づいて所望の区切りでの区分を容易に行うことができる。
【0114】
また、制御部11は、設定部として、区切り特定位置の設定を行う。制御部11は、特定部として、この設定に基づいて区分の境界位置を特定する。すなわち、例えば、階層構造を有する構成の文章を論理区分により区分する場合に、制御部11が適切な区分の階層を設定することが可能である。すなわち、処理装置10では、用途などに応じた柔軟な区分の特定を行うことができる。
【0115】
また、区切り特定位置の設定には、区分に係るタイトルの前の位置が含まれる。すなわち、タイトルを基準として区分をそれぞれ特定するように設定を行うことができる。これにより、容易かつ確実に論理区分を特定することができる。
なお、複数階層で構成された文章の下位階層で区分を行う場合、上位階層のタイトルは、当該上位階層における先頭の下位階層のタイトルとともに当該下位階層の最初の区分に含めるようにしてよい。
【0116】
また、区切り特定位置の設定には、解析範囲の文章を含む文書データがページレイアウトの設定済みである場合における所定ページ数ごとのページ末尾が含まれ得る。このように、章や節単位で論理区分を行う場合だけではなく、表示出力の様式に応じた区分を行うことも可能である。すなわち、文章整理や要点抽出などの処理に係る所望の方向性に応じて多様に文章構成の区切りを行うことができる。
【0117】
また、区切り特定位置の設定には、解析範囲の文章を含む文書データが行単位でのレイアウトの設定済みである場合における所定の行数ごとの末尾が含まれ得る。上記ページ末尾と同様に、表示出力の様式に応じた多様な区分を行って、文章の整理などに適切に用いることができる。
【0118】
また、本実施形態の処理装置10の文書構成解析方法は、複数の解析手法で文章の構成をそれぞれ解析する解析ステップ、解析の結果に基づいて、文章の構成に係る所定の単位区分ごとに、複数の手法で当該単位区分の範囲をそれぞれ特定する特定ステップ、複数の解析手法による解析の結果に基づいて、区分ごとに、複数の解析手法でそれぞれ特定された区分の範囲のうちいずれかを選択する選択ステップ、を含む。このような方法で文書解析を行うことで、文書の種別によらず、特に、非公式な文書などで必ずしも統一的かつ正確な様式で記載されていないようなものであっても、容易かつより精度よく文章の構成を判断することができる。
【0119】
また、プログラム131は、コンピューター(処理装置10)に、複数の解析手法で文章の構成をそれぞれ解析する解析ステップと、解析の結果に基づいて、文章の構成に係る所定の単位区分ごとに、複数の手法で当該単位区分の範囲をそれぞれ特定する特定ステップと、複数の解析手法による解析の結果に基づいて、区分ごとに、複数の解析手法でそれぞれ特定された区分の範囲のうちいずれかを選択する選択ステップと、を実行させる。このように、上述の処理をプログラムによりCPUがソフトウェア的に実行可能とすることで、特別なハードウェア構成を必要とせずに容易に幅広い状況で本発明に係る処理を行って、文章の構成を判断することができる。
【0120】
[第2実施形態]
次に、第2実施形態の文章構成解析システムについて説明する。
【0121】
図16は、本実施形態の文章構成解析システム1aの全体構成を示す図である。本実施形態の文章構成解析システム1aでは、処理装置10に加えて、処理装置10a~10cがネットワークに接続されている。また、文章構成解析システム1aには、端末装置40を複数接続可能となっており、ここでは、2台が図示されている。
【0122】
図17は、文章構成解析システム1aのうち文書解析処理を行う部分の機能構成を示すブロック図である。処理装置10と処理装置10a~10cとは配線により接続されている。これらの複数の処理装置10、10a~10cは、例えば、LAN内などに設けられてLANケーブルにより接続されている。
【0123】
ここでは、処理装置10、10a~10cには、それぞれ機能が分割されている。処理装置10は、構成解析処理の統括処理を行う。処理装置10aは、タグ解析処理制御部11aと、通信部12aと、記憶部13aなどを備え、タグ解析処理制御部11aが記憶部13aに記憶されたプログラムを実行して、タグ解析処理を専門に行う。処理装置10bは、テキスト解析処理制御部11bと、通信部12bと、記憶部13bなどを備え、テキスト解析処理制御部11bが記憶部13bに記憶されたプログラムを実行して、テキスト解析処理を専門に行う。処理装置10cは、画像解析処理制御部11cと、通信部12cと、記憶部13cなどを備え、画像解析処理制御部11cが記憶部13cに記憶されたプログラムを実行して、画像解析処理を専門に行う。
【0124】
個別解析部(異なるPC内部にあって独立に動作するものであってよい)としてのタグ解析処理制御部11a、テキスト解析処理制御部11b、及び画像解析処理制御部11cは、それぞれ、CPU及びRAMを備え、処理内容を定めるプログラムに応じて各処理を行えばよい。CPUの能力やRAMの容量は、それぞれの処理に応じて適宜に調整されていてもよい。あるいは、負荷の大きさなどに応じてこれらのうち一部が複数設けられていてもよい(すなわち、それぞれ少なくとも一つずつ設けられている)また、タグ解析処理制御部11a、テキスト解析処理制御部11b及び画像解析処理制御部11cは、それぞれが実行制御する各処理に適した専用のハードウェアなどを併せて有していてもよい。
【0125】
処理装置10の制御部11は、端末装置40から取得した解析要求に基づいて、通信部12を介して解析対象の文書データを処理装置10a~10c(通信部12a~12c)に送信し、各々に処理動作とその結果を要求する。
【0126】
図18は、本実施形態の処理装置10で実行される構成解析処理の制御部11による制御手順を示すフローチャートである。この構成解析処理は、上記実施形態で示した構成解析処理に対し、ステップS103~S105の処理がそれぞれステップS103a~S105aの処理に置き換えられた点を除き同一である。同一の処理内容には同一の符号を付して、詳しい説明を省略する。
【0127】
ステップS102の処理の後、制御部11は、処理装置10aのタグ解析処理制御部11aに対し、タグ解析処理を要求する(ステップS103a)。制御部11は、処理装置10bのテキスト解析処理制御部11bに対し、テキスト解析処理を要求する(ステップS104a)。制御部11は、処理装置10cの画像解析処理制御部11cに対し、画像解析処理を要求する(ステップS105a)。制御部11は、タグ解析処理制御部11a、テキスト解析処理制御部11b及び画像解析処理制御部11cからそれぞれ解析の結果を取得すると、処理をステップS106に移行させる。
【0128】
ステップS103a~S105aの処理の順番は、任意である。また、これらの処理は同時並列的になされてもよい。また、複数の端末装置40などから複数の文書(文章)の構成に係る解析の要求がある場合、処理装置10a~10cは、これらを並列に処理してもよいし、一つずつ順番に(直列に)処理を行ってもよい。また、このとき、特定の処理、例えば、画像解析処理が他の処理(タグ解析処理及びテキスト解析処理)よりも負荷が大きくなる場合には、文章構成解析システム1aは、当該特定の処理(画像解析処理)を行う処理装置10cを複数台有し、複数の要求に係る画像解析処理を当該複数の処理装置10cに順番に割り振って行わせてもよい。
【0129】
以上のように、文書解析装置の第2実施形態に対応する文章構成解析システム1aでは、制御部として、複数の解析手法のいずれかで文章の構成を解析するタグ解析処理制御部11a、テキスト解析処理制御部11b及び画像解析処理制御部11cをそれぞれ少なくとも一つずつ有する(異なる処理装置内に設けられていてよい)。すなわち、処理種別ごとに制御部を分散させることで、各処理を効率よく行わせることができる。また、制御部のCPUやメモリー(RAM)などを処理内容に合わせて適切に設けることができる。
【0130】
[第3実施形態]
次に、第3実施形態の文章構成解析システムについて説明する。
【0131】
図19は、第3実施形態の文章構成解析システム1bのうち文書解析処理を行う部分の機能構成を示すブロック図である。処理装置10及び複数(ここでは3つ)の処理装置10d~10fが配線により接続されている。これらの複数の処理装置10、10d~10fは、例えば、LAN内などに設けられてLANケーブルにより接続されている。
【0132】
処理装置10の構成は、第1実施形態の処理装置10の構成と同一である。また、第2実施形態とは異なり、ここでは、3つの処理装置10d~10fが実行可能な解析処理は、特に制限されていない。処理装置10dは、個別解析制御部11dと、通信部12dと、記憶部13dなどを備える。処理装置10eは、個別解析制御部11e、通信部12eと、記憶部13eなどを備える。処理装置10fは、個別解析制御部11f、通信部12fと、記憶部13fを備える。個別解析制御部11d~11fは、各々、タグ解析処理、テキスト解析処理及び画像解析処理のいずれも実行可能となっている。
【0133】
処理装置10は、構成解析処理の統括処理を行う。処理装置10は、構成解析の要求が取得されると、各処理装置10d~10fのうち、いずれの処理も行っていないもの、最も早く処理が終了すると見込まれるもの、又は現在の負荷が最も軽いものなどから順番に処理を割り振る。処理の割り振りは、例えば、タグ解析処理、テキスト解析処理及び画像解析処理のうち最も負荷の大きいものから順番に行われるように設定することができる。
【0134】
図20は、本実施形態の処理装置10で実行される構成解析処理の制御部11による制御手順を示すフローチャートである。この構成解析処理では、第1実施形態の構成解析処理におけるステップS102の処理の後にステップS111の処理が追加され、また、ステップS103~S105の処理の代わりにステップS103b~S105bが行われる。その他の処理は第1実施形態で実行される構成解析処理と同一であり、詳しい説明を省略する。
【0135】
ステップS102の処理の後、制御部11は、各処理の要求先の処理装置を設定する(ステップS111)。制御部11は、RAM112などに各処理装置10d~10fへの処理の依頼要求及びその状況に係る情報を一時記憶させておき、当該情報に基づいて、タグ解析処理、テキスト解析処理及び画像解析処理の要求先の処理装置を定める。
【0136】
制御部11は、タグ解析処理の要求先として設定された処理装置に対し、タグ解析処理の要求を行う(ステップS103b)。制御部11は、テキスト解析処理の要求先として設定された処理装置に対し、テキスト解析処理の要求を行う(ステップS104b)。制御部11は、画像解析処理の要求先として設定された処理装置に対し、画像解析処理の要求を行う(ステップS105b)。ステップS103b~S105bの処理の順番は、任意でよく、あるいは、同時並列的に行われてもよい。また、各処理装置10d~10fにおける他の処理の進行状況に応じて適切なタイミングで各処理が実行されてもよい。
【0137】
制御部11は、各処理装置から解析結果を取得して、処理をステップS106に移行させる。
【0138】
以上のように、文書解析装置の第3実施形態に対応する文章構成解析システム1aでは、制御部として、複数の解析手法のうち指定に応じた任意のいずれかにより文章の構成を解析する個別解析制御部11d~11fを複数の解析手法の数(ここでは3つ)以上有する。これにより、各個別解析制御部11d~11fの負荷に応じて随時処理を分散させて効率よく処理を行うことができる。特に、複数の端末装置40などから複数の処理要求が随時取得されるような場合に、処理負荷を集中させずに効率よく処理を行わせることができる。
【0139】
なお、本発明は、上記実施の形態に限られるものではなく、様々な変更が可能である。
例えば、上記実施の形態では、全て処理装置10(10a~10fを含む)によって境界位置(区分)の特定が行われることとしたが、十分な精度で決めきれない場合には、当該部分について手動選択を要求する出力を行って、手動選択の結果に応じた処理を行う部分が含まれていてもよい。この場合、例えば、問題となる部分を含む範囲の表示画像を境界位置の候補とともに示して端末装置40へ送り、選択に係る入力操作を検出した当該端末装置40からの検出結果に係る情報に基づいて処理装置10が特定する処理を行う。
【0140】
また、上記実施の形態では、タグ解析と、テキスト解析と、画像解析を用いることとして説明したが、他の解析処理が含まれてもよい。また、タグ解析において文書データ以外の設定データファイルが必要な場合には、当該設定データファイルを参照、解析してよい。
【0141】
また、上記実施の形態では、タイトルに基づいて論理区分を特定するものとして説明したが、タイトルに限らず、区切り線やスペースなどが本文を区切る境界として考慮されてもよい。
【0142】
また、上記実施の形態では、文章しか考慮しないこととしたが、特に画像解析などでは、埋め込み画像の配置、内容やその見出し説明なども考慮に含めてもよい。
【0143】
また、文書の解析は、文書全体に対して行われる必要はなく、解析範囲が文書の一部に対してのみ設定されてもよい。また、解析範囲が長い場合に、解析範囲を文書に対して徐々に後方にスライドさせていってもよい。あるいは、章末位置などの固定された区切り位置の情報を予め端末装置40から送信させて取得し、章単位で順番に、節単位の論理区分の特定を行ってもよい。
【0144】
また、上記実施の形態では、解析範囲の先頭から順番に区分の範囲が特定されることとしたが、これに限られない。解析範囲の中で自信度が高い区分の範囲や境界位置が優先的に定められて、その後、その間の区分の範囲や境界位置が順次決定されていくこととされてもよい。このような場合には、特に、優先的に特定された区分や境界に係るタイトルの評価結果に応じて残りのタイトルの特定に係る自信度の評価基準を変更していくことで、より評価精度を向上させることとしてもよい。
【0145】
また、上記実施の形態では、制御部11がCPU111により全てソフトウェア的に解析、過積載の判定処理を行うこととしたが、例えば、一部の処理を専用のハードウェア回路などにより行わせる構成であってもよい。
【0146】
また、以上の説明では、本発明に係る制御部11の処理動作に係るプログラム131のコンピューター読み取り可能な媒体としてフラッシュメモリーやHDDなどの記憶部13を例に挙げて説明したが、これに限定されない。その他のコンピューター読み取り可能な媒体として、CD-ROMやDVDディスクなどの可搬型記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを通信回線を介して提供する媒体として、キャリアウェーブ(搬送波)も本発明に適用される。
その他、上記実施の形態で示した具体的な構成、動作の内容や手順などは、本発明の趣旨を逸脱しない範囲において適宜変更可能である。
【符号の説明】
【0147】
1、1a、1b 文章構成解析システム
10、10a~10f 処理装置
11 制御部
11a タグ解析処理制御部
11b テキスト解析処理制御部
11c 画像解析処理制御部
11d~11f 個別解析制御部
12、12a~12f 通信部
13、13a~13f 記憶部
131 プログラム
132 特定位置情報
40 端末装置