特開2024-66648 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱重工業株式会社の特許一覧

特開2024-66648文書データ処理装置、文書データ処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024066648

(43)【公開日】2024-05-16

(54)【発明の名称】文書データ処理装置、文書データ処理方法、及びプログラム

(51)【国際特許分類】

G06F 40/177 20200101AFI20240509BHJP

【ＦＩ】

G06F40/177

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2022176197

(22)【出願日】2022-11-02

(71)【出願人】

【識別番号】000006208

【氏名又は名称】三菱重工業株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100162868

【弁理士】

【氏名又は名称】伊藤英輔

(74)【代理人】

【識別番号】100161702

【弁理士】

【氏名又は名称】橋本宏之

(74)【代理人】

【識別番号】100189348

【弁理士】

【氏名又は名称】古都智

(74)【代理人】

【識別番号】100196689

【弁理士】

【氏名又は名称】鎌田康一郎

(72)【発明者】

【氏名】杉森文亮

(72)【発明者】

【氏名】今岡裕子

(72)【発明者】

【氏名】後藤良介

【テーマコード（参考）】

5B109

【Ｆターム（参考）】

5B109PB01

(57)【要約】

【課題】文書データに示されている表に含まれる個々のセルが矩形形状の線で囲まれるようにする。
【解決手段】文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した水平線と、垂直線との交点の座標である交点座標を検出する。交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の頂点除外交点座標と同一である頂点除外交点座標を表構成交点座標として検出する。表構成交点座標を経由する水平線の両端のＸ座標値の２つの垂直線と、表構成交点座標を経由する垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する。表候補領域から表領域を生成する。表領域の最大及び最小のＹ座標値の２つの水平線と、表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、文書データに対して罫線を追加する。
【選択図】図１

【特許請求の範囲】

【請求項1】

直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出部と、
前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出部と、
前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出部と、
前記表候補領域から表領域を生成する表領域生成部と、
前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データに対して罫線を追加する罫線追加部と、
を備える文書データ処理装置。

【請求項2】

前記表領域生成部は、
前記表候補領域が複数存在する場合、共通の重複領域を含む前記表候補領域を囲む最小の矩形領域を新たな表候補領域とすることを繰り返し行い、前記重複領域が存在しなくなった際に存在する前記表候補領域の各々を前記表領域とする、
請求項１に記載の文書データ処理装置。

【請求項3】

前記表候補領域検出部は、
前記表構成交点座標の数が、２個以上である場合、前記表候補領域の検出を行う、
請求項１または請求項２に記載の文書データ処理装置。

【請求項4】

直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出部と、
複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成部と、
前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出部と、
前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データに追加する垂直方向罫線追加部と、
前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データに追加する水平方向罫線追加部と、
を備える文書データ処理装置。

【請求項5】

前記テキストブロック検出部は、文字と文字の間に１スペースがある場合には、文字が連続しているとみなして、Ｘ軸方向に連続する文字の範囲の各々を前記テキストブロックとして検出する、
請求項４に記載の文書データ処理装置。

【請求項6】

前記行番号リストの最初と最後の行番号の間に存在する全ての前記行番号に関連付けられている前記テキストブロックのいずれかに所定の表区切り文字を含むテキストブロックが存在する場合、当該テキストブロックに関連付けられている前記行番号の前後で、前記行番号リストを分割し、分割した前記行番号リストの各々を新たな行番号リストとする行番号リスト分割部
を備える請求項４に記載の文書データ処理装置。

【請求項7】

前記行番号リスト分割部は、分割により最終的に得られた前記行番号リストのうち、要素として含まれる前記行番号の数が、３個以上の前記行番号リストを選択し、３個未満の前記行番号リストを破棄する、
請求項５に記載の文書データ処理装置。

【請求項8】

前記同一列テキストブロック群検出部は、
前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックの中から前記テキストブロックの所定位置のＸ座標値が一致する前記テキストブロックを、前記行番号リストごとに検出し、検出した前記テキストブロックの組み合わせを前記同一列テキストブロック群とする、
請求項４から請求項７のいずれか一項に記載の文書データ処理装置。

【請求項9】

前記垂直方向罫線追加部は、
前記同一列テキストブロック群ごとに、前記同一列テキストブロック群に含まれる前記テキストブロックにおける最小のＸ座標値の垂直線を前記垂直方向の罫線として前記文書データに追加すると共に、１つの前記行番号リストから検出された全ての前記同一列テキストブロック群に含まれる前記テキストブロックにおける最大のＸ座標値を、前記行番号リストごとに検出し、検出した前記最大のＸ座標値の各々に対応する垂直線を前記垂直方向の罫線として前記文書データに追加する、
請求項４に記載の文書データ処理装置。

【請求項10】

前記垂直方向罫線追加部は、
前記同一列テキストブロック群ごとに、前記同一列テキストブロック群に含まれる前記テキストブロックにおける最大のＸ座標値の垂直線を前記垂直方向の罫線として前記文書データに追加すると共に、１つの前記行番号リストから検出された全ての前記同一列テキストブロック群に含まれる前記テキストブロックにおける最小のＸ座標値を、前記行番号リストごとに検出し、検出した前記最小のＸ座標値の各々に対応する垂直線を前記垂直方向の罫線として前記文書データに追加する、
請求項４に記載の文書データ処理装置。

【請求項11】

前記垂直方向罫線追加部は、
前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最大と最小のＹ座標値を、前記行番号リストごとに検出し、検出した前記最大と最小のＹ座標値の組み合わせの各々を、各々に対応する前記垂直線の始点と終点のＹ座標値とする、
請求項９または請求項１０に記載の文書データ処理装置。

【請求項12】

前記水平方向罫線追加部は、
前記行番号リストに含まれる前記行番号の各々に対応するＹ座標値を、当該行番号に関連付けられている前記テキストブロックにおける最小のＹ座標値とし、前記行番号の各々に対応するＹ座標値の水平線を前記水平方向の罫線として前記文書データに追加すると共に、１つの前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最大のＹ座標値を、前記行番号リストごとに検出し、検出した前記最大のＹ座標値の各々に対応する水平線を前記水平方向の罫線として前記文書データに追加する、
請求項４に記載の文書データ処理装置。

【請求項13】

前記水平方向罫線追加部は、
前記行番号リストに含まれる前記行番号の各々に対応するＹ座標値を、当該行番号に関連付けられている前記テキストブロックにおける最大のＹ座標値とし、前記行番号の各々に対応するＹ座標値の水平線を前記水平方向の罫線として前記文書データに追加すると共に、１つの前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最小のＹ座標値を、前記行番号リストごとに検出し、検出した前記最小のＹ座標値の各々に対応する水平線を前記水平方向の罫線として前記文書データに追加する、
請求項４に記載の文書データ処理装置。

【請求項14】

前記水平方向罫線追加部は、
前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最大と最小のＸ座標値を、前記行番号リストごとに検出し、検出した前記最大と最小のＸ座標値の組み合わせの各々を、各々に対応する前記水平線の始点と終点のＸ座標値とする、
請求項１２または請求項１３に記載の文書データ処理装置。

【請求項15】

直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出ステップと、
検出された前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出ステップと、
検出された前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、検出された前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出ステップと、
検出された前記表候補領域から表領域を生成する表領域生成ステップと、
生成された前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データに対して罫線を追加する表外枠罫線追加ステップと、
を含む文書データ処理方法。

【請求項16】

直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出ステップと、
複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成ステップと、
生成された前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出ステップと、
検出された前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データに追加する垂直方向罫線追加ステップと、
生成された前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データに追加する水平方向罫線追加ステップと、
を含む文書データ処理方法。

【請求項17】

コンピュータを、
直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出手段、
前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出手段、
前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出手段、
前記表候補領域から表領域を生成する表領域生成手段、
前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データに対して罫線を追加する表外枠罫線追加手段、
として機能させるためのプログラム。

【請求項18】

コンピュータを、
直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出手段、
複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成手段、
前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出手段、
前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データに追加する垂直方向罫線追加手段、
前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データに追加する水平方向罫線追加手段、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、文書データ処理装置、文書データ処理方法、及びプログラムに関する。

【背景技術】

【0002】

例えば、特許文献１には、ＡｄｏｂｅＰＤＦ（登録商標）やＭｉｃｒｏｓｏｆｔＷｏｒｄ（登録商標）などの文書データに含まれている表構造を認識する技術が開示されている。特許文献１に開示されている技術では、以下のようにして、表構造を認識する。最初に、文書データに含まれる矩形部分を抽出する機能を利用して表の領域が抽出される。抽出された表の領域には、項目名、例えば、見出しやヘッダ等を示す文字列が表されている項目名セルと、項目値を示す文字列が表されている項目値セルとが含まれている。

【0003】

次に、表の領域に含まれている項目名セルと、項目値セルとの対応関係が抽出される。ここで、項目名セルと、項目値セルとの対応関係とは、項目名セルから項目値セルを見たときの項目値セルの向きと、その向きの尤度である。特許文献１に開示されている技術では、この項目値セルの向きと、向きの尤度とを用いることにより、項目名セルと、項目値セルとの妥当な組み合わせを決定して、表構造を認識するようにしている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１３－２０５９７４号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１に開示されている技術では、上記したように文書データに含まれる矩形部分を抽出する機能を利用して表の領域を抽出している。当該技術では、更に、表に含まれるセルが矩形形状の線で囲まれていることを前提として、セルの内容、すなわち項目名や項目値を検出するようにしている。なお、表が矩形形状であり、かつ表に含まれる個々のセルの各々が矩形形状である場合、表に含まれる全てのセルが矩形形状の線で囲まれれば、表は矩形形状の線で囲まれることになることは自明である。そのため、特許文献１に開示されている技術には、表に含まれる個々のセルが矩形形状の線で囲まれていない場合、セルの内容を抽出することができないという課題が存在する。ここで、表に含まれる個々のセルが矩形形状の線で囲まれていない表とは、例えば、上下左右の端の罫線がない表、縦横のいずれか一方の罫線、または、両方の罫線が示されておらず、複数の項目や値などが行列状に示されている表などが想定される。

【0006】

本開示は、上記課題を解決するためになされたものであって、文書データに示されている表に含まれる個々のセルが矩形形状の線で囲まれるようにする文書データ処理装置、文書データ処理方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

上記課題を解決するために、本開示に係る文書データ処理装置は、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出部と、前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出部と、前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出部と、前記表候補領域から表領域を生成する表領域生成部と、前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データに対して罫線を追加する罫線追加部と、を備える。

【0008】

本開示に係る文書データ処理装置は、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出部と、複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成部と、前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出部と、前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データに追加する垂直方向罫線追加部と、前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データに追加する水平方向罫線追加部と、を備える。

【0009】

本開示に係る文書データ処理方法は、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出ステップと、検出された前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出ステップと、検出された前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、検出された前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出ステップと、検出された前記表候補領域から表領域を生成する表領域生成ステップと、生成された前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データに対して罫線を追加する表外枠罫線追加ステップと、を含む。

【0010】

本開示に係る文書データ処理方法は、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出ステップと、複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成ステップと、生成された前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出ステップと、検出された前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データに追加する垂直方向罫線追加ステップと、生成された前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データに追加する水平方向罫線追加ステップと、を含む。

【0011】

本開示に係るプログラムは、コンピュータを、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出手段、前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出手段、前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出手段、前記表候補領域から表領域を生成する表領域生成手段、前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データに対して罫線を追加する表外枠罫線追加手段、として機能させるためのプログラムである。

【0012】

本開示に係るプログラムは、コンピュータを、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データからテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出手段、複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成手段、前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出手段、前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データに追加する垂直方向罫線追加手段、前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データに追加する水平方向罫線追加手段、として機能させるためのプログラムである。

【発明の効果】

【0013】

本開示の文書データ処理装置、文書データ処理方法、及びプログラムによれば、文書データに示されている表に含まれる個々のセルが矩形形状の線で囲まれるようにすることが可能になる。

【図面の簡単な説明】

【0014】

【図1】本開示の第１の実施形態に係る文書データ処理装置の構成例を示すブロック図である。

【図2】本開示の第１の実施形態に係る文書データの一例を示す図である。

【図3】本開示の第１の実施形態に係る交点リストテーブルのデータ形式の一例を示す図である。

【図4】本開示の第１の実施形態に係る文書データ処理装置の動作例を示すフローチャートである。

【図5】本開示の第１の実施形態に係る文書データから交点を検出した一例を示す図である。

【図6】本開示の第１の実施形態に係る文書データから表候補領域を特定した一例を示す図である。

【図7】本開示の第１の実施形態に係る文書データに対して表外枠を形成する罫線を追加した一例を示す図である。

【図8】本開示の第２の実施形態に係る文書データ処理装置の構成例を示すブロック図である。

【図9】本開示の第２の実施形態に係る文書データの一例を示す図である。

【図10】本開示の第２の実施形態に係る文書データからテキストブロックを検出した一例を示す図である。

【図11】本開示の第２の実施形態に係るテキストブロックリストテーブルのデータ形式の一例を示す図である。

【図12】本開示の第２の実施形態に係る文書データ処理装置の動作例を示すフローチャートである。

【図13】本開示の第２の実施形態に係る文書データに対して垂直方向の罫線を追加した一例を示す図である。

【図14】本開示の第２の実施形態に係る文書データに対して水平方向の罫線を追加した一例を示す図である。

【図15】本開示の第２の実施形態に係る文書データに対して垂直方向及び水平方向の罫線を追加した一例を示す図である。

【図16】本開示の各実施形態に係るコンピュータの構成を示す概略ブロック図である。

【発明を実施するための形態】

【0015】

以下、本開示の実施形態に係る文書データ処理装置、文書データ処理方法、及びプログラムについて、図１～図１６を参照して説明する。図１は、本開示の第１の実施形態に係る文書データ処理装置１の構成例を示すブロック図である。図２は、本開示の第１の実施形態に係る文書データ３０の一例を示す図である。図３は、本開示の第１の実施形態に係る交点リストテーブル１２０のデータ形式の一例を示す図である。図４は、本開示の第１の実施形態に係る文書データ処理装置１の動作例を示すフローチャートである。図５は、本開示の第１の実施形態に係る文書データ３０から交点を検出した一例を示す図である。図６は、本開示の第１の実施形態に係る文書データ３０から表候補領域を特定した一例を示す図である。図７は、本開示の第１の実施形態に係る文書データ３０に対して表外枠を形成する罫線４６，４７を追加した一例を示す図である。図８は、本開示の第２の実施形態に係る文書データ処理装置２の構成例を示すブロック図である。図９は、本開示の第２の実施形態に係る文書データ５０の一例を示す図である。図１０は、本開示の第２の実施形態に係る文書データからテキストブロックを検出した一例を示す図である。図１１は、本開示の第２の実施形態に係るテキストブロックリストテーブル２２０のデータ形式の一例を示す図である。図１２は、本開示の第２の実施形態に係る文書データ処理装置２の動作例を示すフローチャートである。図１３～図１５は、それぞれ本開示の第２の実施形態に係る文書データ５０に対して垂直方向の罫線７１－１～７１－４，７２－１～７２－４、水平方向の罫線７３－１～７３－６，７４－１～７４－５、及び垂直方向と水平方向の罫線７１－１～７１－４，７２－１～７２－４，７３－１～７３－６，７４－１～７４－５の両方を追加した一例を示す図である。図１６は、本開示の各実施形態に係るコンピュータの構成を示す概略ブロック図である。なお、各図において同一の構成には同一の符号を用いて説明を適宜省略する。

【0016】

＜第１の実施形態＞
（第１の実施形態の文書データ処理装置の構成）
図１に示すように、文書データ処理装置１は、ハードウェアである構成要素またはハードウェアとソフトウェアとの組み合わせから構成される機能的構成要素として、文書データ取込部１０、交点座標検出部１１、記憶部１２、表構成交点座標検出部１３、表候補領域検出部１４、表領域生成部１５、及び罫線追加部１６を備える。

【0017】

文書データ取込部１０は、外部から与えられる文書データを取り込む。文書データは、例えば、ＡｄｏｂｅＰＤＦ（登録商標）やＭｉｃｒｏｓｏｆｔＷｏｒｄ（登録商標）などの文書データである。文書データ取込部１０が取り込む文書データは、１ページの文書データであってもよいし、複数ページの文書データであってもよい。文書データ取込部１０は、取り込んだ文書データが複数ページの文書データである場合、１ページずつ選択し、選択した順に交点座標検出部１１と、罫線追加部１６とに出力する。以下、一例として、文書データ取込部１０は、図２に示す１ページ分の文書データ３０を出力するものとして説明する。

【0018】

文書データ３０は、図２に示すように、符号３１で示す表のタイトルと表の領域、符号３２で示す文章の領域、符号３３で示す図面のタイトルと図面の領域、及び符号３４で示す表のタイトルと表の領域という４つの領域を含んでいる。文書データ３０内の位置は、例えば、文書データ３０の左下の隅を原点とするＸＹ座標系で表される。文書データ３０は、例えば、文字データと、文字の位置を示すデータと、線分データと、線分の位置を示すデータとを含んでいる。ここで、文字データは、例えば、文字の種類、文字のフォント、文字の大きさなどを示すデータである。文字の位置を示すデータは、例えば、１つの文字が存在する範囲を示す矩形形状の４つの頂点のＸ座標値とＹ座標値とによって表されるデータである。線分データは、例えば、線の種類や線の太さなどを示すデータである。線分の位置を示すデータは、線分の両端点のＸ座標値とＹ座標値とによって表されるデータである。

【0019】

交点座標検出部１１は、文書データ３０に含まれる線分の両端点の座標に基づいて、Ｘ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した水平線と、垂直線との交点の座標である交点座標を検出する。例えば、図２において、符号３５で示す点が交点の一例である。交点座標検出部１１は、文書データ３０に含まれる全ての交点に対応する交点座標を検出し、検出した交点座標の各々に対して、各々を一意に識別することができる交点ＩＤ(Identifier)を生成して付与する。交点座標検出部１１は、検出した交点座標の各々に関するデータをリスト形式で示した交点リストデータを生成する。ここで、１つの交点に対応する交点座標に関するデータは、当該交点に対応する交点ＩＤと、当該交点の位置を示すＸ座標値及びＹ座標値と、当該交点を経由する水平線の両端点のＸ座標値及びＹ座標値と、当該交点を経由する垂直線の両端点のＸ座標値及びＹ座標値とを組み合わせたデータである。

【0020】

記憶部１２は、交点座標検出部１１が生成した交点リストデータが書き込まれる交点リストテーブル１２０を記憶する。図３は、交点リストテーブル１２０のデータ形式の一例を示す図である。交点リストテーブル１２０は、「交点ＩＤ」、「交点座標」、「水平線端点座標」、「垂直線端点座標」の項目を有する。「交点ＩＤ」の項目には、交点に付与される交点ＩＤが書き込まれる。

【0021】

「交点座標」の項目は、「Ｘ座標」、「Ｙ座標」のサブ項目を有しており、「Ｘ座標」の項目には、交点のＸ座標値が書き込まれ、「Ｙ座標」の項目には、交点のＹ座標値が書き込まれる。「水平線端点座標」の項目は、「第１端点Ｘ座標」、「第１端点Ｙ座標」、「第２端点Ｘ座標」、「第２端点Ｙ座標」のサブ項目を有する。「水平線端点座標」の「第１端点Ｘ座標」、「第１端点Ｙ座標」の項目には、それぞれ、対応する「交点座標」の項目の交点を経由する水平線の一方の端点のＸ座標値と、Ｙ座標値とが書き込まれる。「水平線端点座標」の「第２端点Ｘ座標」、「第２端点Ｙ座標」の項目には、それぞれ、対応する「交点座標」の項目の交点を経由する水平線の他方の端点のＸ座標値と、Ｙ座標値とが書き込まれる。

【0022】

「垂直線端点座標」の項目は、「第１端点Ｘ座標」、「第１端点Ｙ座標」、「第２端点Ｘ座標」、「第２端点Ｙ座標」のサブ項目を有する。「垂直線端点座標」の「第１端点Ｘ座標」、「第１端点Ｙ座標」の項目には、それぞれ、対応する「交点座標」の項目の交点を経由する垂直線の一方の端点のＸ座標値と、Ｙ座標値とが書き込まれる。「垂直線端点座標」の「第２端点Ｘ座標」、「第２端点Ｙ座標」の項目には、それぞれ、対応する「交点座標」の項目の交点を経由する垂直線の他方の端点のＸ座標値と、Ｙ座標値とが書き込まれる。

【0023】

なお、「水平線端点座標」の第１端点から第２端点の方向は、Ｘ軸の座標値が増加する方向、言い換えると、図２に示す文書データ３０において左から右に進む方向であり、第１端点のＸ座標値は、第２端点のＸ座標値よりも小さくなる。「垂直線端点座標」の第１端点から第２端点の方向は、Ｙ軸の座標値が増加する方向、言い換えると、図２に示す文書データ３０において下から上に進む方向であり、第１端点のＹ座標値は、第２端点のＹ座標値よりも小さくなる。

【0024】

表構成交点座標検出部１３は、交点リストテーブル１２０に記憶されている交点座標から頂点を示す座標を除外した頂点除外交点座標を検出する。ところで、第１の実施形態の文書データ処理装置１では、１本の垂直線に対して、２本の水平線が交差した３行２列の表を、検出する表の最小構成として想定している。この３行２列の表には、Ｘ座標値が同一である頂点除外交点座標が２個存在する。そのため、表構成交点座標検出部１３は、検出した頂点除外交点座標の各々において、Ｘ座標値が他の頂点除外交点座標と同一である頂点除外交点座標を全て検出する。例えば、頂点除外交点座標ＡのＸ座標値と、頂点除外交点座標ＢのＸ座標値とが、同一である場合、表構成交点座標検出部１３は、頂点除外交点座標Ａ及び頂点除外交点座標Ｂの両方を検出する。表構成交点座標検出部１３は、検出した頂点除外交点座標を表構成交点座標とし、全ての表構成交点座標を示すデータをリスト形式で示した表構成交点リストデータを生成する。

【0025】

表候補領域検出部１４は、表構成交点リストデータに含まれる表構成交点座標の各々に対して、各々が示す位置を経由する水平線の両端のＸ座標値と、各々が示す位置を経由する垂直線の両端のＹ座標値とを交点リストテーブル１２０から検出する。表候補領域検出部１４は、検出した水平線の両端のＸ座標値の２つの垂直線と、検出した垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域の各々を、表構成交点座標の各々に対応する表候補領域として検出する。なお、水平線の両端のＸ座標値を、それぞれＸ１，Ｘ２とした場合、「水平線の両端のＸ座標値の２つの垂直線」とは、ｘ＝Ｘ１の関数で示される垂直線、及びｘ＝Ｘ２の関数で示される垂直線のことである。また、垂直線の両端のＹ座標値を、それぞれＹ１，Ｙ２とした場合、「垂直線の両端のＹ座標値の２つの水平線」とは、ｙ＝Ｙ１の関数で示される水平線、及びｙ＝Ｙ２の関数で示される水平線のことである。

【0026】

表領域生成部１５は、表候補領域検出部１４が検出した表構成交点座標の各々に対応する表候補領域から表領域を生成する。罫線追加部１６は、文書データ取込部１０が出力する文書データ３０に対して、表領域生成部１５が生成した表領域の各々を囲む矩形形状の表外枠を形成する罫線の線分データを追加する。ここで、矩形形状の表外枠を形成する罫線とは、表領域の最大及び最小のＹ座標値の２つの水平線と、表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状を形成する線分になる。

【0027】

（第１の実施形態の文書データ処理装置による処理）
図４に示すフローチャートを参照しつつ、第１の実施形態の文書データ処理装置１による処理について説明する。文書データ取込部１０は、外部から与えられる文書データを取り込む。文書データ取込部１０は、取り込んだ文書データから１ページ分の文書データを選択する。ここでは、文書データ取込部１０は、１ページ分の文書データとして、図２に示す文書データ３０を選択したとする。文書データ取込部１０は、選択した文書データ３０を交点座標検出部１１と、罫線追加部１６とに出力する（Ｓａ１）。

【0028】

交点座標検出部１１は、文書データ取込部１０が出力する文書データ３０を取り込み、取り込んだ文書データ３０に含まれる水平線と、垂直線との交点の座標である交点座標を検出する。図５は、交点座標検出部１１が文書データ３０において検出した交点座標の位置を黒丸で示した図である。なお、図５において「図面１」における特性の変化を示す線分４３は、水平線でも垂直線でもない。そのため、当該線分４３と、他の線分との交点は、交点座標検出部１１の検出対象にはならない。

【0029】

交点座標検出部１１は、検出した交点座標の各々に関するデータをリスト形式で示した交点リストデータを生成する。交点座標検出部１１は、生成した交点リストデータを記憶部１２の交点リストテーブル１２０に書き込む（Ｓａ２）。

【0030】

表構成交点座標検出部１３は、交点リストテーブル１２０に交点リストデータが書き込まれると、交点リストテーブル１２０に記憶されている交点座標から頂点を示す座標を除外した頂点除外交点座標を検出する。表構成交点座標検出部１３は、例えば、以下のようにして、頂点を示す座標であるか否かを判定する。

【0031】

例えば、文書データ３０の縦方向の長さが「８００」程度であり、横方向の長さが「６００」程度であるものとする。また、図５の交点４１－１に関するデータが、図３の「交点ＩＤ」が「ｐ」のレコードに対応しているとする。図３の「交点ＩＤ」が「ｐ」のレコードは、交点座標が（３２０，４５０）であり、水平線端点座標の第１端点の座標が（３２０，４５０）であり、垂直線端点座標の第２端点の座標が（３２０，４５０）である。すなわち、矩形形状の左上の頂点の場合、交点座標と、水平線端点座標の第１端点の座標と、垂直線端点座標の第２端点の座標とが一致する関係を有することになる（以下、この関係を第１の頂点該当条件という）。

【0032】

同様に、矩形形状の右上の頂点、例えば、交点４１－２の場合、交点座標と、水平線端点座標の第２端点の座標と、垂直線端点座標の第２端点の座標とが一致する関係を有することになる（以下、この関係を第２の頂点該当条件という）。矩形形状の右下の頂点、例えば、交点４１－３の場合、交点座標と、水平線端点座標の第２端点の座標と、垂直線端点座標の第１端点の座標とが一致する関係を有することになる（以下、この関係を第３の頂点該当条件という）。矩形形状の左下の頂点、例えば、交点４１－４の場合、交点座標と、水平線端点座標の第１端点の座標と、垂直線端点座標の第１端点の座標とが一致する関係を有することになる（以下、この関係を第４の頂点該当条件という）。

【0033】

表構成交点座標検出部１３は、上記した第１から第４の頂点該当条件に基づいて、交点リストテーブル１２０から頂点以外の交点の座標である頂点除外交点座標を検出する（Ｓａ３）。Ｓａ３の処理により、表構成交点座標検出部１３は、図５において符号４１－１，４１－２，４１－３，４１－４で示す黒丸以外の黒丸で示す交点の座標を頂点除外交点座標として検出する。

【0034】

表構成交点座標検出部１３は、検出した頂点除外交点座標の数が、２個以上であるか否かを判定する（Ｓａ４）。この判定を行う理由は、頂点除外交点座標の数が、２個未満の場合、次に行うＳａ５の処理を行うことができず、Ｓａ５の処理を行うことができないということは、表が存在しないと考えられるためである。表構成交点座標検出部１３は、検出した頂点除外交点座標が、２個以上でないと判定した場合（Ｓａ４、Ｎｏ）、処理を終了する。

【0035】

一方、表構成交点座標検出部１３は、検出した頂点除外交点座標が、２個以上であると判定したとする（Ｓａ４、Ｙｅｓ）。この場合、表構成交点座標検出部１３は、検出した複数の頂点除外交点座標の各々において、Ｘ座標値が他の頂点除外交点座標のＸ座標値と同一である頂点除外交点座標を検出する。言い換えると、表構成交点座標検出部１３は、ある１つの頂点除外交点座標Ａを対象とした場合、当該頂点除外交点座標Ａの位置を経由する垂直線上に、他の頂点除外交点が存在している場合、当該頂点除外交点座標Ａを検出する。

【0036】

例えば、図５に示す「図面１」のグラフの原点に相当する頂点除外交点座標４２は、Ｘ座標の座標値が同一である他の頂点除外交点座標が存在しない。そのため、頂点除外交点座標４２は、表構成交点座標検出部１３の検出対象にはならない。表構成交点座標検出部１３は、検出した頂点除外交点座標を表構成交点座標とし、全ての表構成交点座標を示すデータをリスト形式で示した表構成交点リストデータを生成する。表構成交点座標検出部１３は、生成した表構成交点リストデータを表候補領域検出部１４に出力する（Ｓａ５）。

【0037】

表候補領域検出部１４は、表構成交点座標検出部１３が出力する表構成交点リストデータを取り込み、取り込んだ表構成交点リストデータに含まれる要素の数、すなわち、表構成交点座標の数が、２個以上であるか否かを判定する（Ｓａ６）。Ｘ座標値が同一である頂点除外交点座標が、１組存在すれば、表構成交点座標の数は２個になる。したがって、Ｓａ６の判定処理は、表構成交点リストデータに表構成交点座標が含まれているか否かを判定する判定処理であるということもできる。表候補領域検出部１４は、表構成交点リストデータに含まれる要素の数が、２個以上でないと判定した場合（Ｓａ６、Ｎｏ）、処理を終了する。

【0038】

ここでは、表構成交点リストデータには、表構成交点座標のデータとして、図５の文書データ３０において示す黒丸のうち、符号４１－１～４１－４、及び符号４２で示す黒丸以外の黒丸で示す交点の座標のデータが含まれることになる。そのため、表候補領域検出部１４は、表構成交点リストデータに含まれる要素の数が、２個以上であると判定する（Ｓａ６、Ｙｅｓ）。この場合、表候補領域検出部１４は、表構成交点リストデータに含まれる表構成交点座標を１つずつ選択し、選択した表構成交点座標を経由する水平線の両端のＸ座標値と、選択した表構成交点座標を経由する垂直線の両端のＹ座標値とを交点リストテーブル１２０から検出する。表候補領域検出部１４は、検出した水平線の両端のＸ座標値の２つの垂直線と、検出した垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を、選択した表構成交点座標に対応する表候補領域として検出する。

【0039】

表候補領域検出部１４は、例えば、図６の表１の領域に存在する表構成交点４４に対しては、水平線４４ｈと、垂直線４４ｖとを検出する。この場合、表候補領域検出部１４は、表１の領域においてハッチングで示す矩形領域、すなわち、表１の領域全体を表候補領域として検出する。これに対して、表候補領域検出部１４は、例えば、図６の表２の領域に存在する表構成交点４５に対しては、水平線４５ｈと、垂直線４５ｖとを検出する。この場合、表候補領域検出部１４は、表２の領域においてハッチングで示す矩形領域、すなわち、表２の領域の一部を表候補領域として検出する。

【0040】

表候補領域検出部１４は、表構成交点座標の各々に対して検出した表候補領域を示すデータ、すなわち、表候補領域の形状である矩形形状の４つの頂点のＸ座標及びＹ座標の座標値によって表されるデータを表領域生成部１５に出力する（Ｓａ７）。表領域生成部１５は、表候補領域検出部１４が出力する表候補領域を示すデータを取り込む。表領域生成部１５は、取り込んだ表候補領域を示すデータに基づいて、共通の重複領域を有する表候補領域から新たな表候補領域を生成することを繰り返し行う。例えば、表領域生成部１５は、取り込んだ表候補領域のデータが示す表候補領域を１つずつ選択し、選択した表候補領域が、他の表候補領域と共通の重複領域を有しているか否かを判定する。表領域生成部１５は、選択した表候補領域が、他の表候補領域と共通の重複領域を有している場合、共通の重複領域を有している２つの表候補領域の両方を囲む最小の矩形領域を新たな表候補領域として生成する。表領域生成部１５は、共通する重複領域を有する表候補領域がなくなるまで、新たな表候補領域を生成することを繰り返し行う（Ｓａ８）。

【0041】

表領域生成部１５は、Ｓａ８の処理において、最終的に得られた共通の重複領域がない表候補領域の各々を表領域とし、表領域を示すデータ、すなわち、表領域の形状である矩形形状の４つの頂点のＸ座標及びＹ座標の座標値で表されるデータを罫線追加部１６に出力する（Ｓａ９）。

【0042】

罫線追加部１６は、文書データ取込部１０が出力する文書データ３０と、表領域生成部１５が出力する表領域を示すデータを取り込む。罫線追加部１６は、表領域を示すデータごとに、文書データ３０に対して表外枠を形成する罫線の線分データを追加する（Ｓａ１０）。（ループＬａ１ｓ～Ｌａ１ｅ）。

【0043】

文書データ３０の場合、表領域を示すデータとして、図７において、ハッチングで示すように、表１の全体の領域を示すデータと、表２の全体の領域を示すデータとが得られる。そのため、罫線追加部１６は、表１については、矩形形状の表外枠を形成する罫線４６に対応する上下左右の４つの線分データを文書データ３０に追加し、表２については、矩形形状の表外枠を形成する罫線４７に対応する上下左右の４つの線分データを文書データ３０に追加する。罫線追加部１６は、図７に示す表外枠を形成する罫線４６，４７の各々に対応する線分データが追加された文書データ３０を、罫線追加文書データとして外部に出力する。その後、文書データ処理装置１は、文書データ３０に対する処理を終了する。文書データ取込部１０が、次の１ページ分の文書データを交点座標検出部１１と、罫線追加部１６とに出力すると、当該文書データに対するＳａ２以降の処理が行われる。

【0044】

（第１の実施形態の構成による作用・効果）
上記の第１の実施形態の文書データ処理装置１の構成により、例えば、文書データ３０のように、左右の端に罫線が存在しない表であっても、左右の端に罫線を追加することが可能になる。そのため、表１及び表２の各々に含まれる個々のセルが矩形形状の線で囲まれる状態にすることができる。このように、表に含まれる全てのセルが罫線で囲まれることにより、例えば、罫線で囲まれたセルに含まれるデータを読み出す一般的なアプリケーションソフトウェアを用いることで、表１及び表２の各々に含まれている項目名や項目値といったデータを読み出すことが可能になる。そのため、文書データ処理装置１を用いることにより、例えば、仕様書のようにページ数が多く、また、表が多用されている文書データから、表に含まれる項目名や項目値を容易に読み出すことができる。

【0045】

（第１の実施形態の他の構成例）
上記した図４のＳａ５の処理に示されるように、第１の実施形態の文書データ処理装置１では、１本の垂直線に対して、２本の水平線が交差した３行２列の表を、検出する表の最小構成として想定している。これに対して、１本の水平線に対して、２本の垂直線が交差した２行３列の表も検出対象に含める場合、以下のような処理を行うようにしてもよい。すなわち、表構成交点座標検出部１３は、Ｓａ５の処理のタイミングで、Ｓａ５の処理を行うと共に、複数の頂点除外交点座標の各々において、Ｙ座標値が、他の頂点除外交点座標のＹ座標値と同一である頂点除外交点座標を検出するようにしてもよい。これにより、３行２列の表を、検出対象に含めることができる。

【0046】

上記の第１の実施形態では、１本の垂直線に対して、２本の水平線が交差した３行２列の表を、検出する表の最小構成として想定している。このことから、表候補領域検出部１４は、Ｓａ６の処理において、表構成交点リストデータに含まれる要素の数、すなわち、表構成交点座標の数が、２個以上であるか否かを判定するようにしている。これに対して、例えば、１本の垂直線に対して、３本の水平線が交差した４行２列の表を、検出する表の最小構成とする場合、Ｓａ６の処理を、表構成交点リストデータに含まれる要素の数が、「３個」以上であるか否かを判定するようにすればよい。言い換えると、Ｓａ６の処理の判定基準の個数を変更することにより、検出対象とする表の最小構成を変更することが可能になる。

【0047】

上記の第１の実施形態では、表領域生成部１５は、Ｓａ８の処理の手法によって、表候補領域から表領域を生成するようにしている。これに対して、表領域生成部１５は、例えば、以下のようにして、表領域を生成するようにしてもよい。表には、図６の表構成交点４４から生成される表候補領域のように、表全体の領域に一致する表候補領域が、幾つか含まれる。そのため、表領域生成部１５は、最初に最大の面積を有する表候補領域を表領域とし、表領域とした表候補領域と重複領域が存在しない、次に面積の大きい表候補領域を表領域とするといった手順によって表領域の各々を生成するようにしてもよい。

【0048】

上記の第１の実施形態では、罫線追加部１６は、Ｓａ１０の処理において、図７に示すように、表外枠を示す矩形形状を形成する罫線４６，４７に対応する線分データを文書データ３０に追加するようにしている。これに対して、罫線追加部１６は、交点リストテーブル１２０を参照し、表外枠の矩形形状の４辺において線上に交点が存在していない辺を検出し、検出した辺に対応する罫線の線分データのみを文書データ３０に追加するようにしてもよい。このようにした場合、図７に示す文書データ３０の表１及び表２については、既に横方向の罫線が存在しているため、縦方向の罫線のみを追加すればよいことになる。

【0049】

上記の第１の実施形態において、表構成交点座標検出部１３は、Ｓａ３の処理において、頂点を示す座標を除外する処理を行う前に、交点リストテーブル１２０に２個以上のレコードが記憶されていない場合、処理を終了するようにしてもよい。交点リストテーブル１２０のレコードが２個未満である場合、文書データ３０において表が存在せず、Ｓａ４の判定処理を行う前に文書データ３０に対する処理を終了させることができる。

【0050】

＜第２の実施形態＞
（第２の実施形態の文書データ処理装置の構成）
図８に示すように、文書データ処理装置２は、ハードウェアである構成要素またはハードウェアとソフトウェアとの組み合わせから構成される機能的構成要素として、文書データ取込部１０、テキストブロック検出部２１、記憶部２２、行番号リスト生成部２３、行番号リスト分割部２４、同一列テキストブロック群検出部２５、垂直方向罫線追加部２６、及び水平方向罫線追加部２７を備える。

【0051】

文書データ取込部１０は、第１の実施形態の文書データ取込部１０と同一の構成を備える。ただし、第２の実施形態では、文書データ取込部１０は、一例として、図９に示す１ページの文書データ５０を、テキストブロック検出部２１と、垂直方向罫線追加部２６とに出力する。

【0052】

文書データ５０は、図９に示すように、符号５１で示す文章の領域、符号５２で示す表のタイトル、表、及び表の注釈文の領域、符号５３で示す文章の領域、符号５４で示す表のタイトルと表の領域という４つの領域を含んでいる。文書データ５０内の位置は、例えば、文書データ５０の左下の隅を原点とするＸＹ座標系で表される。文書データ５０は、第１の実施形態の文書データ３０と同様に、文字データと、文字の位置を示すデータと、線分データと、線分の位置を示すデータとを含んでいる。

【0053】

第２の実施形態の文書データ処理装置２において処理の対象としている文書データ５０に含まれる表は、行ごとの列数が一致しており、かつ、列ごとの行数が一致している表を前提としている。文書データ５０に含まれる表において、同一列に属する文字列は、左揃え、中央揃え、右揃えのいずれかで示されていることを前提としている。文書データ５０において、同一行に存在する文字は、文字の大きさに関わらず、下揃えになっていることを前提としている。第１の実施形態において説明したように、文字の位置を示すデータは、例えば、１つの文字が存在する範囲を示す矩形形状の４つの頂点のＸ座標値とＹ座標値とによって表されるデータである。したがって、同一行に存在する文字が下揃えになるということは、同一行に存在する文字の各々の文字の位置を示すデータの左下、及び右下の頂点のＹ座標値が一致している状態になることを意味する。

【0054】

テキストブロック検出部２１は、文書データ５０に含まれる文字の位置を示すデータに基づいて、テキストブロックを検出する。テキストブロック検出部２１は、例えば、以下のようにしてテキストブロックを検出する。

【0055】

例えば、「ＡＢ」という文字列が存在している場合、文字Ａの位置を示すデータにおける右端のＸ座標値と、文字Ａに右側で隣接する文字Ｂの位置を示すデータにおける左端のＸ座標値とが一致する関係（以下、この関係を第１の隣接条件という）になる。また、文字Ａの範囲を示す矩形形状の右端の辺の最大と最小のＹ座標値で示される範囲と、文字Ｂの範囲を示す矩形形状の左端の辺の最大と最小のＹ座標値で示される範囲とは、全部が重複しているか、または、一部が重複している関係（以下、この関係を第２の隣接条件という）になる。なお、文字Ａと文字Ｂのフォントや大きさが同一である場合、原則として、最大と最小のＹ座標値で示される範囲の全部が重複し、文字のフォントや大きさが異なる場合、一部が重複することになる。

【0056】

文書データ５０の文章中に存在するスペースは、文字と同様に、スペースを示すデータと、スペースの位置を示すデータとによって表される。スペースを示すデータは、例えば、スペースが、半角スペースであるか、全角スペースであるかを示すデータである。スペースの位置を示すデータは、スペースの範囲を示す矩形形状の４つの頂点のＸ座標値とＹ座標値とによって表されるデータである。

【0057】

テキストブロック検出部２１は、文書データ５０内の最上段の左端の文字を検出することが可能になっている。テキストブロック検出部５０は、既にテキストブロックを検出している場合、既に検出したテキストブロックの部分を除外した文書データ５０における最上段の左端の文字を検出することが可能になっている。

【0058】

テキストブロック検出部２１は、テキストブロックを検出していない状態において、最初に、文書データ５０における最上段の左端の「Ｌａｔｅｒａｌ」の「Ｌ」の文字を検出して始点とする。テキストブロック検出部２１は、始点の文字の位置を示すデータに基づいて、上記した第１と第２の隣接条件に基づいて、右側、すなわちＸ座標値が増加する方向において隣接する文字を検出していく検索処理を行う。テキストブロック検出部２１は、検索処理の過程において、文字と、文字との間に、１つのスペースが存在する場合には、文字が連続しているとみなして検索処理を継続する。ここで、１つのスペースは、半角スペースであってもよいし、全角スペースであってもよい。テキストブロック検出部２１は、検索処理の過程において、文字が連続しなくなった場合、または、文書データ５０の右端のＸ座標値の位置に到達した場合、最後に検出した文字の位置をテキストブロックの終点とする。なお、文字が連続しなくなる場合とは、２つ以上のスペースが連続する場合である。

【0059】

文書データ５０における「Ｌａｔｅｒａｌ」の「Ｌ」を始点とした検索処理の場合、テキストブロック検出部２１は、最上段の右端の「ａｓ」の「ｓ」の文字の位置を終点とすることになる。テキストブロック検出部２１は、起点と終点の間に存在する全ての文字を囲む矩形形状の枠を１つのテキストブロックとして検出する。すなわち、テキストブロックとは、文字と文字の間に１スペースがある場合に、文字が連続しているとみなして、Ｘ軸方向に連続する文字の範囲を示す矩形形状の枠ということができる。「Ｌａｔｅｒａｌ」の「Ｌ」を始点とし、「ａｓ」の「ｓ」を終点とする検索処理を行った場合、テキストブロック検出部２１は、図９に示すテキストブロック５５を検出する。なお、文書データ５０において、文字は、Ｘ軸と平行に並んでいるため、テキストブロック５５の形状である矩形形状の横方向の線分は、Ｘ軸に平行な線分になり、縦方向の線分は、Ｙ軸に平行な線分になる。

【0060】

テキストブロック検出部２１は、検出したテキストブロックの位置を特定するために、検出したテキストブロックの４つの頂点の座標を検出する。テキストブロック５５を検出した場合、テキストブロック検出部２１は、テキストブロック５５の４つの頂点５５－１，５５－２，５５－３，５５－４のＸ座標値及びＹ座標値を検出する。

【0061】

テキストブロック検出部２１は、直前に検出したテキストブロックの終点を示す文字が、文字が連続しなくなったことに起因して検出した場合、当該文字の右側において隣接するスペースを始点として、新たな文字を検出するまで検出を繰り返し行う。テキストブロック検出部２１は、検出した新たな文字を、次のテキストブロックの始点として、再び、上記の検索処理を行う。

【0062】

テキストブロック検出部２１は、検索処理の過程で文書データ５０の右端のＸ座標値の位置に到達した場合、既に検出したテキストブロックの部分を除外した文書データ５０における最上段の左端の文字を検出する。例えば、テキストブロック検出部２１が直前に検出したテキストブロックが、図９のテキストブロック５５であるとする。この場合、テキストブロック検出部２１は、テキストブロック５５の１つ下の行の先頭に存在する「ｍｅａｓｕｒｅｄ」の文字列の「ｍ」の文字を、既に検出したテキストブロック５５の部分を除外した文書データ５０における最上段の左端の文字として検出する。テキストブロック検出部２１は、検出した「ｍ」の文字を始点として、再び、上記の検索処理を行う。

【0063】

上記のような検索処理の手順により、テキストブロック検出部２１は、文書データ５０の最下段の右端の位置に到達するまで、検索処理を行い、文書データ５０に存在する全てのテキストブロックを検出する。なお、上記のような検索処理を行うことから、テキストブロックは、行単位で存在することになり、１つの行に複数のテキストブロックが存在する場合があるが、２行以上にまたがって１つのテキストブロックが存在することはない。また、テキストブロック検出部２１が、始点の文字を検出した直後に、２つ以上のスペースが連続している場合、１文字だけを含むテキストブロックを検出することになる。そのため、以下の説明において、テキストブロックに含まれる文字列という場合、１文字だけを含む文字列も含むものとする。

【0064】

テキストブロック検出部２１は、１ページ分の文書データから全てのテキストブロックを検出すると、例えば、テキストブロックの所定位置のＹ座標の座標値によって特定される行番号をテキストブロックごとに生成する。ここで、テキストブロックの所定位置とは、例えば、同一行に複数のテキストブロックが存在している場合に、当該複数のテキストブロックの各々において、同一のＹ座標値になるような位置である。上記したように文書データ５０では、同一行に存在する文字は、下揃えになっていることを前提としている。そのため、文書データ５０の場合、テキストブロックの所定位置として、例えば、テキストブロックの左下の頂点、または、右下の頂点の位置にすることで、テキストブロックの各々の行番号を特定することができる。なお、文書データ５０において、同一行に存在する文字が、下揃えになっておらず、上揃えや中央揃えのフォーマットで示されている場合、そのフォーマットに応じた所定位置を定める必要がある。

【0065】

テキストブロックの所定位置のＹ座標の座標値によって特定される行番号とは、Ｙ座標の座標値の大きさにしたがった順番で表される行番号である。例えば、テキストブロック検出部２１は、Ｙ座標値の大きいものから順に「１」から始まる連続番号の行番号を生成し、生成した行番号を、対応するテキストブロックに関連付ける。

【0066】

図１０は、図９に示す文書データ５０からテキストブロック検出部２１が検出した全てのテキストブロックと、テキストブロックに関連付けられた行番号との関係の一例を示す図である。図１０において、矩形形状の破線で囲んだ領域の各々が、個々のテキストブロックを示している。図１０では、行番号が、テキストブロックに対して、最上段から順に１，２，３，…のように関連付けられている例を示している。テキストブロック６１－１，６２－１，６３－１のように同一行において、複数のテキストブロックが検出されている場合、テキストブロック６１－１，６２－１，６３－１には、同一の行番号である「ｍ」が関連付けられることになる。なお、図１０において、ｍ－１＞４、ｎ－１＞ｍ＋６、ｎ＞ｍである。

【0067】

テキストブロック検出部２１は、検出したテキストブロックの各々に対して、一意に識別することができるテキストブロックＩＤを付与する。テキストブロック検出部２１は、検出したテキストブロックの各々に関するデータをリスト形式で示したテキストブロックリストデータを生成する。ここで、１つのテキストブロックに対応するテキストブロックに関するデータとは、当該テキストブロックに対応するテキストブロックＩＤと、当該テキストブロックに関連付けられている行番号と、当該テキストブロックの位置を特定する４つの頂点のＸ座標値及びＹ座標値と、当該テキストブロックに含まれる文字列とを組み合わせたデータである。

【0068】

記憶部２２は、テキストブロック検出部２１が生成したテキストブロックリストデータが書き込まれるテキストブロックリストテーブル２２０を記憶する。図１１は、テキストブロックリストテーブル２２０のデータ形式の一例を示す図である。テキストブロックリストテーブル２２０は、「テキストブロックＩＤ」、「行番号」、「テキストブロック枠」、「テキストブロック内容」の項目を有する。「テキストブロックＩＤ」の項目には、テキストブロックに付与されるテキストブロックＩＤが書き込まれる。「行番号」の項目には、テキストブロックに関連付けられる行番号が書き込まれる。

【0069】

「テキストブロック枠」の項目は、「第１頂点Ｘ座標」、「第１頂点Ｙ座標」、「第２頂点Ｘ座標」、「第２頂点Ｙ座標」、「第３頂点Ｘ座標」、「第３頂点Ｙ座標」、「第４頂点Ｘ座標」、「第４頂点Ｙ座標」のサブ項目を有する。「第１頂点Ｘ座標」から「第４頂点Ｙ座標」のサブ項目の各々には、テキストブロックを特定する４つの頂点の各々のＸ座標値及びＹ座標値が書き込まれる。なお、テキストブロックにおける第１頂点、第２頂点、第３頂点、第４頂点の位置は、左上の頂点を起点とした時計回りの順番になっており、第１頂点が、左上の頂点、第２頂点が、右上の頂点、第３頂点が、右下の頂点、第４頂点が、左下の頂点に対応する。「テキストブロック内容」の項目には、テキストブロックに含まれる文字列が書き込まれる。

【0070】

行番号リスト生成部２３は、テキストブロックリストテーブル２２０から複数のテキストブロックが関連付けられている行番号を検出する。例えば、図１０に示す文書データ５０の場合、行番号「ｍ」は、複数のテキストブロック６１－１，６２－１，６３－１に関連付けられている行番号に該当する。行番号リスト生成部２３は、検出した行番号を番号順にしたがって並べた行番号リストデータを生成する。

【0071】

行番号リスト分割部２４は、行番号リストデータに含まれる行番号の最初と最後の行番号の間に存在する全ての行番号に関連付けられているテキストブロックのいずれかに所定の表区切り文字を含むテキストブロックが存在するか否かを判定する。ここで、「最初と最後の行番号の間に存在する全ての行番号」とは、テキストブロックリストテーブル２２０に記憶されている行番号において、行番号リストデータに含まれる行番号の最初と最後の行番号の間に存在する行番号のことを意味する。

【0072】

所定の表区切り文字とは、予め定められる文字であって、「Ｔａｂｌｅ」や「表」といった、文書データにおいて、その文字の前後に表の存在を示唆する文字である。なお、所定の表区切り文字は、１つの文字が定められていてもよいし、複数の文字が定められていてもよい。行番号リスト分割部２４は、所定の表区切り文字を含むテキストブロックが存在すると判定した場合、当該テキストブロックに関連付けられている行番号の前後で、行番号リストデータに含まれる行番号を分割し、分割した各々を新たな行番号リストデータとする。

【0073】

同一列テキストブロック群検出部２５は、行番号リストデータの各々に対して以下の処理を行う。同一列テキストブロック群検出部２５は、１つの行番号リストデータに含まれる行番号の各々に関連付けられているテキストブロックにおいて、同一列に属するテキストブロックを同一列テキストブロック群として検出する。

【0074】

上記したように、文書データ５０の表の部分において同一列に属する文字列は、左揃え、中央揃え、右揃えのいずれかで示されている。そのため、左揃えの場合、同一列テキストブロック群検出部２５は、第１頂点Ｘ座標値が同一であるテキストブロックを、同一列に属するテキストブロックであると判定する。なお、テキストブロックは、水平線と垂直線によって区切られた矩形形状であるため、第１頂点Ｘ座標値と第４頂点Ｘ座標値とは、同一の座標値になる。そのため、左揃えの場合、同一列テキストブロック群検出部２５は、第４頂点Ｘ座標値が同一であるテキストブロックを、同一列に属するテキストブロックであると判定するようにしてもよい。

【0075】

中央揃えの場合、同一列テキストブロック群検出部２５は、テキストブロックの第１頂点と、第２頂点の中央の位置のＸ座標値が同一であるテキストブロックを、同一列に属するテキストブロックであると判定する。なお、テキストブロックは、水平線と垂直線によって区切られた矩形形状であるため、第１頂点と第２頂点の中央の位置のＸ座標値と、第３頂点と第４頂点の中央の位置のＸ座標値とが同一になる。そのため、中央揃えの場合、同一列テキストブロック群検出部２５は、第３頂点と第４頂点の中央の位置のＸ座標値が同一であるテキストブロックを、同一列に属するテキストブロックであると判定するようにしてもよい。

【0076】

右揃えの場合、同一列テキストブロック群検出部２５は、テキストブロックの第２頂点Ｘ座標値が同一であるテキストブロックを、同一列に属するテキストブロックであると判定する。なお、テキストブロックは、水平線と垂直線によって区切られた矩形形状であるため、第２頂点Ｘ座標値と第３頂点Ｘ座標値とは、同一の座標値になる。そのため、右揃えの場合、同一列テキストブロック群検出部２５は、第３頂点Ｘ座標値が同一であるテキストブロックを、同一列に属するテキストブロックであると判定するようにしてもよい。

【0077】

なお、左揃えになっているか、中央揃えになっているか、右揃えになっているかは不明である。そのため、同一列テキストブロック群検出部２５は、上記した左揃え、中央揃え、右揃えの各々を判定する３通りの判定手法の各々を、１つの行番号リストデータに含まれる行番号の各々に関連付けられている全てのテキストブロックに適用する。同一列テキストブロック群検出部２５は、３通りの判定手法のいずれかにおいて、同一列に属すると判定したテキストブロックの組み合わせを同一列テキストブロック群とする。

【0078】

同一列テキストブロック群検出部２５は、同一列テキストブロック群に含まれるテキストブロックの各々に対応するテキストブロックＩＤをリスト形式で示した同一列テキストブロック群リストデータを生成する。

【0079】

垂直方向罫線追加部２６は、同一列テキストブロック群リストデータの各々に対して、以下の処理を行う。垂直方向罫線追加部２６は、１つの同一列テキストブロック群リストデータに含まれるテキストブロックＩＤに対応するテキストブロックのＸ座標値に基づいて、垂直方向の罫線を文書データに追加する。水平方向罫線追加部２７は、行番号リストデータの各々に含まれる行番号の各々に対して、以下の処理を行う。水平方向罫線追加部２７は、１つの行番号に関連付けられているテキストブロックのＹ座標値に基づいて、水平方向の罫線を文書データに追加する。

【0080】

（第２の実施形態の文書データ処理装置による処理）
図１２に示すフローチャートを参照しつつ、第２の実施形態の文書データ処理装置２による処理について説明する。なお、ここでは、所定の表区切り文字として「Ｔａｂｌｅ」が予め定められているとする。文書データ取込部１０は、外部から与えられる文書データを取り込む。文書データ取込部１０は、取り込んだ文書データから１つのページを選択する。ここでは、文書データ取込部１０は、図９に示す文書データ５０のページを選択したとする。文書データ取込部１０は、選択した文書データ５０をテキストブロック検出部２１と、垂直方向罫線追加部２６とに出力する（Ｓｂ１）。

【0081】

テキストブロック検出部２１は、図１０に示すように文書データ５０に含まれる全てのテキストブロックを検出する。テキストブロック検出部２１は、検出したテキストブロックの各々に対して、異なるテキストブロックＩＤを生成して付与する。テキストブロック検出部２１は、検出したテキストブロックの各々の所定位置のＹ座標の座標値に基づく行番号を、テキストブロックの各々に関連付ける。テキストブロック検出部２１は、テキストブロックリストデータを生成し、生成したテキストブロックリストデータを、記憶部２２のテキストブロックリストテーブル２２０に書き込む（Ｓｂ２）。

【0082】

行番号リスト生成部２３は、テキストブロックリストテーブル２２０にテキストブロックリストデータが書き込まれると、テキストブロックリストテーブル２２０から複数のテキストブロックが関連付けられている行番号を検出する。図１０に示す文書データ５０の場合、複数のテキストブロックが関連付けられている行番号は、「ｍ」、「ｍ＋１」、「ｍ＋２」、「ｍ＋３」、「ｍ＋４」、「ｎ」、「ｎ＋１」、「ｎ＋２」、「ｎ＋３」の９つの行番号である。したがって、行番号リスト生成部２３は、当該９つの行番号を検出し、検出した９つの行番号を番号順にしたがって並べた行番号リストデータを生成する。行番号リスト生成部２３は、生成した行番号リストデータを行番号リスト分割部２４に出力する（Ｓｂ３）。ここでは、行番号リスト生成部２３は、先頭から「ｍ」、「ｍ＋１」、「ｍ＋２」、「ｍ＋３」、「ｍ＋４」、「ｎ」、「ｎ＋１」、「ｎ＋２」、「ｎ＋３」の順に行番号が並んだ行番号リストデータを生成する。

【0083】

行番号リスト分割部２４は、行番号リスト生成部２３が出力する行番号リストデータを取り込むと、行番号リストデータの最初の行番号である「ｍ」と、最後の行番号である「ｎ＋３」とを読み出す。行番号リスト分割部２４は、テキストブロックリストテーブル２２０において、行番号「ｍ」から行番号「ｎ＋３」の間に存在する全ての行番号のレコードの「テキストブロック内容」の項目の文字列を参照する。行番号リスト分割部２４は、参照した「テキストブロック内容」の項目の文字列の中に所定の表区切り文字、すなわち「Ｔａｂｌｅ」が含まれているか否かを判定する（Ｓｂ４）。行番号リスト分割部２４は、所定の表区切り文字が含まれていないと判定した場合（Ｓｂ４、Ｎｏ）、行番号リストデータを同一列テキストブロック群検出部２５と、水平方向罫線追加部２７とに出力し、その後、処理は、ループＬｂ１ｓ～Ｌｂ１ｅの処理に進められる。

【0084】

一方、行番号リスト分割部２４は、所定の表区切り文字が含まれていると判定した場合（Ｓｂ４、Ｙｅｓ）、テキストブロックリストテーブル２２０において、所定の表区切り文字が含まれているレコードの「行番号」の項目の行番号を検出する。図１０に示す文書データ５０の場合、「ｎ－１」行目に存在するテキストブロック６０に「Ｔａｂｌｅ」の文字が含まれている。この「ｎ－１」行目のテキストブロック６０に関するデータは、図１１のテキストブロックリストテーブル２２０において、テキストブロックＩＤが「ｒ－１」のレコードとして書き込まれている。そのため、行番号リスト分割部２４は、Ｓｂ４の処理において、Ｙｅｓの判定を行い、行番号「ｍ」から行番号「ｎ＋３」の間の「ｎ－１」をテキストブロックリストテーブル２２０から検出する。

【0085】

行番号リスト分割部２４は、行番号リストデータに含まれる行番号を、検出した「ｎ－１」の行番号の前後で分割し、「ｍ」、「ｍ＋１」、「ｍ＋２」、「ｍ＋３」、「ｍ＋４」の行番号を含む行番号リストデータと、「ｎ」、「ｎ＋１」、「ｎ＋２」、「ｎ＋３」の行番号を含む行番号リストデータとを生成する（Ｓｂ５）。以下、「ｍ」、「ｍ＋１」、「ｍ＋２」、「ｍ＋３」、「ｍ＋４」の行番号を含む行番号リストデータを第１の行番号リストデータといい、「ｎ」、「ｎ＋１」、「ｎ＋２」、「ｎ＋３」の行番号を含む行番号リストデータを第２の行番号リストデータという。

【0086】

ここで、行番号リストデータに含まれる要素数、すなわち、行番号の数が、２個以下である場合、単に、同一行に複数のテキストブロックが存在する行が、連続して、１行、または、２行で並んでいるだけであり、表ではない可能性が高いと考えられる。そのため、行番号リスト分割部２４は、行番号リストデータのうち、行番号の数が３個以上の行番号リストデータを選択し、行番号の数が３個未満の行番号リストデータを破棄する。なお、行番号リストデータを破棄した結果、行番号リストデータの数が０個になった場合、行番号リスト分割部２４は、処理を終了する。行番号リスト分割部２４は、選択した行番号リストデータを同一列テキストブロック群検出部２５と、水平方向罫線追加部２７とに出力する（Ｓｂ６）。ここでは、第１の行番号リストデータには、５個の行番号が含まれており、第２の行番号リストデータには、４個の行番号が含まれている。そのため、行番号リスト分割部２４は、第１の行番号リストデータと、第２の行番号リストデータとを同一列テキストブロック群検出部２５と、水平方向罫線追加部２７とに出力する。

【0087】

同一列テキストブロック群検出部２５は、行番号リスト分割部２４が出力する行番号リストデータを取り込むと、取り込んだ行番号リストデータごとに、ループＬｂ１ｓ～Ｌｂ１ｅの処理を行う。以下、同一列テキストブロック群検出部２５が、行番号リストデータとして、第１の行番号リストデータと、第２の行番号リストデータとを取り込んだ場合について説明する。

【0088】

同一列テキストブロック群検出部２５は、例えば、最初に、第１の行番号リストデータを選択し、上記した左揃え、中央揃え、右揃えの３通りの判定手法を適用して、第１の行番号リストデータに対する同一列テキストブロック群を検出する。図１０に示すように、第１の行番号リストデータに含まれる「ｍ」、「ｍ＋１」、「ｍ＋２」、「ｍ＋３」、「ｍ＋４」行目のテキストブロックは、左揃えに並んでいる。そのため、同一列テキストブロック群検出部２５は、左揃えの場合の判定手法を適用した際に、「ｍ」、「ｍ＋１」、「ｍ＋２」、「ｍ＋３」、「ｍ＋４」の各々に対応するテキストブロックリストテーブル２２０の「第１頂点Ｘ座標」のＸ座標値に基づいて、図１０のＴａｂｌｅ２．１の１列目のテキストブロック６１－１，６１－２，６１－３，６１－４，６１－５を、同一列に属するテキストブロックとして判定する。

【0089】

同一列テキストブロック群検出部２５は、同一列に属するテキストブロック６１－１，６１－２，６１－３，６１－４，６１－５の各々に対応するテキストブロックＩＤをテキストブロックリストテーブル２２０から検出する。同一列テキストブロック群検出部２５は、検出したテキストブロックＩＤを含む同一列テキストブロック群データ（以下、第１の同一列テキストブロック群データという）を生成する。

【0090】

図１０のＴａｂｌｅ２．１の２列目のテキストブロック６２－１，６２－２，６２－３，６２－４，６２－５において、テキストブロック６２－１以外のテキストブロック６２－２，６２－３，６２－４，６２－５のサイズが同一であるとする。この場合、テキストブロック６２－１～６２－５は、左揃えで並んでいるが、テキストブロック６２－２～６２－５については、左揃えでもあり、中央揃えでもあり、右揃えでもある。そのため、左揃えの場合の判定手法を適用した場合、同一列テキストブロック群検出部２５は、テキストブロック６２－１～６２－５の５つのテキストブロックを、同一列に属するテキストブロックとして判定する。中央揃え、及び右揃えの場合の判定手法の各々を適用した場合、同一列テキストブロック群検出部２５は、テキストブロック６２－２～６２－５の４つのテキストブロックを、同一列に属するテキストブロックとして判定する。

【0091】

この場合、左揃えの場合の判定手法によって同一列に属すると判定されたテキストブロックの組み合わせは、中央揃え、及び右揃えの場合の判定手法によって同一列に属すると判定されたテキストブロックの組み合わせを全て含む関係になっている。このような関係になっている場合、同一列テキストブロック群検出部２５は、要素数の最も多い組み合わせ、すなわちテキストブロック６２－１，６２－２，６２－３，６２－４，６２－５の組み合わせを選択する。同一列テキストブロック群検出部２５は、選択したテキストブロック６２－１～６２－５の組み合わせの各々に対応するテキストブロックＩＤを含む同一列テキストブロック群データ（以下、第２の同一列テキストブロック群データという）を生成する。

【0092】

２列目と同様の手順で、同一列テキストブロック群検出部２５は、図１０のＴａｂｌｅ２．１の３列目のテキストブロック６３－１，６３－２，６３－３，６３－４，６３－５を、同一列に属するテキストブロックとして判定する。同一列テキストブロック群検出部２５は、テキストブロック６３－１～６３－５の各々に対応するテキストブロックＩＤを含む同一列テキストブロック群データ（以下、第３の同一列テキストブロック群データという）を生成する。同一列テキストブロック群検出部２５は、生成した３つの同一列テキストブロック群データ、すなわち、第１から第３の同一列テキストブロック群データを垂直方向罫線追加部２６に出力する（Ｓｂ７）。

【0093】

垂直方向罫線追加部２６は、文書データ取込部１０が出力する文書データ５０と、同一列テキストブロック群検出部２５が出力する第１から第３の同一列テキストブロック群データとを取り込む。垂直方向罫線追加部２６は、取り込んだ第１から第３の同一列テキストブロック群データに含まれている全てのテキストブロックＩＤに対応するテキストブロック６１－１～６１－５，６２－１～６２－５，６３－１～６３－５における最小と最大のＹ座標値を、テキストブロックリストテーブル２２０から検出する。垂直方向罫線追加部２６は、検出した最小と最大のＹ座標値を、それぞれ垂直方向の罫線の始点と終点のＹ座標値として特定する（Ｓｂ８）。

【0094】

垂直方向罫線追加部２６は、ループＬｂ２ｓ～Ｌｂ２ｅの処理を開始する。垂直方向罫線追加部２６は、例えば、最初に、第１の同一列テキストブロック群データを選択する。垂直方向罫線追加部２６は、選択した第１の同一列テキストブロック群データに含まれているテキストブロックＩＤに対応するテキストブロック６１－１～６１－５における最小のＸ座標値を、テキストブロックリストテーブル２２０から検出する。テキストブロック６１－１～６１－５の場合、左揃えになっているため、最小のＸ座標値は、テキストブロック６１－１～６１－５の第１頂点のＸ座標値になる。

【0095】

垂直方向罫線追加部２６は、検出した最小のＸ座標値を経由し、Ｓｂ８の処理において特定した垂直方向の罫線の始点と終点の各々を示すＹ座標値の間に、Ｙ軸と平行な垂直方向の罫線の線分データを文書データ５０に追加する。これにより、図１３に示す垂直方向の罫線７１－１の線分データが文書データ５０に追加されることになる（Ｓｂ９）。

【0096】

仮に、テキストブロック６１－１～６１－５が中央揃え、または、右揃えになっていたとする。この場合、最も幅の長さが大きいテキストブロック６１－５の第１頂点のＸ座標値が、最小のＸ座標値になる。したがって、テキストブロック６１－１～６１－５が左揃え、中央揃え、右揃えのいずれであったとしても、垂直方向罫線追加部２６が第１の同一列テキストブロック群データから検出する最小のＸ座標値は、テキストブロック６１－１～６１－５における右端の位置を示すことになる。そのため、Ｓｂ９の処理において、テキストブロック６１－１～６１－５の右端に垂直方向の罫線の線分データが追加されることになる。

【0097】

垂直方向罫線追加部２６は、次に、第２の同一列テキストブロック群データを選択して、第２の同一列テキストブロック群データに対するＳｂ９の処理を行うと、図１３に示す垂直方向の罫線７１－２の線分データが文書データ５０に追加されることになる。垂直方向罫線追加部２６は、更に、第３の同一列テキストブロック群データを選択して、第３の同一列テキストブロック群データに対するＳｂ９の処理を行うと、図１３に示す罫線７１－３の線分データが文書データ５０に追加されることになる（ループＬｂ２ｓ～Ｌｂ２ｅ）。なお、上記では、垂直方向罫線追加部２６は、第１の同一列テキストブロック群データ、第２の同一列テキストブロック群データ、第３の同一列ブロック群データの順に選択する例を示しているが、任意の順で選択しても同一の結果が得られることになる。

【0098】

垂直方向罫線追加部２６は、取り込んだ第１から第３の同一列テキストブロック群データに含まれる全てのテキストブロックＩＤに対応するテキストブロックリストテーブル２２０のレコードから最大のＸ座標値を検出する。文書データ５０の場合、第１から第３の同一列テキストブロック群データにおける最大のＸ座標値は、テキストブロック６３－２～６３－５の第２頂点のＸ座標値である。そのため、垂直方向罫線追加部２６は、テキストブロック６３－２～６３－５の第２頂点のＸ座標値を最大のＸ座標値として検出する。

【0099】

垂直方向罫線追加部２６は、検出した最大のＸ座標値を経由し、Ｓｂ８の処理において特定した垂直方向の罫線の始点と終点の各々を示すＹ座標値の間に、Ｙ軸と平行な垂直方向の罫線の線分データを文書データ５０に追加する。これにより、図１３に示す垂直方向の罫線７１－４の線分データが文書データ５０に追加されることになる（Ｓｂ１０）。これにより、文書データ５０に対して、Ｔａｂｌｅ２．１の表の縦方向の全ての罫線７１－１～７１－４の各々の線分データが追加されることになる。

【0100】

なお、Ｓｂ７～Ｓｂ１０の処理において、第１頂点のＸ座標値を参照して行う処理は、第４頂点のＸ座標値を参照して行う処理としてもよい。また、第２頂点のＸ座標値を参照して行う処理は、第３頂点のＸ座標値を参照して行う処理としてもよい。

【0101】

垂直方向罫線追加部２６は、同一列テキストブロック群検出部２５に対して、処理継続指示信号を出力する。同一列テキストブロック群検出部２５は、同一列テキストブロック群検出部２５は、垂直方向罫線追加部２６から処理継続指示信号を受けると、次に選択する行番号リストデータの有無を判定する。同一列テキストブロック群検出部２５が、次に選択する行番号リストデータが存在すると判定した場合、当該行番号リストデータに対するループＬｂ１ｓ～Ｌｂ１ｅの処理が行われる。ここでは、次の行番号リストデータとして、第２の行番号リストデータが存在するので、同一列テキストブロック群検出部２５は、第２の行番号リストデータを選択し、選択した第２の行番号リストデータに対するＳｂ７の処理を行う。同一列テキストブロック群検出部２５は、第２の行番号リストデータに対するＳｂ７の処理により得られた同一列テキストブロック群データを、垂直方向罫線追加部２６に出力する。

【0102】

垂直方向罫線追加部２６は、第２の行番号リストデータに対応する同一列テキストブロック群データを取り込むと、Ｓｂ８の処理と、ループＬｂ２ｓ～Ｌｂ２ｅの処理と、Ｓｂ１０の処理を行う。これにより、図１３に示すように、文書データ５０に対して、Ｔａｂｌｅ２．２の表の縦方向の全ての罫線７２－１，７２－２，７２－３，７２－４の各々の線分データが追加されることになる。

【0103】

同一列テキストブロック群検出部２５は、垂直方向罫線追加部２６から処理継続指示信号を受けた際に、次に選択する行番号リストデータが存在しないと判定した場合、終了通知信号を垂直方向罫線追加部２６に出力する。垂直方向罫線追加部２６は、同一列テキストブロック群検出部２５から終了通知信号を受けると、垂直方向の罫線７１－１～７１－４，７２－１～７２－４の線分データを追加した文書データ５０を、水平方向罫線追加部２７に出力して、ループＬｂ１ｓ～Ｌｂ１ｅの処理が終了する。なお、上記では、ループＬｂ１ｓ～Ｌｂ１ｅの処理において、第１の行番号リストデータ、第２の行番号リストデータの順に選択して処理が行われる例を示しているが、任意の順で選択しても同一の結果が得られることになる。

【0104】

水平方向罫線追加部２７は、行番号リスト分割部２４が出力する行番号リストデータと、垂直方向罫線追加部２６が出力する垂直方向の罫線の線分データが追加された文書データ５０とを取り込み、取り込んだ行番号リストデータごとに、ループＬｂ３ｓ～Ｌｂ３ｅの処理を行う。ここでは、水平方向罫線追加部２７が、行番号リストデータとして、第１の行番号リストデータと、第２の行番号リストデータとを取り込んだ場合について説明する。

【0105】

水平方向罫線追加部２７は、例えば、最初に、第１の行番号リストデータを選択する。水平方向罫線追加部２７は、第１の行番号リストデータに含まれる行番号である「ｍ」，「ｍ＋１」，「ｍ＋２」，「ｍ＋３」，「ｍ＋４」に関連付けられている全てのテキストブロックにおける最小と最大のＸ座標値をテキストブロックリストテーブル２２０の第１から第４頂点のＸ座標値から検出する。水平方向罫線追加部２７は、検出した最小と最大のＸ座標値を、それぞれ水平方向の罫線の始点と終点のＸ座標値として特定する（Ｓｂ１１）。

【0106】

水平方向罫線追加部２７は、例えば、最初に、第１の行番号リストデータの中で行番号の値が最も大きい「ｍ＋４」を選択する。水平方向罫線追加部２７は、「ｍ＋４」に関連付けられているテキストブロック６１－５，６２－５，６３－５の最小のＹ座標値を、テキストブロックリストテーブル２２０の第１から第４頂点の各々のＹ座標値の中から検出する。

【0107】

水平方向罫線追加部２７は、検出した最小のＹ座標値を経由し、Ｓｂ１１の処理において特定した最小と最大のＸ座標値の間に、Ｘ軸と平行な水平方向の罫線の線分データを文書データ５０に追加する。これにより、図１４に示す水平方向の罫線７３－１の線分データが文書データ５０に追加されることになる。なお、水平方向の罫線を文書データ５０に追加する際、既に、図１３に示した垂直方向の罫線７１－１～７１－４，７２－１～７２－４が追加されているが、図１４では見易さの観点から垂直方向の罫線７１－１～７１－４，７２－１～７２－４を省略して示している。

【0108】

水平方向罫線追加部２７は、「ｍ＋４」以外の「ｍ＋３」，「ｍ＋２」，「ｍ＋１」，「ｍ」についても、「ｍ＋４」の場合と同様の処理を行って、罫線７３－２，７３－３，７３－４，７３－５の線分データを文書データ５０に追加する（Ｓｂ１２）。なお、Ｓｂ１２の処理では、水平方向罫線追加部２７が行番号「ｍ＋４」から順に行番号「ｍ」まで選択する例を示しているが、任意の順で選択しても同一の結果が得られることになる。

【0109】

水平方向罫線追加部２７は、第１の行番号リストデータに対応する全てのテキストブロックにおける最大のＹ座標値をテキストブロックリストテーブル２２０の第１から第４頂点のＹ座標値の中から検出する。なお、文書データ５０では、行番号が小さい方が、Ｙ座標値が大きくなる。そのため、水平方向罫線追加部２７は、行番号の最も値が小さい「ｍ」に関連付けられているテキストブロック６１－１，６２－１，６３－１の中の最大のＹ座標値を、第１の行番号リストデータに対応する全てのテキストブロックの中の最大のＹ座標値として検出するようにしてもよい。

【0110】

水平方向罫線追加部２７は、検出した最大のＹ座標値を経由し、Ｓｂ１１の処理において特定した最小と最大のＸ座標値の間に、Ｘ軸と平行な水平方向の罫線の線分データを文書データ５０に追加する。これにより、図１４に示すＴａｂｌｅ２．１の表の最上段の横方向の罫線、すなわち、水平方向の罫線７３－６の線分データが文書データ５０に追加されることになる（Ｓｂ１３）。

【0111】

水平方向罫線追加部２７は、次に、第２の行番号リストデータを選択し、第１の行番号リストデータと同様の処理を行う。これにより、Ｔａｂｌｅ２．２の表に対して、図１４に示す罫線７４－１，７４－２，７４－３，７４－４，７４－５の各々の線分データが、水平方向罫線追加部２７によって文書データ５０に追加されることになる（ループＬｂ３ｓ～Ｌｂ３ｅ）。なお、上記では、ループＬｂ３ｓ～Ｌｂ３ｅの処理は、第１の行番号リストデータ、第２の行番号リストデータの順に選択して処理が行われる例を示しているが、任意の順で選択しても同一の結果が得られることになる。

【0112】

これにより、文書データ５０に対して、図１５に示すように、Ｔａｂｌｅ２．１及びＴａｂｌｅ２．２の表の各々において、垂直方向の罫線７１－１～７１－４，７２－１～７２－４、及び水平方向の罫線７３－１～７３－６，７４－１～７４－５の各々の線分データが追加され、表の各セルが、罫線で区切られた矩形形状になる。水平方向罫線追加部２７は、最終的に得られた図１５に示す文書データ５０を、罫線追加文書データとして外部に出力する。その後、文書データ処理装置２は、文書データ５０に対する処理を終了する。文書データ取込部１０が、次の１ページの文書データをテキストブロック検出部２１と、垂直方向罫線追加部２６とに出力した場合、当該文書データに対するＳｂ２以降の処理が行われる。

【0113】

（第２の実施形態の構成による作用・効果）
上記の第２の実施形態の文書データ処理装置２の構成により、例えば、文書データ５０のように、横方向の一部の罫線が示されている表を含んでいる場合に、縦と横の罫線を加えることが可能になる。そのため、Ｔａｂｌｅ２．１及びＴａｂｌｅ２．２の各々に含まれる個々のセルが矩形形状の線で囲まれる状態にすることができる。このように、表に含まれる全てのセルが罫線で囲まれることにより、例えば、罫線で囲まれたセルに含まれるデータを読み出す一般に利用されているアプリケーションソフトウェアを用いることで、Ｔａｂｌｅ２．１及びＴａｂｌｅ２．２の各々に含まれている項目名や項目値といったデータを読み出すことが可能になる。そのため、例えば、仕様書のようにページ数が多く、また、表が多用されている文書データから、表に含まれる項目名や項目値を容易に読み出すことができる。

【0114】

なお、第２の実施形態の文書データ処理装置２は、第１の実施形態の文書データ処理装置１のように表に存在する罫線を利用した処理を行っていない。そのため、例えば、文書データ５０のＴａｂｌｅ２．１、及びＴａｂｌｅ２．２において横方向の罫線が省略されていたとしても、文書データ処理装置２は、縦と横の罫線を加えることができる。

【0115】

（第２の実施形態の他の構成例）
上記の第２の実施形態において、垂直方向罫線追加部２６は、図１３のＴａｂｌｅ２．１の場合、表における同一列のテキストブロック群の左端に罫線７１－１，７１－２，７１－３を追加して、表の右端の同一列のテキストブロック群の右端に罫線７１－４を追加するようにしている。これに対して、垂直方向罫線追加部２６は、左端と右端とを入れ替えて、表における同一列のテキストブロック群の右端に罫線を追加して、表の左端の同一列のテキストブロック群の左端に罫線を追加するようにしてもよい。すなわち、垂直方向罫線追加部２６は、ループＬｂ２ｓ～Ｌｂ２ｅの処理において、同一列テキストブロック群データごとに、同一列テキストブロック群データに含まれるテキストブロックにおける最大のＸ座標値の垂直線の線分データを文書データ５０に追加する。垂直方向罫線追加部２６は、Ｓｂ１０の処理において、１つの行番号リストデータから検出された全ての同一列テキストブロック群データに含まれるテキストブロックにおける最小のＸ座標値を、行番号リストデータごとに検出する。垂直方向罫線追加部２６は、検出した最小のＸ座標値の各々に対応する垂直線の線分データを文書データ５０に追加する。この場合、図１３のＴａｂｌｅ２．１を例とすると、罫線７１－１は、テキストブロック６１－５の第２頂点と第３頂点とを経由する垂直線になる。罫線７１－２は、テキストブロック６２－１の第２頂点と第３頂点とを経由する垂直線になる。罫線７１－３は、罫線７１－４の位置になり、罫線７１－４は、罫線７１－１の位置になる。

【0116】

上記の第２の実施形態において、水平方向罫線追加部２７は、図１４のＴａｂｌｅ２．１の場合、表における行ごとのテキストブロックの下端に罫線７３－１，７３－２，７３－３，７３－４，７３－５を追加して、表の最上段の行の上端に罫線７３－６を追加するようにしている。これに対して、水平方向罫線追加部２７は、下端と上端とを入れ替えて、表における行ごとのテキストブロックの上端に罫線を追加して、表の最下段の行の下端に罫線を追加するようにしてもよい。すなわち、水平方向罫線追加部２７は、Ｓｂ１２の処理において、行番号リストデータに含まれる行番号の各々に対応するＹ座標値を、当該行番号に関連付けられているテキストブロックにおける最大のＹ座標値とする。その上で、水平方向罫線追加部２７は、行番号の各々に対応するＹ座標値の水平線の線分データを文書データ５０に追加する。水平方向罫線追加部２７は、１つの行番号リストデータに含まれる行番号に関連付けられているテキストブロックにおける最小のＹ座標値を、行番号リストデータごとに検出する。水平方向罫線追加部２７は、検出した最小のＹ座標値の各々に対応する水平線の線分データを文書データ５０に追加する。この場合、図１４のＴａｂｌｅ２．１を例とすると、罫線７３－１は、テキストブロック６１－５，６２－５，６３－５の最大のＹ座標値の水平線になる。罫線７３－２は、テキストブロック６１－４，６２－４，６３－４の最大のＹ座標値の水平線になる。罫線７３－３は、テキストブロック６１－３，６２－３，６３－３の最大のＹ座標値の水平線になる。罫線７３－４は、テキストブロック６１－２，６２－２，６３－２の最大のＹ座標値の水平線になる。罫線７３－５は、罫線７３－６の位置になり、罫線７３－６は、罫線７３－１の位置になる。

【0117】

上記の第２の実施形態では、垂直方向罫線追加部２６が、Ｓｂ８の処理において、垂直方向の罫線の始点と終点のＹ座標値を特定している。また、水平方向罫線追加部２７が、Ｓｂ１１の処理において、水平方向の罫線の始点と終点のＸ座標値を特定している。第２の実施形態では、表の全体が矩形形状の罫線によって囲まれることを目的とするのではなく、表のセルの各々が、罫線によって囲まれるようにすればよい。そのため、垂直方向罫線追加部２６が特定した垂直方向の罫線の始点の終点のＹ座標値のうち、小さい方のＹ座標値を所定量小さくし、大きい方のＹ座標値を所定量大きくする。また、水平方向罫線追加部２７が特定した水平方向の始点と終点のＸ座標値のうち、小さい方のＸ座標値を所定量小さくし、大きい方のＸ座標値を所定量大きくするようにしてもよい。ここで、所定量は、他の表の罫線に交差しない程度の量が予め定められる。このように、罫線の長さを、両端において所定量分長くしたとしても、表のセルの各々は、罫線によって囲まれることになる。

【0118】

上記の第２の実施形態では、行番号リストデータに含まれる行番号の数が、２個以下である場合、単に、同一行に複数のテキストブロックが存在する行が、連続して、１行、または、２行で並んでいるだけであり、表ではない可能性が高いとしている。そのため、行番号リスト分割部２４は、Ｓｂ６の処理において、３個以上の行番号を含む行番号リストデータを選択するようにしている。言い換えると、第２の実施形態の文書データ処理装置２では、３行２列の表を、検出する表の最小構成として想定している。これに対して、同一行に複数のテキストブロックが存在する行が連続して２行で並んでいる表、すなわち、２行２列の表を検出対象の表に含める場合、行番号リスト分割部２４は、Ｓｂ６の処理において、２個以上の行番号を含む行番号リストデータを選択するようにすればよい。また、４行２列の表を、検出する表の最小構成とする場合、行番号リスト分割部２４は、Ｓｂ６の処理において、４個以上の行番号を含む行番号リストデータを選択するようにすればよい。言い換えると、Ｓｂ６の処理における個数を変更することにより、検出対象とする表の最小構成を変更することが可能になる。

【0119】

上記の第２の実施形態において、例えば、文書データ５０に表が１つしか含まれていることが予め分かっている場合、文書データ処理装置２は、行番号リスト分割部２４を備えない構成としてもよい。この場合、行番号リスト生成部２３が、図１２のＳｂ６の処理を行った上で、３個以上の行番号を含む行番号リストデータを同一列テキストブロック群検出部２５と、水平方向罫線追加部２７とに出力することになる。

【0120】

上記の第２の実施形態において、図１２のフローチャートの処理では、ループＬｂ１ｓ～Ｌｂ１ｅの処理の後に、ループＬｂ３ｓ～Ｌｂ３ｅの処理を行うようにしている。これに対して、ループＬｂ３ｓ～Ｌｂ３ｅの処理を行って、水平線の線分データを文書データ５０に追加した後に、ループＬｂ１ｓ～Ｌｂ１ｅの処理を行って、垂直線の線分データを文書データ５０に追加するようにしてもよい。

【0121】

（第１及び第２の実施形態の他の構成例）
上記の第１及び第２の実施形態では、文書データ３０，５０のＸＹ座標系の原点の位置を左下の頂点の位置にしている。これに対して、文書データ３０，５０のＸＹ座標系の原点の位置を、左下の頂点以外の頂点の位置としてもよい。

【0122】

以上、本開示の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施の形態に限られるものではなく、本開示の要旨を逸脱しない範囲の設計等も含まれる。

【0123】

（コンピュータ構成）
図１６は、上記の実施形態に係る文書データ処理装置１，２の各々を実現するコンピュータの構成を示す概略ブロック図である。コンピュータ９０は、プロセッサ９１、メインメモリ９２、ストレージ９３、及びインタフェース９４を備える。上記の文書データ処理装置１，２が備える文書データ取込部１０、及び文書データ処理装置１が備える交点座標検出部１１、表構成交点座標検出部１３、表候補領域検出部１４、表領域生成部１５、罫線追加部１６、並びに文書データ処理装置２が備えるテキストブロック検出部２１、行番号リスト生成部２３、行番号リスト分割部２４、同一列テキストブロック群検出部２５、垂直方向罫線追加部２６、水平方向罫線追加部２７は、コンピュータ９０に実装される。これらの機能部の動作は、プログラムの形式でストレージ９３に記憶される。プロセッサ９１は、プログラムをストレージ９３から読み出してメインメモリ９２に展開し、当該プログラムに従って図４や図１２に示す処理を実行する。また、プロセッサ９１は、プログラムに従って、記憶部１２，２２の各々に対応する記憶領域をメインメモリ９２に確保する。

【0124】

プログラムは、コンピュータ９０に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータは、上記構成に加えて、または上記構成に代えてＰＬＤ（Programmable Logic Device）などのカスタムＬＳＩ（Large Scale Integrated Circuit）を備えてもよい。ＰＬＤの例としては、ＰＡＬ(Programmable Array Logic)、ＧＡＬ(Generic Array Logic)、ＣＰＬＤ(Complex Programmable Logic Device)、ＦＰＧＡ（Field Programmable Gate Array）等が挙げられる。この場合、プロセッサによって実現される機能の一部または全部が当該集積回路によって実現されてよい。

【0125】

ストレージ９３の例としては、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、半導体メモリ等が挙げられる。ストレージ９３は、コンピュータ９０のバスに直接接続された内部メディアであってもよいし、インタフェース９４または通信回線を介してコンピュータ９０に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ９０に配信される場合、配信を受けたコンピュータ９０が当該プログラムをメインメモリ９２に展開し、上記処理を実行してもよい。また、ストレージ９３は、一時的でない有形の記憶媒体である。

【0126】

＜付記＞
各実施形態に記載の文書データ処理装置１，２は、例えば以下のように把握される。

【0127】

（１）第１の態様に係る文書データ処理装置１は、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データ３０からＸ軸に平行な水平線と、Ｙ軸に平行な垂直線とを検出し、検出した前記水平線と、前記垂直線との交点の座標である交点座標を検出する交点座標検出部１１と、前記交点座標から頂点を示す座標を除外した頂点除外交点座標において、Ｘ座標値が他の前記頂点除外交点座標と同一である前記頂点除外交点座標を表構成交点座標として検出する表構成交点座標検出部１３と、前記表構成交点座標を経由する前記水平線の両端のＸ座標値の２つの垂直線と、前記表構成交点座標を経由する前記垂直線の両端のＹ座標値の２つの水平線によって定められる矩形領域を表候補領域として検出する表候補領域検出部１４と、前記表候補領域から表領域を生成する表領域生成部１５と、前記表領域の最大及び最小のＹ座標値の２つの水平線と、前記表領域の最大及び最小のＸ座標値の２つの垂直線とによって定められる矩形形状に基づいて、前記文書データ３０に対して罫線を追加する罫線追加部１６と、を備える。本態様及び以下の（２）、（３）の態様によれば、文書データ３０に示されている表に含まれる個々のセルが矩形形状の線で囲まれるようにすることができる。

【0128】

（２）第２の態様に係る文書データ処理装置１は、（１）の文書データ処理装置１であって、前記表領域生成部１５は、前記表候補領域が複数存在する場合、共通の重複領域を含む前記表候補領域を囲む最小の矩形領域を新たな表候補領域とすることを繰り返し行い、前記重複領域が存在しなくなった際に存在する前記表候補領域の各々を前記表領域とする。

【0129】

（３）第３の態様に係る文書データ処理装置１は、（１）または（２）の文書データ処理装置１であって、前記表候補領域検出部１４は、前記表構成交点座標の数が、２個以上である場合、前記表候補領域の検出を行う。これにより、文書データ処理装置１において、検出する表の最小構成を、１本の垂直線に対して、２本の水平線が交差した３行２列の表にすることができる。

【0130】

（４）第４の態様に係る文書データ処理装置２は、直交するＸ座標とＹ座標とによって文書中の位置が示される文書データ５０からテキストブロックを検出し、検出した前記テキストブロックの所定位置のＹ座標値によって特定される行番号であってＹ座標値の大きさにしたがった順番で表される行番号を、検出した前記テキストブロックに関連付けるテキストブロック検出部２１と、複数の前記テキストブロックが関連付けられている前記行番号を検出し、検出した前記行番号を番号順にしたがって並べた行番号リストを生成する行番号リスト生成部２３と、前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックにおいて、同一列に属する前記テキストブロックを、同一列テキストブロック群として検出する同一列テキストブロック群検出部２５と、前記同一列テキストブロック群に含まれる前記テキストブロックのＸ座標値に基づいて、Ｙ軸に平行な垂直方向の罫線を前記文書データ５０に追加する垂直方向罫線追加部２６と、前記行番号リストに含まれる前記行番号ごとに、当該行番号に関連付けられている前記テキストブロックのＹ座標値に基づいて、Ｘ軸に平行な水平方向の罫線を前記文書データ５０に追加する水平方向罫線追加部２７と、を備える。本態様及び以下の（５）から（１４）の態様によれば、文書データ５０に示されている表に含まれる個々のセルが矩形形状の線で囲まれるようにすることができる。

【0131】

（５）第５の態様に係る文書データ処理装置２は、（４）の文書データ処理装置１であって、前記テキストブロック検出部２１は、文字と文字の間に１スペースがある場合には、文字が連続しているとみなして、Ｘ軸方向に連続する文字の範囲の各々を前記テキストブロックとして検出する。

【0132】

（６）第６の態様に係る文書データ処理装置２は、（４）または（５）の文書データ処理装置２であって、前記行番号リストの最初と最後の行番号の間に存在する全ての前記行番号に関連付けられている前記テキストブロックのいずれかに所定の表区切り文字を含むテキストブロックが存在する場合、当該テキストブロックに関連付けられている前記行番号の前後で、前記行番号リストを分割し、分割した前記行番号リストの各々を新たな行番号リストとする行番号リスト分割部２４を備える。これにより、文書データ５０に複数の表が含まれている場合、文書データ５０に示されている表ごとに、表の各々に含まれる個々のセルが矩形形状の線で囲まれるようにすることができる。

【0133】

（７）第７の態様に係る文書データ処理装置２は、（６）の文書データ処理装置２であって、前記行番号リスト分割部２４は、分割により最終的に得られた前記行番号リストのうち、要素として含まれる前記行番号の数が、３個以上の前記行番号リストを選択し、３個未満の前記行番号リストを破棄する。これにより、文書データ処理装置２において、検出する表の最小構成を、１本の垂直線に対して、２本の水平線が交差した３行２列の表にすることができる。

【0134】

（８）第８の態様に係る文書データ処理装置２は、（４）から（７）の文書データ処理装置２であって、前記同一列テキストブロック群検出部２５は、前記行番号リストに含まれる前記行番号の各々に関連付けられている前記テキストブロックの中から前記テキストブロックの所定位置のＸ座標値が一致する前記テキストブロックを、前記行番号リストごとに検出し、検出した前記テキストブロックの組み合わせを前記同一列テキストブロック群とする。

【0135】

（９）第９の態様に係る文書データ処理装置２は、（４）から（８）の文書データ処理装置２であって、前記垂直方向罫線追加部２６は、前記同一列テキストブロック群ごとに、前記同一列テキストブロック群に含まれる前記テキストブロックにおける最小のＸ座標値の垂直線を前記垂直方向の罫線として前記文書データ５０に追加すると共に、１つの前記行番号リストから検出された全ての前記同一列テキストブロック群に含まれる前記テキストブロックにおける最大のＸ座標値を、前記行番号リストごとに検出し、検出した前記最大のＸ座標値の各々に対応する垂直線を前記垂直方向の罫線として前記文書データ５０に追加する。これにより、例えば、ＸＹ座標の原点が、文書データ５０の左下に存在する場合、同一列のテキストブロックの左端に垂直方向の罫線を列ごと追加し、表の右端に垂直方向の罫線を追加することができる。

【0136】

（１０）第１０の態様に係る文書データ処理装置２は、（４）から（８）の文書データ処理装置２であって、前記垂直方向罫線追加部２６は、前記同一列テキストブロック群ごとに、前記同一列テキストブロック群に含まれる前記テキストブロックにおける最大のＸ座標値の垂直線を前記垂直方向の罫線として前記文書データ５０に追加すると共に、１つの前記行番号リストから検出された全ての前記同一列テキストブロック群に含まれる前記テキストブロックにおける最小のＸ座標値を、前記行番号リストごとに検出し、検出した前記最小のＸ座標値の各々に対応する垂直線を前記垂直方向の罫線として前記文書データ５０に追加する。これにより、例えば、ＸＹ座標の原点が、文書データ５０の左下に存在する場合、同一列のテキストブロックの右端に垂直方向の罫線を列ごと追加し、表の左端に垂直方向の罫線を追加することができる。

【0137】

（１１）第１１の態様に係る文書データ処理装置２は、（９）または（１０）の文書データ処理装置２であって、前記垂直方向罫線追加部２６は、前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最大と最小のＹ座標値を、前記行番号リストごとに検出し、検出した前記最大と最小のＹ座標値の組み合わせの各々を、各々に対応する前記垂直線の始点と終点のＹ座標値とする。これにより、表が存在する範囲に応じた長さの垂直方向の罫線を追加することができる。

【0138】

（１２）第１２の態様に係る文書データ処理装置２は、（４）から（１１）の文書データ処理装置２であって、前記水平方向罫線追加部２７は、前記行番号リストに含まれる前記行番号の各々に対応するＹ座標値を、当該行番号に関連付けられている前記テキストブロックにおける最小のＹ座標値とし、前記行番号の各々に対応するＹ座標値の水平線を前記水平方向の罫線として前記文書データ５０に追加すると共に、１つの前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最大のＹ座標値を、前記行番号リストごとに検出し、検出した前記最大のＹ座標値の各々に対応する水平線を前記水平方向の罫線として前記文書データ５０に追加する。これにより、例えば、ＸＹ座標の原点が、文書データ５０の左下に存在する場合、同一行のテキストブロックの下端に罫線を行ごとに追加し、表の上端に罫線を追加することができる。

【0139】

（１３）第１３の態様に係る文書データ処理装置２は、（４）から（１１）の文書データ処理装置２であって、前記水平方向罫線追加部２７は、前記行番号リストに含まれる前記行番号の各々に対応するＹ座標値を、当該行番号に関連付けられている前記テキストブロックにおける最大のＹ座標値とし、前記行番号の各々に対応するＹ座標値の水平線を前記水平方向の罫線として前記文書データ５０に追加すると共に、１つの前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最小のＹ座標値を、前記行番号リストごとに検出し、検出した前記最小のＹ座標値の各々に対応する水平線を前記水平方向の罫線として前記文書データ５０に追加する。これにより、例えば、ＸＹ座標の原点が、文書データ５０の左下に存在する場合、同一行のテキストブロックの上端に罫線を行ごとに追加し、表の下端に罫線を追加することができる。

【0140】

（１４）第１４の態様に係る文書データ処理装置２は、（１２）または（１３）の文書データ処理装置２であって、前記水平方向罫線追加部２７は、前記行番号リストに含まれる全ての前記行番号に関連付けられている前記テキストブロックにおける最大と最小のＸ座標値を、前記行番号リストごとに検出し、検出した前記最大と最小のＸ座標値の組み合わせの各々を、各々に対応する前記水平線の始点と終点のＸ座標値とする。これにより、表が存在する範囲に応じた長さの水平方向の罫線を追加することができる。

【符号の説明】

【0141】

１，２文書データ処理装置
１０文書データ取込部
１１交点座標検出部
１２，２２記憶部
１３表構成交点座標検出部
１４表候補領域検出部
１５表領域生成部
１６罫線追加部
２１テキストブロック検出部
２３行番号リスト生成部
２４行番号リスト分割部
２５同一列テキストブロック群検出部
２６垂直方向罫線追加部
２７水平方向罫線追加部
３０，５０文書データ

【図1】