特開2024-38698 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特開2024-38698情報処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024038698

(43)【公開日】2024-03-21

(54)【発明の名称】情報処理装置及びプログラム

(51)【国際特許分類】

G06F 40/137 20200101AFI20240313BHJP

【ＦＩ】

G06F40/137

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022142922

(22)【出願日】2022-09-08

(71)【出願人】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】100104880

【弁理士】

【氏名又は名称】古部次郎

(74)【代理人】

【識別番号】100125346

【弁理士】

【氏名又は名称】尾形文雄

(72)【発明者】

【氏名】横瀬太郎

(72)【発明者】

【氏名】菊地崇

【テーマコード（参考）】

5B109

【Ｆターム（参考）】

5B109NH07

(57)【要約】

【課題】特定の文字や記号等を用いて構造化されていない文書を構造化する場合に比して、より多くの構造の抽出を可能にする。
【解決手段】プロセッサにより、レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出し、レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する情報処理装置。
【選択図】図４

【特許請求の範囲】

【請求項1】

プロセッサを有し、
前記プロセッサは、
レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出し、
レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する、
情報処理装置。

【請求項2】

前記プロセッサは、
文字の並び方向における各文字列の開始位置の違いにより、各文字列に付与する下位構造を決定する、
請求項１に記載の情報処理装置。

【請求項3】

前記プロセッサは、
各文字列の開始位置と基準位置との間に１文字未満の端数が含まれる場合、当該端数に予め定めた規則を適用し、各文字列に付与する下位構造を決定する、
請求項２に記載の情報処理装置。

【請求項4】

前記プロセッサは、
前記端数の切り下げにより、各文字列に付与する下位構造を決定する、
請求項３に記載の情報処理装置。

【請求項5】

前記プロセッサは、
前記端数の四捨五入により、各文字列に付与する下位構造を決定する、
請求項３に記載の情報処理装置。

【請求項6】

前記プロセッサは、
文字の並び方向における各文字列の開始位置に基づいて前記集団を決定する、
請求項１に記載の情報処理装置。

【請求項7】

前記プロセッサは、
同じ行内に、閾値以上離れた複数の文字列が存在する場合、当該複数の文字列を異なる集団に割り当てる、
請求項６に記載の情報処理装置。

【請求項8】

前記プロセッサは、
文字列を記述する文字種、文字枠、囲み枠のいずれか１つ又はこれらの組み合わせに基づいて前記集団を決定する、
請求項１に記載の情報処理装置。

【請求項9】

前記プロセッサは、
対応する集団が共通する複数の文字列を一まとまりに出力する、
請求項１に記載の情報処理装置。

【請求項10】

前記プロセッサは、
一まとまりに出力される前記文字列の文字下げ量を、前記下位構造の違いにより決定する、
請求項９に記載の情報処理装置。

【請求項11】

前記プロセッサは、
各文字列の前後に、前記上位構造と前記下位構造を示すタグを付与する、
請求項１に記載の情報処理装置。

【請求項12】

コンピュータに、
レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出する機能と、
レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する機能と、
を実現させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及びプログラムに関する。

【背景技術】

【0002】

見出しや箇条書きの先頭に現れる特定の文字や記号（以下「ヘディング情報」という。）に基づいて、構造化されていない文書に論理構造を付与する技術がある。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第３９４０４９１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、ヘディング情報を用いて文をグループに分類する技術では、文の包含関係又は階層関係を示す情報が失われてしまう。

【0005】

本発明は、特定の文字や記号等を用いて構造化されていない文書を構造化する場合に比して、より多くの構造の抽出を可能にすることを目的とする。

【課題を解決するための手段】

【0006】

請求項１に記載の発明は、プロセッサを有し、前記プロセッサは、レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出し、レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する、情報処理装置である。
請求項２に記載の発明は、前記プロセッサは、文字の並び方向における各文字列の開始位置の違いにより、各文字列に付与する下位構造を決定する、請求項１に記載の情報処理装置である。
請求項３に記載の発明は、前記プロセッサは、各文字列の開始位置と基準位置との間に１文字未満の端数が含まれる場合、当該端数に予め定めた規則を適用し、各文字列に付与する下位構造を決定する、請求項２に記載の情報処理装置である。
請求項４に記載の発明は、前記プロセッサは、前記端数の切り下げにより、各文字列に付与する下位構造を決定する、請求項３に記載の情報処理装置である。
請求項５に記載の発明は、前記プロセッサは、前記端数の四捨五入により、各文字列に付与する下位構造を決定する、請求項３に記載の情報処理装置である。
請求項６に記載の発明は、前記プロセッサは、文字の並び方向における各文字列の開始位置に基づいて前記集団を決定する、請求項１に記載の情報処理装置である。
請求項７に記載の発明は、前記プロセッサは、同じ行内に、閾値以上離れた複数の文字列が存在する場合、当該複数の文字列を異なる集団に割り当てる、請求項６に記載の情報処理装置である。
請求項８に記載の発明は、前記プロセッサは、文字列を記述する文字種、文字枠、囲み枠のいずれか１つ又はこれらの組み合わせに基づいて前記集団を決定する、請求項１に記載の情報処理装置である。
請求項９に記載の発明は、前記プロセッサは、対応する集団が共通する複数の文字列を一まとまりに出力する、請求項１に記載の情報処理装置である。
請求項１０に記載の発明は、前記プロセッサは、一まとまりに出力される前記文字列の文字下げ量を、前記下位構造の違いにより決定する、請求項９に記載の情報処理装置である。
請求項１１に記載の発明は、前記プロセッサは、各文字列の前後に、前記上位構造と前記下位構造を示すタグを付与する、請求項１に記載の情報処理装置である。
請求項１２に記載の発明は、コンピュータに、レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出する機能と、レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する機能と、を実現させるためのプログラムである。

【発明の効果】

【0007】

請求項１記載の発明によれば、特定の文字や記号等を用いて構造化されていない文書を構造化する場合に比して、より多くの構造の抽出を可能にできる。
請求項２記載の発明によれば、同じ集団に属する文字列に包含関係を付与できる。
請求項３記載の発明によれば、１文字未満の開始位置のずれがあっても下位構造を決定できる。
請求項４記載の発明によれば、１文字未満の開始位置のずれを下位階層の違いから無視できる。
請求項５記載の発明によれば、１文字未満の開始位置の違いを下位階層の違いに反映できる。
請求項６記載の発明によれば、文字列の開始位置に基づいて、構造化されていない文書から複数の集団を抽出できる。
請求項７記載の発明によれば、同じ行内にある文字列でも特定の条件を満たせば異なる集団に分離できる。
請求項８記載の発明によれば、文字種に基づいて、構造化されていない文書から複数の集団を抽出できる。
請求項９記載の発明によれば、出力される文書の可読性を向上できる。
請求項１０記載の発明によれば、同じ集団に属する複数の文字列の包含関係を表現できる。
請求項１１記載の発明によれば、検索のヒット率を向上できる。
請求項１２記載の発明によれば、特定の文字や記号等を用いて構造化されていない文書を構造化する場合に比して、より多くの構造の抽出を可能にできる。

【図面の簡単な説明】

【0008】

【図1】実施の形態１における情報処理システムの構成例を説明する図である。

【図2】サーバのハードウェア上の構成例を示す図である。

【図3】ユーザ端末のハードウェア上の構成例を示す図である。

【図4】実施の形態１における処理動作例を説明するフローチャートである。

【図5】処理対象とする文書の一例を示す図である。

【図6】実施の形態１におけるクラスタの抽出例を説明する図である。

【図7】文書からの構造の抽出結果の一例を説明する図表である。

【図8】実施の形態１による処理動作で抽出されたレイアウト上の構造を用いた文書の出力例を示す図である。

【図9】文書内の文字列を網羅的に抽出して構造化した文書の出力例を示す図である。

【図10】実施の形態１による処理動作で抽出されたレイアウト上の構造を用いた文書の他の出力例を示す図である。

【図11】文書から抽出された階層に紐づけるタグの関係を説明する図である。

【図12】実施の形態１による処理動作で抽出されたレイアウト上の構造を用いた文書の他の出力例を示す図である。

【図13】実施の形態２における処理動作例を説明するフローチャートである。

【図14】実施の形態２で処理対象とする文書の一例を示す図である。

【図15】文書に設定されている文字枠を説明する図である。

【図16】実施の形態２におけるクラスタの抽出例を説明する図である。

【図17】実施の形態３における処理動作例を説明するフローチャートである。

【図18】実施の形態３で処理対象とする文書の一例を示す図である。

【図19】文字種の情報を用いた文字の統合を説明する図である。

【図20】実施の形態４における処理動作例を説明するフローチャートである。

【図21】実施の形態４で処理対象とする文書の一例を示す図である。

【図22】囲み枠の外側と内側を説明する図である。

【図23】他の実施の形態（２）で処理対象とする文書の一例を示す図である。

【発明を実施するための形態】

【0009】

以下、図面を参照して、本発明の実施の形態を説明する。
＜用語＞
まず、実施の形態で使用する用語を説明する。
「文書」は、例えば印刷物、電子文書、電子化された文書である。実施の形態で想定する文書は、文字で記述されている。なお、文字の並び方向は横方向でも縦方向でもよい。また、実施の形態で想定する文書には写真、イラスト等の画像が含まれてもよい。
「印刷物」は、表面に文字や画像が定着された用紙やフィルムその他の媒体をいう。
「電子文書」は、情報機器やソフトウェアを用いて作成されたデジタル形式の文書をいう。ソフトウェアには、例えばオフィスソフトがある。
「電子化された文書」は、電子化されていない文書から生成された文書をいう。ここでの文書には、スキャナで取り込んだ印刷物等の画像イメージ、カメラで撮像された印刷物等の画像イメージも含まれる。

【0010】

「構造化されている文書」は、論理構造が付された電子文書又は電子化文書をいう。ここでの論理構造には、文字列間の階層構造が含まれる。
「構造化されていない文書」は、論理構造が付されていない電子文書又は電子化文書をいう。
「レイアウト上の特徴」は、構造化されていない文書のレイアウトに現れる特徴をいう。特徴には、例えば文字列の開始位置、２つの文字列の間隔、文字種、文字枠、囲み枠がある。
「２つの文字列の間隔」は、文字の並び方向に出現する２つの文字列の間の空白部分の長さ又は幅をいう。

【0011】

「文字列」は、文字の並び方向に連続する複数の文字をいう。句点や読点は１文字として扱われる。
「文字種」は、例えばフォント、サイズ、色、スタイル、文字の装飾をいう。スタイルには、例えば標準文字、斜体文字、太文字がある。文字の装飾には、例えば取り消し線、下線、上付き、下付きがある。
「文字枠」は、文字を入力する位置と範囲を指定する枠である。文字枠は、電子文書を記述するデータの一部である。文字枠は、視認可能な場合と視認されない場合がある。

【0012】

「囲み枠」は、文字列の可読性を高める装飾の一種である。囲み枠は、文字枠とは独立に設けられる。なお、囲み枠は、枠線として文字列を囲むだけでなく、他の文字列との境界を表す罫線や記号でもよい。例えば文字列の四隅に配置される記号は、枠線と同様の機能を発揮する。同様に、２つの文字列の間に配置される罫線は、２つの文字列を区別する機能を発揮する。なお、特定の文字列の背景色の違いや模様の違いによって、他の文字列との区別が可能になる場合には、囲み枠に準ずるものとし扱う。なお、囲み枠も、文字枠と同様、視認可能な場合と視認されない場合がある。

【0013】

「レイアウト上の構造」は、レイアウト上の特徴から抽出が可能な構造をいう。実施の形態では、上位構造と下位構造の２つを扱う。
「上位構造」は、構造化されていない文書に現れる１又は複数の文字列で構成されるクラスタ（すなわち集団）をいう。換言すると、上位構造は、レイアウト的に区別される文字列のクラスタ（すなわち集団）に対応する。
「下位構造」は、クラスタ（すなわち集団）に属する複数の文字列のレイアウト上の構造をいう。換言すると、下位構造は、レイアウト的に区別されるサブクラスタ（すなわち部分集団）であり、例えば階層関係を規定する。

【0014】

＜実施の形態１＞
＜システム構成＞
図１は、実施の形態１における情報処理システム１の構成例を説明する図である。
図１に示す情報処理システム１は、ネットワークＮに接続されたサーバ１０とユーザ端末２０で構成されている。
説明の都合上、図１に示す情報処理システム１は、ユーザＡが操作するユーザ端末２０とユーザＢが操作するユーザ端末２０のみを表している。
以下では、ユーザＡとユーザＢを区別しない場合、ユーザと表記する。

【0015】

サーバ１０は、情報処理装置の一例であり、構造化されていない文書からレイアウト上の構造を抽出する機能を有している。
本実施の形態で説明するサーバ１０は、レイアウト上の構造を抽出する機能に特化している必要はなく、文書を管理する機能や印刷の実行を制御する機能を有してもよい。文書を管理する機能を有するサーバは、文書管理サーバとも呼ばれる。また、印刷の実行を制御する機能を有するサーバは、印刷サーバとも呼ばれる。

【0016】

サーバ１０は、クラウド型のサーバでもオンプレミス型のサーバでもよい。すなわち、ネットワークＮは、インターネットでもＬＡＮ（=Local Area Network）でもよい。なお、ネットワークＮは、５Ｇその他の移動体通信システムでもよい。因みに、サーバ１０は１台に限らず、複数台でもよい。

【0017】

ユーザ端末２０も、情報処理装置の一例である。本実施の形態の場合、ユーザ端末２０は、サーバ１０に対する文書のアップロードと、サーバ１０による情報処理の結果（すなわち処理結果）の閲覧やダウンロードに使用される。
アップロードする文書は、例えば構造化されていない文書である。また、処理結果には、レイアウト上の構造の情報が付された電子文書がある。ここでの電子文書には、例えばＨＴＭＬ（＝HyperText Markup Language）文書やＸＭＬ（＝Extensible Markup Language）文書がある。これらの文書の場合、構造上の情報がタグとして埋め込まれる。
本実施の形態の場合、ユーザ端末２０として、デスクトップ型の端末、ノート型の端末、タブレット型の端末、スマートフォンを使用する。なお、ユーザ端末２０は、ウェアラブル端末でもよい。

【0018】

＜端末構成＞
図２は、サーバ１０のハードウェア上の構成例を示す図である。
図２に示すサーバ１０は、装置全体の動作を制御するプロセッサ１１と、ＢＩＯＳ（＝Basic Input Output System）等が記憶されたＲＯＭ（＝Read Only Memory）１２と、プロセッサ１１のワークエリアとして用いられるＲＡＭ（＝Random Access Memory）１３と、補助記憶装置１４と、通信モジュール１５を有している。なお、プロセッサ１１と他のデバイスとは、バス等の信号線１６を通じて接続されている。

【0019】

プロセッサ１１と、ＲＯＭ１２と、ＲＡＭ１３は、いわゆるコンピュータとして機能する。
プロセッサ１１は、プログラムの実行を通じ、各種の機能を実現する。例えばプロセッサ１１は、構造化されていない文書からレイアウト上の構造を抽出する処理を実行する。
補助記憶装置１４は、例えばハードディスク装置や半導体ストレージである。補助記憶装置１４には、ＯＳ（＝Operating System）等のプログラムの他、電子文書や電子化された文書が記憶される。
通信モジュール１５は、ネットワークＮに接続されたユーザ端末２０等との通信を可能にするデバイスである。通信モジュール１５には、イーサネット（登録商標）、Ｗｉ－Ｆｉ（登録商標）その他の任意の通信規格に準拠したモジュールが使用される。

【0020】

図３は、ユーザ端末２０のハードウェア上の構成例を示す図である。
図３に示すユーザ端末２０は、装置全体の動作を制御するプロセッサ２１と、ＢＩＯＳ等が記憶されたＲＯＭ２２と、プロセッサ２１のワークエリアとして用いられるＲＡＭ２３と、補助記憶装置２４と、ディスプレイ２５と、Ｉ／Ｏインタフェース２６と、通信モジュール２７を有している。なお、プロセッサ２１と他のデバイスとは、バス等の信号線２８を通じて接続されている。

【0021】

プロセッサ２１と、ＲＯＭ２２と、ＲＡＭ２３は、いわゆるコンピュータとして機能する。プロセッサ２１は、プログラムの実行を通じ、各種の機能を実現する。
補助記憶装置２４は、例えばハードディスク装置や半導体ストレージである。補助記憶装置２４には、ＯＳ等のプログラムの他、電子文書等が記憶される。
ディスプレイ２５は、例えば液晶ディスプレイや有機ＥＬ（＝ElectroLuminescent）ディスプレイである。ディスプレイ２５には、処理対象である電子文書や電子化された文書が表示される。

【0022】

Ｉ／Ｏインタフェース２６は、例えばキーボードやマウスを用いたユーザからの入力を受け付ける装置である。具体的には、Ｉ／Ｏインタフェース２６は、マウスカーソルの位置決めや移動、クリック等の入力を受け付ける。Ｉ／Ｏインタフェース２６は、外部端末にデータを出力する装置でもある。
通信モジュール２７は、ネットワークＮに接続されたサーバ１０等との通信を可能にするデバイスである。通信モジュール２７には、イーサネット（登録商標）、Ｗｉ－Ｆｉ（登録商標）その他の任意の通信規格に準拠したモジュールが使用される。

【0023】

＜処理動作例＞
図４は、実施の形態１における処理動作例を説明するフローチャートである。なお、記号のＳはステップを意味する。
まず、サーバ１０（図１参照）は、処理対象とする文書を受け付ける（ステップ１）。前述したように、処理対象とする文書は、ユーザ端末２０（図１参照）からアップロードされる。もっとも、処理対象とする文書がサーバ１０で管理されている場合には、ユーザ端末２０からの指示により、処理対象とする文書が特定される。
図５は、処理対象とする文書の一例を示す図である。図５に示す文書は、文字の並び方向が横向きの例である。なお、横向きをＸ軸とし、縦方向をＹ軸とする。いずれも文書の左上隅を原点とする。

【0024】

図４の説明に戻る。
次に、サーバ１０は、処理対象とする行を特定する（ステップ２）。
本実施の形態では、文字の並び方向が横向きであるためである。ステップ２においては、処理対象とする行が上から順番に１つ特定される。
ここでの行は、文字が記述されている行をいう。従って、写真、イラスト等の画像が現れる行は、ステップ２における処理対象から除外される。もっとも、処理対象として特定された行に文字が記述されていない場合、サーバ１０は、次の行を処理対象に変更してもよい。
因みに、文字の並び方向が縦向きの場合、ステップ２において、処理対象とする列が特定される。

【0025】

次に、サーバ１０は、同一行内で連続する文字を文字列として統合する（ステップ３）。
連続する文字とは、各文字と右隣の文字との間に、フォントサイズの１文字以上の空白が現れないことをいう。１つの行内に複数の文字列が見つかる場合もある。
続いて、サーバ１０は、対となる文字列を特定する（ステップ４）。対となる文字列とは、処理対象に特定された行に見つかった１つの文字列とその１つ上の行に見つかった文字列との組み合わせとして設定される。
なお、処理対象とする行が最初の行（すなわち１番上の行）の場合、１つ上の行は存在しない。この場合、ステップ４では、対となる文字列が特定されない。この場合、後述するステップ５で否定結果が得られる。

【0026】

１つ上の行に複数の文字列が見つかっている場合には、各文字列との間で対が構成される。
例えば１つ上の行に３つの文字列Ａ、Ｂ、Ｃが見つかっており、処理対象とする行に２つの文字列Ｘ、Ｙが見つかっている場合、（文字列Ｘ，文字列Ａ）、（文字列Ｘ，文字列Ｂ）、（文字列Ｘ，文字列Ｃ）、（文字列Ｙ，文字列Ａ）、（文字列Ｙ，文字列Ｂ）、（文字列Ｙ，文字列Ｃ）の６つの対が特定される。

【0027】

次に、サーバ１０は、対となる２つの文字列について、開始点のｘ座標が近く、かつ、ｙ座標が近いか否かを判定する（ステップ５）。
ｘ座標は、開始点の横方向の位置を特定する情報の一例である。本実施の形態の場合、ｘ座標の原点は、図５で説明したように、文書の左端である。ｘ座標は、例えば原点から右方向（すなわちｘ軸方向）に開始点が見つかるまでのピクセル数やドット数で与えられる。もっとも、ｘ座標は、原点からの長さで与えてもよい。また、文書内で使用されるフォントサイズが全て同じであれば、Ｘ座標を、文書の左端からの文字数で与えてもよい。

【0028】

ｙ座標は、開始点の縦方向の位置を特定する情報の一例である。本実施の形態の場合、ｙ座標の原点は、図５で説明したように、文書の上端である。ｙ座標は、例えば原点から下方向（すなわちｙ軸方向）に開始点が見つかるまでのピクセル数やドット数で与えられる。もっとも、ｙ座標は、原点からの長さで与えてもよい。また、文書内で使用されるフォントサイズが全て同じであれば、Ｙ座標を、文書の上端からの文字数で与えてもよい。

【0029】

本実施の形態の場合、「開始点のｘ座標が近い」とは、２つの開始点のｘ座標の差分が基準値＃１以下であることをいう。基準値＃１には、例えば２文字分に相当するピクセル数等を用いる。
「開始点のｙ座標が近い」とは、２つの開始点のｙ座標の差分が基準値＃２以下であることをいう。基準値＃２には、例えば１行分に相当するピクセル数等を用いる。

【0030】

判定の条件を満たす場合、ステップ５で肯定結果が得られる。この場合、サーバ１０は、縦方向に対となる文字列を統合する（ステップ６）。
一方、判定の条件を満たさない場合、ステップ５で否定結果が得られる。この場合、又は、ステップ６の実行後、サーバ１０は、全ての対を処理したか否かを判定する（ステップ７）。

【0031】

全ての対を処理していない場合、ステップ７で否定結果が得られる。この場合、サーバ１０は、ステップ４に戻り、残る対の１つを処理対象に特定する。
一方、全ての対を処理した場合、ステップ７で肯定結果が得られる。この場合、サーバ１０は、全ての行を処理したか否かを判定する（ステップ８）。

【0032】

全ての行の処理が終わっていない場合、ステップ８で否定結果が得られる。この場合、サーバ１０は、ステップ２に戻る。
一方、全ての行の処理が終わっている場合、ステップ８で肯定結果が得られる。この場合、サーバ１０は、文書の上位構造を与える文字列のクラスタ（すなわち集団）を抽出する（ステップ９）。具体的には、サーバ１０は、統合後の文字列の開始点のＸ座標に着目して文書の上位構造を与える文字列のクラスタを抽出する。なお、開始点のＸ座標は、「レイアウト上の第１の特徴」の一例である。

【0033】

サーバ１０は、例えば以下に示す基準を使用し、同じ行内の横方向に出現する複数の文字列の統合と分離を判断する。
・基準１：
同じ行内の横方向に出現する２番目以降の文字列の開始点が左端から１０文字未満の場合、対象とする文字列を１番目の文字列に統合するが、同開始点が左端から１０文字を超える場合、対象とする文字列を１番目の文字列に統合しない。
・基準２：
同じ行内に出現する２つの文字列の間の空白が２文字以内の場合、２つの文字列を統合するが、空白が３文字以上の場合、２つの文字列を統合しない。

【0034】

因みに、「統合する」とは同じクラスタ（集団）に含めることを意味し、「統合しない」とは同じクラスタ（集団）に含めないことを意味する。同じクラスタ（集団）に含めないとは、別のクラスタ（集団）に分離することを意味する。
このステップ９の処理により、ステップ２～ステップ８で抽出された文字列のクラスタ（集団）が統合又は分離される。

【0035】

図６は、実施の形態１におけるクラスタの抽出例を説明する図である。図６に示す文書は、図５に例示した文書を前提としている。
図６では、４つのクラスタ＃１～＃４が抽出されている。これら４つのクラスタ＃１～＃４の抽出が、上位構造の抽出である。
例えばクラスタ＃１には４つの文字列が含まれ、クラスタ＃２には７つの文字列が含まれ、クラスタ＃３には３つの文字列が含まれ、クラスタ＃４には２つの文字列が含まれている。

【0036】

図４に説明に戻る。
ステップ９の実行により文書に含まれるクラスタの抽出が完了すると、サーバ１０は、処理対象とするクラスタを特定する（ステップ１０）。例えば図６におけるクラスタ＃１が処理対象に特定される。
次に、サーバ１０は、各文字列の開始点のＸ座標に着目してクラスタ内の下位構造を抽出する（ステップ１１）。
本実施の形態の場合、サーバ１０は、処理対象とする文字列毎に「クラスタ」の左端を基準に文字下げ量を特定する。各文字列の開始点のＸ座標や文字下げ量は、「レイアウト上の第２の特徴」の一例である。

【0037】

図６の場合、クラスタ＃１やクラスタ＃２の左端は、文書の左端と一致する。このため、クラスタ＃１やクラスタ＃２に含まれる文字列の文字下げ量は、開始点のＸ座標に一致する。
一方、クラスタ＃３やクラスタ＃４の左端は、文書の左端と一致しない。この場合、クラスタ＃３やクラスタ＃４に含まれる文字列の文字下げ量は、クラスタの左端のＸ座標と開始点のＸ座標との差分値として与えられる。

【0038】

サーバ１０は、例えば文字下げ量が１文字増えるたびに、１つ下のサブクラスタに振り分ける。例えば文字下げ量が０（ゼロ）の文字列は「サブクラスタ＃１」に分類され、文字下げ量が１の文字列は「サブクラスタ＃２」に分類され、文字下げ量が２の文字列は「サブクラスタ＃３」に分類される。以下、同様である。
ここでのサブクラスタは、各クラスタ（すなわち集団）に含まれる文字列の下位構造の一例である。

【0039】

ところで、文字下げ量には、１文字未満の端数が生じる場合がある。サーバ１０は、この端数に予め定めた規則を適用してサブクラスタを決定する。
以下に規則の例を示す。
・規則１：
端数を切り下げた後、切り下げ後の文字下げ量より階層を決定する。
例えば文字下げ量が２．４文字の場合、０．４を切り下げて、文字下げ量を２文字とする。そして、対応する文字列を「サブクラスタ＃３」に分類する。
例えば文字下げ量が１．８文字の場合、０．８を切り下げて、文字下げ量を１文字とする。そして、対応する文字列を「サブクラスタ＃２」に分類する。

【0040】

・規則２：
端数を四捨五入した後、四捨五入後の文字下げ量より階層を決定する。
例えば文字下げ量が２．４文字の場合、文字下げ量を２文字とする。そして、対応する文字列を「サブクラスタ＃３」に分類する。
例えば文字下げ量が１．８文字の場合、文字下げ量を２文字とする。そして、対応する文字列を「サブクラスタ＃３」に分類する。

【0041】

下位構造が決定されると、サーバ１０は、下位構造を基準に各文字列の階層を決定する（ステップ１２）。
本実施の形態の場合、「サブクラスタ＃１」に分類された文字列の階層は「階層１」に決定され、「サブクラスタ＃２」に分類された文字列の階層は「階層２」に決定され、「サブクラスタ＃３」に分類された文字列の階層は「階層３」に決定される。

【0042】

この後、サーバ１０は、全てのクラスタを処理したか否かを判定する（ステップ１３）。
全てのクラスタを処理していない場合、ステップ１３で否定結果が得られる。この場合、サーバ１０は、ステップ１０に戻り、残るクラスタの１つを処理対象に特定する。
一方、全てのクラスタを処理した場合、ステップ１３で肯定結果が得られる。この場合、サーバ１０は、構造の抽出処理を終了する。
図７は、文書からの構造の抽出結果の一例を説明する図表である。図７に示す抽出結果は、図５及び図６に示す文書を前提としたものである。

【0043】

図７には、図６で説明した４つのクラスタ＃１～＃４に分類された各文字列についての階層の決定例が示されている。
図７に示すように、クラスタ＃３とクラスタ＃４に属する文字列の文字下げ量はいずれも０（ゼロ）である。このため、クラスタ＃３とクラスタ＃４に属する文字列の全てが「階層１」に決定されている。

【0044】

＜出力例＞
以下では、抽出されたレイアウト上の構造に基づいた文書の出力例を説明する。
＜例１＞
図８は、実施の形態１による処理動作で抽出されたレイアウト上の構造を用いた文書の出力例を示す図である。図８の出力例は、図５に示す文書を元文書としている。

【0045】

図８に示す出力例の場合、各文字列は、上位構造を与えるクラスタ単位で一まとまりに配置されている。すなわち、クラスタ＃１が一段目に配置され、クラスタ＃２が二段目に配置され、クラスタ＃３が３段目に配置され、クラスタ＃４が４段目に配置されている。
図６に示した文書のレイアウトとは異なるが、情報としての意味の単位でまとまって配置されるので可読性が向上する。

【0046】

また、図８に示す出力例の場合、階層１の文字列は強調表示される。すなわち、クラスタ＃１の「項目１：」、クラスタ＃２の「項目２：」、クラスタ＃３の３つの文字列、クラスタ＃４の２つの文字列のいずれもが、最大のフォントサイズかつ太文字で表示されている。なお、強調表示の手法は、これに限らず、文字の色や飾りの追加等と組み合わせてもよい。

【0047】

また、階層２の文字列は、階層１の文字列よりも１文字下げて配置され、階層３の文字列は、階層２の文字列よりも１文字下げて配置される。すなわち、処理前の文書が備えていたレイアウト上の階層構造が、構造化された文書でも保持されている。
このように、本実施の形態で説明した処理動作を適用すれば、上位構造としてのクラスタと、下位構造としてのクラスタ内の階層構造が保持された出力が可能になる。

【0048】

＜比較例＞
図９は、文書内の文字列を網羅的に抽出して構造化した文書の出力例を示す図である。図９の場合も、図５に示す文書を元文書とする。
図９の場合、文字列は網羅的に抽出されているが、レイアウト上の構造は失われている。例えば文頭の文字下げが全て失われるだけでなく、「項目１：」や「項目２：」の並びに次の行の文字列が連続して配置されている。
また、図８であればクラスタ＃３やクラスタ＃４として抽出される文字列も、図９では並んで配置されている。
このように、比較例では、元文書のレイアウト上の構造が失われている。このため、実施の形態１の出力例に比して、著しく可読性が低下している。

【0049】

＜例２＞
図１０は、実施の形態１による処理動作で抽出されたレイアウト上の構造を用いた文書の他の出力例を示す図である。図１０の出力例も、図５に示す文書を元文書としている。
図１０に示す出力例は、抽出された上位構造と下位構造を用いたタグが文字列に付与されている。
図１１は、文書から抽出された階層に紐づけるタグの関係を説明する図である。
図１１に示すように、階層１は「Chapter>Text」と表現され、階層２は「Chapter>Paragraph>Text」と表現され、階層３は「Chapter>Paragraph>List>Text」と表現される。

【0050】

例えば図１０の場合、クラスタ＃１の階層１に位置する文字列の「項目１：」は、<Chapter><Text>項目１：</Text>として表されている。
なお、クラスタ＃３の階層１に位置する文字列の「１～３小計：ｘｘｘ円」は、<Chapter><Text>１～３小計：ｘｘｘ円</Text></Chapter>として表されている。クラスタ＃３の他の文字列やクラスタ＃４の文字列も同様である。
このタグ付きの文書の出力により、ユーザ端末２０（図１参照）には、図８に示すようなレイアウトの表示が可能になる。

【0051】

＜例３＞
前述した例１（図８参照）の場合、クラスタ＃３の文字列とクラスタ＃４の文字列の全てが、クラスタ＃１やクラスタ＃２のタイトルと同じ態様で表示されることに違和感が生じる可能性がある。
この違和感は、元文書におけるクラスタ＃３やクラスタ＃４に属する階層１の文字列が、クラスタ＃１やクラスタ＃２に属する階層１の文字列等と論理上の意味が異なることに起因している。つまり、クラスタ＃１やクラスタ＃２に属する階層１の情報が「タイトル」であるのに対し、クラスタ＃１やクラスタ＃２に属する階層１の情報が「注釈」や「補足説明」等であることに起因している。

【0052】

処理対象となる文書の全てについて違和感を生じさせない規則は存在しないが、少なくとも、文書内の３つ目以降に出現するクラスタの論理上の重みは、文書内の２つ目までに出現するクラスタの論理上の重みに比して小さいと仮定することも可能である。
図１２は、実施の形態１による処理動作で抽出されたレイアウト上の構造を用いた文書の他の出力例を示す図である。図１２の出力例も、図５に示す文書を元文書としている。

【0053】

図１２では、３つ目以降に出現するクラスタの階層１に対応付ける分類名を、２つ目までのクラスタの階層１に対応付ける分類名から変更している。具体的には、ChapterタグからAnnotationタグに変更している。
これにより、タグ付き文書を表示する場合にも、クラスタ＃３とクラスタ＃４における階層１の文字列の表示の態様を、クラスタ＃１やクラスタ＃２における階層１の文字列の表示の態様と異なせることが可能になる。

【0054】

なお、例３の場合、３つ目と４つ目のクラスタには階層１の文字列しか含まれていないが、階層２や階層３が含まれる場合には、タグの階層構造が保存されるようにタグを変更してもよい。
また、例３の場合には、文書内の３つ目以降のクラスタの各階層に適用するタグを注釈タグ（Annotationタグ）に変更しているが、他の手法も可能である。例えば文書内の３つ目以降のクラスタの各階層に属する文字列には、更に１つ下の階層の分類名を対応付けてもよい。例えばクラスタ＃３の階層１に属する文字列には、「Chapter>Paragraph>Text」を対応付けてもよい。以下、１つずつ下の階層の位置を表すタグを、対応する文字列に付与する。これにより、３つ目以降のクラスタに属する文字列を、２つ目までのクラスタに属する同じ階層の文字列よりも下位の階層として表現することが可能になる。

【0055】

＜実施の形態２＞
実施の形態２でも、情報処理システム１（図１参照）を想定する。違いは、サーバ１０（図１参照）で実行される処理動作の内容である。
図１３は、実施の形態２における処理動作例を説明するフローチャートである。図１３には、図４との対応部分に対応する符号を付して示している。
図１３の場合も、サーバ１０は、処理対象とする文書を受け付ける（ステップ１）。

【0056】

図１４は、実施の形態２で処理対象とする文書の一例を示す図である。図１４の場合も、文字の並び方向が横向きの例である。なお、横向きをＸ軸とし、縦方向をＹ軸とする。いずれも文書の左上隅を原点とする。
図１４の場合、文書の１行目と２行目には「ＡＢＣＤＥＦＧＨＩＪＫＭＮＯＰＱＲＳＴＵＶ」の文字列が配置され、３行目には「ＭＮＯＰＱＲＳＴＵＶ」の文字列が配置され、４行目には「ＡＢＣＤＥＦＧＨＩＪＫ」の文字列が配置され、５行目には「ＡＢＣＤＥＦＧＨＩＪＫＮＭＯＰＱＲＳＴＵＶ」の文字列が配置されている。

【0057】

図１３の説明に戻る。
次に、サーバ１０は、処理対象とする文字枠を特定する（ステップ２１）。
文字枠とは、文字を入力する位置と範囲を指定する枠であり、電子文書を記述するデータの一部である。このように、図１３に示す処理動作は、処理対象とする文書が電子文書であって、文書内に文字枠が配置されている場合を想定する。
図１５は、文書に設定されている文字枠を説明する図である。図１５に示す文書には、２つの文字枠＃１、＃２が含まれており、それぞれに４つの文字列が含まれる例を表している。

【0058】

図１３の説明に戻る。
処理対象とする文字枠が特定されると、サーバ１０は、特定された文字枠に含まれる文字列を縦方向に統合する。統合のための処理は実施の形態１と同様である。すなわち、ステップ４～７が実行される。
図１５の場合であれば、文字枠＃１の１行目から２つの文字列「ＡＢＣＤＥＦＧ」、「ＨＩＪＫ」が抽出される。文字枠＃１の２行目からも２つの文字列「ＡＢＣＤＥＦＧ」、「ＨＩＪＫ」が抽出される。そして、１行目と２行目の文字列「ＡＢＣＤＥＦＧ」が縦方向に統合され、１行目と２行目の文字列「ＨＩＪＫ」が縦方向に統合される。

【0059】

図１３の説明に戻る。
１つ目の文字枠＃１について縦方向の統合が終わると、サーバ１０は、全ての文字枠を処理したか否かを判定する（ステップ２２）。
全ての文字枠の処理が終わっていない場合、ステップ２２で否定結果が得られる。この場合、サーバ１０は、ステップ２１に戻る。
一方、全ての文字枠の処理が終わっている場合、ステップ２２で肯定結果が得られる。この場合、サーバ１０は、文書の上位構造を与える文字列のクラスタ（すなわち集団）を抽出する（ステップ９Ａ）。具体的には、サーバ１０は、統合後の文字列の開始点のＸ座標に着目して文書の上位構造を与える文字列のクラスタを抽出する。つまり、横方向に文字列を統合する。

【0060】

文字列の横方向の統合には、前述した基準１と基準２を使用する。ただし、文字枠が異なる文字列は統合の対象から除外する。
図１６は、実施の形態２におけるクラスタの抽出例を説明する図である。図１６に示す文書は、図１４に例示した文書を前提としている。
図１６に示すクラスタ＃１の文字列「ＡＢＣＤＥＦＧＨＩＪＫ」とクラスタ＃３の文字列「ＭＮＯＰＱＲＳＴＵＶ」とは横方向に２文字しか離れていないが、異なる文字枠の文字列は統合しないという基準により、それぞれ異なるクラスタとして抽出されている。クラスタ＃２とクラスタ＃４についても同様である。
以下の処理動作は、実施の形態１と同様であるので説明を省略する。図１４に例示した文書の場合、文字下げが含まれないので、各クラスタに属する各文字列は階層１として扱われる。

【0061】

＜実施の形態３＞
実施の形態３でも、情報処理システム１（図１参照）を想定する。違いは、サーバ１０（図１参照）で実行される処理動作の内容である。
図１７は、実施の形態３における処理動作例を説明するフローチャートである。図１７には、図４との対応部分に対応する符号を付して示している。
図１７の場合も、サーバ１０は、処理対象とする文書を受け付ける（ステップ１）。
図１８は、実施の形態３で処理対象とする文書の一例を示す図である。図１８の場合も、文字の並び方向が横向きの例である。なお、横向きをＸ軸とし、縦方向をＹ軸とする。いずれも文書の左上隅を原点とする。

【0062】

図１８の場合、文書の１行目には、「［１］ＡＢＣＤＥＦＧＨＩＪＫ（ここまでのフォントはＡｒｉａｌ）［２］ａｂｃｄｅｆｇｈｉｊｋ（ここまでのフォントはＴｉｍｅｓＮｅｗＲｏｍａｎ）」の文字列が配置されている。
図１８の場合、文書の２行目には、「［３］ＡＢＣＤＥＦＧＨＩＪＫ（ここまでのフォントはＡｒｉａｌ）［４］ａｂｃｄｅｆｇｈｉｊｋ（ここまでのフォントはＴｉｍｅｓＮｅｗＲｏｍａｎ）」の文字列が配置されている。

【0063】

図１７の説明に戻る。
次に、サーバ１０は、処理対象とする行を特定する（ステップ２）。
続いて、サーバ１０は、同一行内の同一文字種の文字を文字列として統合する（ステップ３１）。
図１９は、文字種の情報を用いた文字の統合を説明する図である。図１９も、図１８に示した文書を前提とする。
まず、サーバ１０は、文書の１行目に現れる文字列「［１］ＡＢＣＤＥＦＧＨＩＪＫ［２］ａｂｃｄｅｆｇｈｉｊｋ」を、文字種の違いにより、２つの文字列＃１と文字列＃２として抽出する。
文書の２行目についても同様である。

【0064】

図１７の説明に戻る。
次に、サーバ１０は、対となる文字列を特定する（ステップ４）。
図１８に示す文書の場合、「［１］ＡＢＣＤＥＦＧＨＩＪＫ」と「［３］ＡＢＣＤＥＦＧＨＩＪＫ」の対、「［１］ＡＢＣＤＥＦＧＨＩＪＫ」と「［４］ａｂｃｄｅｆｇｈｉｊｋ」の対、「［２］ａｂｃｄｅｆｇｈｉｊｋ」と「［３］ＡＢＣＤＥＦＧＨＩＪＫ」の対、「［２］ａｂｃｄｅｆｇｈｉｊｋ」と「［４］ａｂｃｄｅｆｇｈｉｊｋ」の対の４つの中から１つの対が特定される。

【0065】

この後、サーバ１０は、特定された対となる文字列についてステップ５及び６を実行し、縦方向に文字列の統合を試みる。
図１９の例では、「［１］ＡＢＣＤＥＦＧＨＩＪＫ」と「［３］ＡＢＣＤＥＦＧＨＩＪＫ」が１つの文字列に統合され、「［２］ａｂｃｄｅｆｇｈｉｊｋ」と「［４］ａｂｃｄｅｆｇｈｉｊｋ」が１つの文字列に統合されている。

【0066】

図１７の説明に戻る。
全ての行の処理が終わっている場合、サーバ１０は、文書の上位構造を与える文字列のクラスタ（すなわち集団）を抽出する（ステップ９Ｂ）。具体的には、サーバ１０は、統合後の文字列の開始点のＸ座標に着目して文書の上位構造を与える文字列のクラスタを抽出する。つまり、横方向に文字列を統合する。
この場合も、サーバ１０は、前述した基準１と基準２を使用して、横方向に文字列を統合する。

【0067】

基準１と基準２だけを用いる場合、図１９に示す統合文字列＃１と＃２は１つの文字列に統合される。
ただし、基準１と基準２に加え、文字種が異なる文字列は横方向にも統合しない基準を適用する場合、統合文字列＃１がクラスタ＃１となり、統合文字列＃２がクラスタ＃２となる。
以下の処理動作は、実施の形態１と同様であるので説明を省略する。図１８に例示した文書の場合、文字下げが含まれないので、各クラスタに属する各文字列は階層１として扱われる。

【0068】

＜実施の形態４＞
実施の形態４でも、情報処理システム１（図１参照）を想定する。違いは、サーバ１０（図１参照）で実行される処理動作の内容である。
図２０は、実施の形態４における処理動作例を説明するフローチャートである。図２０には、図４との対応部分に対応する符号を付して示している。
図２０の場合も、サーバ１０は、処理対象とする文書を受け付ける（ステップ１）。

【0069】

図２１は、実施の形態４で処理対象とする文書の一例を示す図である。図２１の場合も、文字の並び方向が横向きの例である。なお、横向きをＸ軸とし、縦方向をＹ軸とする。いずれも文書の左上隅を原点とする。
図２１の場合、文書の１行～３行目には「ＡＢＣＤＥＦＧａｂｃｄｅｆｇｈｉｊｋｌｍ」の文字列が配置され、４行目には「ＡＢＣＤＥＦＧ」の文字列が配置され、５行目には「ＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ」の文字列が配置されている。
なお、図２１の場合、小文字の文字列の周囲には囲み枠が描画され、大文字の文字列と区別されている。

【0070】

図２０の説明に戻る。
次に、サーバ１０は、囲み枠の外側と内側を特定する（ステップ４１）。
図２２は、囲み枠の外側と内側を説明する図である。
囲み枠の外側と内側が特定されると、それぞれについてステップ４～７の処理が実行される。処理の内容は、図４で説明した通りである。
図２２の場合であれば、まず囲み枠の外側に出現する文字列が縦方向に統合される。
統合処理が終了すると、サーバ１０は、囲み枠の外側と内側の両方を処理したか否かを判定する（ステップ４２）。

【0071】

両方の処理が終了していない場合、ステップ４２で否定結果が得られる。この場合、サーバ１０は、ステップ４１に戻る。
一方、両方の処理が終了していた場合、ステップ４２で肯定結果が得られる。この場合、サーバ１０は、文書の上位構造を与える文字列のクラスタ（すなわち集団）を抽出する（ステップ９Ｃ）。具体的には、サーバ１０は、統合後の文字列の開始点のＸ座標に着目して文書の上位構造を与える文字列のクラスタを抽出する。つまり、横方向に文字列を統合する。
この場合も、サーバ１０は、前述した基準１と基準２を使用して、横方向に文字列を統合する。

【0072】

基準１と基準２だけを用いる場合、図２２に示す囲み枠の外側の文字列と囲み枠の内側の文字列は１つの文字列に統合される。
ただし、基準１と基準２に加え、囲み枠の外側の文字列と囲み枠の内側の文字列を横方向にも統合しない基準を適用する場合、囲み枠の外側の文字列と囲み枠の内側の文字列は統合されない。
以下の処理動作は、実施の形態１と同様であるので説明を省略する。図２１に例示した文書の場合、文字下げが含まれないので、各クラスタに属する各文字列は階層１として扱われる。

【0073】

＜他の実施の形態＞
（１）以上、本発明の実施の形態について説明したが、本発明の技術的範囲は前述した実施の形態に記載の範囲に限定されない。前述した実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

【0074】

（２）前述の実施の形態２と実施の形態４を組み合わせた場合が考えられる。
図２３は、他の実施の形態（２）で処理対象とする文書の一例を示す図である。図２３に示す文書と図２１に示す文書は見かけ上同じである。ただし、図２３に示す文書には、文字枠が設定されており、その文字枠の範囲は囲み枠も含んでいる。
この種の文書が処理対象の場合、サーバ１０は、最初に処理対象とする文字枠を特定する（ステップ２１）。次に、サーバ１０は、特定された文字枠内に囲み枠が含まれるか判定し、囲み枠が含まれる場合には、特定された文字枠に含まれる文字を囲み枠の外側と内側に分ける（ステップ４１）。この後は、実施の形態４と同様の処理を実行する。

【0075】

（３）前述の実施の形態では、サーバ１０が構造化されていない文書からレイアウト上の構造を抽出する機能を実行しているが、ユーザ端末２０が単独で実行してもよい。この場合、対応する機能は、ユーザ端末２０で実行されるプログラムとして提供される。

【0076】

（４）前述した各実施の形態におけるプロセッサは、広義的な意味でのプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ等）の他、専用的なプロセッサ（例えばＧＰＵ（＝Graphical Processing Unit）、ＡＳＩＣ（＝Application Specific Integrated Circuit）、ＦＰＧＡ（＝Field Programmable Gate Array）、プログラム論理デバイス等）を含む。
また、前述した各実施の形態におけるプロセッサの動作は、１つのプロセッサが単独で実行してもよいが、物理的に離れた位置に存在する複数のプロセッサが協働して実行してもよい。また、プロセッサにおける各動作の実行の順番は、前述した各実施の形態に記載した順番のみに限定されるものでなく、個別に変更してもよい。

【0077】

＜付記＞
(((1)))
プロセッサを有し、前記プロセッサは、レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出し、レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する、情報処理装置。
(((2)))
前記プロセッサは、文字の並び方向における各文字列の開始位置の違いにより、各文字列に付与する下位構造を決定する、(((1)))に記載の情報処理装置。
(((3)))
前記プロセッサは、各文字列の開始位置と基準位置との間に１文字未満の端数が含まれる場合、当該端数に予め定めた規則を適用し、各文字列に付与する下位構造を決定する、(((2)))に記載の情報処理装置。
(((4)))
前記プロセッサは、前記端数の切り下げにより、各文字列に付与する下位構造を決定する、(((3)))に記載の情報処理装置。
(((5)))
前記プロセッサは、前記端数の四捨五入により、各文字列に付与する下位構造を決定する、(((3)))に記載の情報処理装置。
(((6)))
前記プロセッサは、文字の並び方向における各文字列の開始位置に基づいて前記集団を決定する、(((1)))～(((5)))のいずれか１つに記載の情報処理装置。
(((7)))
前記プロセッサは、同じ行内に、閾値以上離れた複数の文字列が存在する場合、当該複数の文字列を異なる集団に割り当てる、(((6)))に記載の情報処理装置。
(((8)))
前記プロセッサは、文字列を記述する文字種、文字枠、囲み枠のいずれか１つ又はこれらの組み合わせに基づいて前記集団を決定する、(((1)))～(((5)))のいずれか１つに記載の情報処理装置。
(((9)))
前記プロセッサは、対応する集団が共通する複数の文字列を一まとまりに出力する、(((1)))～(((8)))のいずれか１つに記載の情報処理装置。
(((10)))
前記プロセッサは、一まとまりに出力される前記文字列の文字下げ量を、前記下位構造の違いにより決定する、(((9)))に記載の情報処理装置。
(((11)))
前記プロセッサは、各文字列の前後に、前記上位構造と前記下位構造を示すタグを付与する、(((1)))～(((8)))のいずれか１つに記載の情報処理装置。
(((12)))
コンピュータに、レイアウト上の第１の特徴に基づいて、構造化されていない文書の上位構造を与える文字列の集団を抽出する機能と、レイアウト上の第２の特徴に基づいて、抽出された各集団に含まれる各文字列の下位構造を決定する機能と、を実現させるためのプログラム。

【符号の説明】

【0078】

１…情報処理システム、１０…サーバ、１１、２１…プロセッサ、１２、２２…ＲＯＭ、１３、２３…ＲＡＭ、１４、２４…補助記憶装置、１５、２７…通信モジュール、１６、２８…信号線、２０…ユーザ端末、２５…ディスプレイ、２６…Ｉ／Ｏインタフェース

【図1】