特許6172565 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許6172565文書処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6172565

(24)【登録日】2017年7月14日

(45)【発行日】2017年8月2日

(54)【発明の名称】文書処理装置及びプログラム

(51)【国際特許分類】

G06K 9/72 20060101AFI20170724BHJP

G06F 17/30 20060101ALI20170724BHJP

【ＦＩ】

G06K9/72 C

G06K9/72 B

G06F17/30 310C

G06F17/30 210D

G06F17/30 170A

【請求項の数】6

【全頁数】12

(21)【出願番号】特願2013-122768(P2013-122768)

(22)【出願日】2013年6月11日

(65)【公開番号】特開2014-241027(P2014-241027A)

(43)【公開日】2014年12月25日

【審査請求日】2016年2月18日

(73)【特許権者】

【識別番号】000005496

【氏名又は名称】富士ゼロックス株式会社

(74)【代理人】

【識別番号】110000039

【氏名又は名称】特許業務法人アイ・ピー・ウィン

(72)【発明者】

【氏名】清水淳一

(72)【発明者】

【氏名】北洋実

(72)【発明者】

【氏名】小柳勝也

(72)【発明者】

【氏名】安達真太郎

(72)【発明者】

【氏名】脇山徹也

(72)【発明者】

【氏名】岸本紘幸

【審査官】佐藤実

(56)【参考文献】

【文献】特開２００９−２４５４６４（ＪＰ，Ａ）

【文献】特開２００４−２１３０９１（ＪＰ，Ａ）

【文献】特開平１１−２０７２６６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｋ９／００ − ９／８２

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

文書の画像情報を受け付ける受付手段と、
前記受付手段により受け付けられた文書の画像情報から文字列を含む文字情報を抽出する文字情報抽出手段と、
前記文字情報抽出手段により抽出された文字情報に基づいて前記受付手段により受け付けられた文書を仕分ける仕分け手段と、
前記文字情報抽出手段の文字列認識の冗長度を調整するように前記仕分け手段の仕分け規則を生成する仕分け規則生成手段と、
を有し、
前記仕分け規則生成手段は、
前記文字情報抽出手段によって認識されるべき文字列の認識率の目標値が予め設定され、該目標値以上となるように文字列認識の冗長度を調整した仕分け規則を生成し、
前記文字情報抽出手段により抽出された文字列を構成する少なくとも１つの文字を全ての対象文字と適合する文字に置き換える処理を行い、
前記文字情報抽出手段により抽出された文字列の認識率が目標値に達していないと予測される場合、前記文字列を構成する文字を全ての対象文字と適合する文字に徐々に置き換えることにより文字列の認識率が目標値に達するよう処理する
文書処理装置。

【請求項2】

前記仕分け規則生成手段は、前記文字情報抽出手段により抽出される文字毎の予想認識率に基づいて仕分け規則を生成する請求項１記載の文書処理装置。

【請求項3】

前記仕分け規則生成手段は、前記文字情報抽出手段により抽出される文字の大きさ毎の予想認識率に基づいて仕分け規則を生成する請求項１又は２記載の文書処理装置。

【請求項4】

前記仕分け規則生成手段は、生成された規則が重複した場合、新たな仕分け規則を生成する請求項１乃至３いずれか記載の文書処理装置。

【請求項5】

前記仕分け規則生成手段により生成された規則に基づいて仕分ける試験用データを生成する試験用データ生成手段をさらに有する請求項１乃至４いずれか記載の文書処理装置。

【請求項6】

文書の画像情報を受け付ける受付ステップと、
受け付けられた文書の画像情報から文字列を含む文字情報を抽出する文字情報抽出ステップと、
抽出された文字情報に基づいて前記受付ステップにおいて受け付けられた文書を仕分ける仕分けステップと、
文字列認識の冗長度を調整するように仕分け規則を生成する規則生成ステップと、
をコンピュータに実行させ、
前記仕分け規則生成ステップは、
前記文字情報抽出ステップにおいて認識されるべき文字列の認識率の目標値が予め設定され、該目標値以上となるように文字列認識の冗長度を調整した仕分け規則を生成し、
前記文字情報抽出ステップにおいて抽出された文字列を構成する少なくとも１つの文字を全ての対象文字と適合する文字に置き換える処理を行い、
前記文字情報抽出ステップにおいて抽出された文字列の認識率が目標値に達していないと予測される場合、前記文字列を構成する文字を全ての対象文字と適合する文字に徐々に置き換えることにより文字列の認識率が目標値に達するよう処理する
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書処理装置及びプログラムに関する。

【背景技術】

【0002】

特許文献１は、検索文字列を対応する文字列イメージに展開する展開工程と、前記展開工程で展開された文字列イメージに所定のフィルタリングを行うフィルタリング工程と、前記フィルタリング工程でフィルタリングされた文字列イメージを独立部分にセグメンテーションし、セグメンテーションされた各部分の文字認識を行い、認識文字列候補を獲得する認識工程と、前記認識工程で獲得された認識文字列候補の違いに基づいて、組み合わせ可能な別の認識文字列候補を生成する生成工程と、前記生成工程で生成された前記組み合わせ可能な別の認識文字列候補と前記認識工程で獲得された認識文字列候補の論理和条件で所定の文字列の検索を行う文字列検索工程とを備えることを特徴とする画像検索方法を開示する。

【0003】

特許文献２は、画像情報を入力するイメージスキャナと、入力画像を認識するＯＣＲソフトウェアと、この認識結果を格納するテキスト情報格納部と、指定された検索語に余分な文字が挿入されることを仮定したり、検索語から文字を間引いたパターンを作成してそのパターンを用いて検索を行う文書検索ソフトウェアとを有する情報処理方法及び装置を開示する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平１０−０６９４９４号公報

【特許文献2】特開平０９−０１６６１９号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の目的は、文書を高精度に仕分けることができる規則を生成することができる文書処理装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0006】

請求項１に係る本発明は、文書の画像情報を受け付ける受付手段と、前記受付手段により受け付けられた文書の画像情報から文字列を含む文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段により抽出された文字情報に基づいて前記受付手段により受け付けられた文書を仕分ける仕分け手段と、前記文字情報抽出手段の文字列認識の冗長度を調整するように前記仕分け手段の仕分け規則を生成する仕分け規則生成手段と、を有し、前記仕分け規則生成手段は、前記文字情報抽出手段によって認識されるべき文字列の認識率の目標値が予め設定され、該目標値以上となるように文字列認識の冗長度を調整した仕分け規則を生成し、前記文字情報抽出手段により抽出された文字列を構成する少なくとも１つの文字を全ての対象文字と適合する文字に置き換える処理を行い、前記文字情報抽出手段により抽出された文字列の認識率が目標値に達していないと予測される場合、前記文字列を構成する文字を全ての対象文字と適合する文字に徐々に置き換えることにより文字列の認識率が目標値に達するよう処理する
文書処理装置である。

【0010】

請求項２に係る本発明は、前記仕分け規則生成手段は、前記文字情報抽出手段により抽出される文字毎の予想認識率に基づいて仕分け規則を生成する請求項１記載の文書処理装置である。

【0011】

請求項３に係る本発明は、前記仕分け規則生成手段は、前記文字情報抽出手段により抽出される文字の大きさ毎の予想認識率に基づいて仕分け規則を生成する請求項１又は２記載の文書処理装置である。

【0012】

請求項４に係る本発明は、前記仕分け規則生成手段は、生成された規則が重複した場合、新たな仕分け規則を生成する請求項１乃至３いずれか記載の文書処理装置である。

【0013】

請求項５に係る本発明は、前記仕分け規則生成手段により生成された規則に基づいて仕分ける試験用データを生成する試験用データ生成手段をさらに有する請求項１乃至４いずれか記載の文書処理装置である。

【0014】

請求項６に係る本発明は、文書の画像情報を受け付ける受付ステップと、受け付けられた文書の画像情報から文字列を含む文字情報を抽出する文字情報抽出ステップと、抽出された文字情報に基づいて前記受付ステップにおいて受け付けられた文書を仕分ける仕分けステップと、文字列認識の冗長度を調整するように仕分け規則を生成する規則生成ステップと、をコンピュータに実行させ、前記仕分け規則生成ステップは、前記文字情報抽出ステップにおいて認識されるべき文字列の認識率の目標値が予め設定され、該目標値以上となるように文字列認識の冗長度を調整した仕分け規則を生成し、前記文字情報抽出ステップにおいて抽出された文字列を構成する少なくとも１つの文字を全ての対象文字と適合する文字に置き換える処理を行い、前記文字情報抽出ステップにおいて抽出された文字列の認識率が目標値に達していないと予測される場合、前記文字列を構成する文字を全ての対象文字と適合する文字に徐々に置き換えることにより文字列の認識率が目標値に達するよう処理するプログラムである。

【発明の効果】

【0015】

請求項１に係る本発明によれば、本構成を有しない場合と比較して、文書を高精度に仕分けることができる規則を生成することができる文書処理装置を提供することができる。

【0019】

請求項２に係る本発明によれば、請求項１に係る発明により得られる効果に加えて、本構成を有しない場合と比較して、認識率を正確に予測することができる。

【0020】

請求項３に係る本発明によれば、請求項１又は２に係る発明により得られる効果に加えて、文字の大きさが異なる場合にも対応することができる。

【0021】

請求項４に係る本発明によれば、請求項１乃至３いずれかに係る発明により得られる効果に加えて、生成された仕分け規則が重複した場合にも対応することができる。

【0022】

請求項５に係る本発明によれば、請求項１乃至４いずれかに係る発明により得られる効果に加えて、生成した規則により予測された結果が得られるか否かを確認することができる。

【0023】

請求項６に係る本発明によれば、本構成を有しない場合と比較して、文書を高精度に仕分けることができる規則を生成することができるプログラムを提供することができる。

【図面の簡単な説明】

【0024】

【図1】本発明の実施形態に係る文書処理システムの構成を示す模式図である。

【図2】本発明の実施形態に用いたスキャナ装置のハードウエアを示すブロック図である。

【図3】本発明の実施形態に係る帳票分類システムを示す模式図である。

【図4】本発明の実施形態に係るソフトウェア構成を示すブロック図である。

【図5】本発明の実施形態に用いた帳票の一例を示す平面図である。

【図6】本発明の実施形態における仕分け規則を生成する第２例の確率を計算する計算方法を示す模式図である。

【図7】本発明の実施形態における仕分け規則を生成する第１例のアルゴリズムを実施するためのフローチャートである。

【図8】本発明の実施形態における仕分け規則を生成する第２例のアルゴリズムを実施するためのフローチャートである。

【図9】本発明の実施形態における処理フローの一部を示すフローチャートである

【発明を実施するための形態】

【0025】

以下、本発明の実施形態について図面を参照して詳細に説明する。
図１は、本発明の実施形態に係る文書処理システム２の構成の一例を示す模式図である。本発明の画像形成システム２は、パーソナルコンピュータ等により構成される端末装置４−１〜４−ｎ（ｎは、１以上の整数）と、これら端末装置４−１〜４−ｎとネットワークを介して接続されたサーバ装置６と、このサーバ装置６とネットワークを介して接続された画像形成装置８と、同じくサーバ装置６とネットワークを介して接続されたスキャナ装置１０とから構成されている。

【0026】

画像形成装置８は、スキャナ部８ａを有し、スキャナ部８ａにより紙文書が読み取られ、電子文書に変換されるようになっている。

【0027】

スキャナ装置１０は、図２に示されるように、ＣＰＵ１２、メモリ１４、ハードディスクドライブ（ＨＤＤ）等の記憶装置１６、ネットワークを介してサーバ装置６などの外部の装置との間でデータの送信及び受信を行う通信装置１８、スキャン駆動部２０及び操作部２２がバスを介して接続されている。

【0028】

ＣＰＵ１２は、メモリ１４又は記憶装置１６に格納されたプログラムに基づいて処理を実行して、スキャン装置１０の動作を制御する。

【0029】

図３は、文書処理装置の一例として帳票分類システム２４を示す。帳票分類システム２４は、紙文書である帳票２６を前述したスキャナ装置１０又は画像形成装置８のスキャナ部８ａにより読み取る。この読み取られた文書は、ＯＣＲ処理などにより認識され、電子文書２８として仕分けられる。ここでは、「支給受領書」「支給清算書」「不可抗力協議」等、予め定められた帳票を分類し、例えば前述したサーバ装置６に予め用意されている各フォルダ３０に収納される。

【0030】

図４は、スキャナ装置１０における文書処理プログラムの構成を示す。受付部３２は、スキャナ装置１０により読み取られた画像を例えばビットマップデータとして受け付ける。文書情報抽出部３４は、例えばＯＣＲソフトウェアから構成され、受付部３２により受け付けられた画像から予め定められた方法により文字列を含む文字情報を抽出する。例えば図５に示すように、ここで取り扱う帳票は、全て予め定められた位置に表題、例えば「支給受領書」が記載され、この位置にある文字列を抽出する。抽出すべき文字列は、特定の位置にあることを条件とするばかりではなく、例えば色や大きさなど、構成する文字の属性を捕らえるようにすればよい。

【0031】

仕分け部３６は、文書情報抽出部３４により抽出された文字情報に基づいて帳票を仕分ける（分類する）。この仕分け部３６において帳票を仕分ける規則は、仕分け規則生成部３８により生成される。仕分け部３６により仕分けられた帳票は、前述したようにサーバ装置６に送信され、サーバ装置６内のファイルに帳票毎にファイルされる。

【0032】

試験用データ生成部４０は、仕分けるべき帳票がどの程度正しく仕分けられるかを検証するための試験用データを生成する。この試験用データ生成部４０で生成された試験用データは、文字情報抽出部３４で文字情報が抽出され、仕分け規則生成部３８で生成された仕分け規則に基づいて仕分け部３６で仕分けされたデータが前述した端末装置４−１〜４−ｎや画像形成装置８に送られ、仕分け結果が出力されるようになっている。

【0033】

次に仕分け規則生成部３８における仕分け規則を生成するためのアルゴリズムについて説明する。

【0034】

この実施形態においては、文字情報抽出部３４による文字認識率が文字毎に異なることを前提としている。まずは、文字情報抽出部３４が抽出すべき文字列を構成する文字の予想認識率を設定する。

【0035】

予想認識率は、例えば種々の文字を含むテストチャートを読み込み、読み込んだ文字を文字認識させた場合の正解率を予め求めておく。例えば「支」は９８％、「給」は９０％、「受」は８５％、「領」は８０％、「書」は９５％である。
なお、文字認識率は、文字の大きさにより異なるので、異なる大きさの文字を用いる場合は、各文字について大きさ毎に予想認識率を求める。

【0036】

ここで、仕分け規則を次のように表す。
文書タイトル＝”支給受領書”
これは、全ての文字が一致している必要があることを意味する。したがって、「支給受領書」という文字列では、予想認識率は次のようになる。
支＊給＊受＊領＊書＝ 98％＊90％＊85％＊80％＊95％＝ 57％

【0037】

このままでは、予想認識率が低いので、高くする必要がある。予想認識率を高くするには冗長度を上げればよい。目標認識率を設定し、この目標認識率を超えるように冗長度を調整する。例えば「支給受領書」では目標認識率を９０％に設定する。

【0038】

冗長度を上げる第１例は、ワイルドカードを増やしていく方法である。ワイルドカード文字とは、全ての対象文字とマッチする文字である。ワイルドカード文字を「？」として表す。予想認識率が低い文字からワイルドカード文字に置き換える。

【0039】

上記「支給受領書」では、「領」の予想認識率が最も低いので、「領」をワイルドカード文字に置き換え、次のように仕分け規則を生成する。
文書タイトル＝”支給受？書”
この場合の文字列としての予想認識率は次の通りである。
支＊給＊受＊？＊書＝ 98％＊90％＊85％＊100％＊95％＝ 71％ (＜ 90％)

【0040】

次に予想認識率が低いのは、「受」であるから、「受」をワイルドカード文字に置き換え、次のように仕分け規則を生成する。
文書タイトル＝”支給？？書”
この場合の文字列としての予想認識率は次の通りである。
支＊給＊？＊？＊書＝ 98％＊90％＊100％＊100％＊95％＝ 83％ (＜ 90％)

【0041】

次に予想認識率が低いのは、「給」であるから、「給」をワイルドカード文字に置き換え、次のように仕分け規則を生成する。
文書タイトル＝”支？？？書”
この場合の文字列としての予想認識率は次の通りである。
支＊？＊？＊？＊書＝ 98％＊100％＊100％＊100％＊95％＝ 93％ (≧ 90％)
このように目標を満たさない場合は、繰り返しワイルドカード文字を増やしていくことにより予想認識率９０％を超えることができる。

【0042】

ただし、この第１例では、他の仕分け規則と重複してしまう可能性もある。例えば、「支給清算書」でも、文書タイトル＝”支？？？書”となる可能性がある。
またすべての文字の予想認識率が目標認識率より低い場合は、この方法は使用できない

【0043】

次に、冗長度を上げる第２例について説明する。
この第２例は、予想認識率の低い文字1個をワイルドカード文字にした仕分け規則を作成し、論理和で増やしていく方法である。
前述の例では、最初に作られる仕分け規則は次のようになる。
文書タイトル＝”支給受？書”では予想認識率は９０％を超えないので、次に生成される仕分け規則は、
文書タイトル＝”支給受？書”＋”支給？領書”
となる。

【0044】

この場合の文字列としての予想認識率は次のようにして求められる。
支＊給＊受＊？＊書＝ 98％＊90％＊85％＊100％＊95％＝ 71％
(＜ 90％) ・・・A
支＊給＊？＊領＊書＝ 98％＊90％＊100％＊80％＊95％＝ 67％
(＜ 90％) ・・・B
１−（１−A）＊（１−B）＝90％ (≧ 90％)

【0045】

即ち、図６（ａ）に示すように、集合Ａと集合Ｂとの論理和の確率を求めるには、まず図６（ｂ）に示すように、集合Ａではない確率（１−A）と集合Ｂではない確率（１−B）を求める。集合Ａではない確率は２９％である。また、集合Ｂではない確率は３３％である。次に、図６（ｃ）に示すように、集合Ａでなく、且つ集合Ｂでもない確率（１−A）＊（１−B）を求める。集合Ａでなく、且つ集合Ｂでもない確率は１０％である。さらに（集合Ａでなく、且つ集合Ｂでもない）ではない確率、即ち、集合Ａ又は集合Ｂである確率は１− （１−A）＊（１−B）であり、９０％となる。

【0046】

以上のように、最も低い文字をワイルドカード文字に置き換えても予想認識率が目標を満たさない場合は、次に予想認識率の低い文字を1個ワイルドカード文字にして、２つの規則の論理和を取った時の予想認識率を求める。さらに目標を満たさない場合は、３番目の・・というように目標を満たすまで繰り返す。1文字ずつワイルドカード文字にして論理和をとっても予想認識率が目標を満たさない場合は、ワイルドカードを２個ずつにして行う。

【0047】

図７は、前述した第１例のアルゴリズムを実施するためのフローチャートである。
まずステップＳ１０において、仕分け規則の予想認識率を算出する。前述の例では、支＊給＊受＊領＊書＝ 98％＊90％＊85％＊80％＊95％＝ 57％である。

【0048】

予想認識率が目標を超えない場合は、次のステップＳ１２において、ｎ＝１とする。ｎは、認識対象となる文字列の文字数である。次のステップＳ１４においては、予想認識率が低い文字からｎ文字をワイルドカード文字に置き換えた仕分け規則を生成する。前述の例では、文書タイトル＝”支給受？書”である。

【0049】

次のステップＳ１６においては、ステップＳ１４で生成した仕分け規則の予想認識率を算出する。前述した例では、支＊給＊受＊？＊書＝ 98％＊90％＊85％＊100％＊95％＝ 71％である。

【0050】

次のステップＳ１８においては、ステップＳ１６で算出した予想認識率が目標認識率以上であるか否かを判定する。このステップＳ１８により予想認識率が目標認識率以上と判定された場合は終了する。このステップＳ１８により予想認識率が目標認識率未満である場合は、次のステップＳ２０へ進む。ステップＳ２０においては、ｎ＝ｎ＋１とする。前述の例では、目標認識率の９０％未満であるから、ステップＳ２０において、ｎ＝２とする。

【0051】

次のステップＳ２２においては、ｎが文字列長（前述の例では５）を超えているか否かを判定する。ｎが文字列長を超えている場合は、それ以上、仕分け規則を生成することができないので終了する。一方、ステップＳ２２において、ｎが文字列長以下であると判定すると、ステップＳ１４に戻る。前述した例では、ｎ＝３である文書タイトル＝”支？？？書”となった段階で初めて目標認識率以上となる。

【0052】

図７は、前述した第２例のアルゴリズムを実施するためのフローチャートである。
まずステップＳ３０において、仕分け規則の予想認識率を算出する。前述の例では、支＊給＊受＊領＊書＝ 98％＊90％＊85％＊80％＊95％＝ 57％である。

【0053】

予想認識率が目標を超えない場合は、次のステップＳ３２において、ｍ＝１、ｎ＝１とする。ｍは、認識対象となる文字列において、予想認識率が低い順序であり、ｎは、認識対象となる文字列の文字数である。

【0054】

次のステップＳ３４においては、予想認識率がｍ番目に低い文字からｎ文字をワイルドカード文字に置き換えた仕分け規則を生成する。前述の例では、文書タイトル＝”支給受？書”である。

【0055】

次のステップＳ３６においては、作成済みの仕分け規則と論理和を取った仕分け規則を生成する。作成済みがない場合は、ステップＳ３４で生成した仕分け規則がそのまま採用される。

【0056】

次のステップＳ３８においては、ステップＳ３６で生成した仕分け規則の予想認識率を算出する。前述した例では、支＊給＊受＊？＊書＝ 98％＊90％＊85％＊100％＊95％＝ 71％である。

【0057】

次のステップＳ４０においては、ステップＳ３８で算出した予想認識率が目標認識率以上であるか否かを判定する。このステップＳ４０により予想認識率が目標認識率以上と判定された場合は終了する。このステップＳ４０により予想認識率が目標認識率未満である場合は、次のステップＳ４２へ進む。ステップＳ４２においては、ｍ＝ｍ＋１とする。前述の例では、目標認識率の９０％未満であるから、ステップＳ４２において、ｍ＝２とする。

【0058】

次のステップＳ４４においては、ｍが文字列長（前述の例では５）を超えているか否かを判定する。ｍが文字列長を超えている場合は、次のステップＳ４６へ進み、ｍ＝１、ｎ＝ｎ＋１とし、ワイルドカード文字に置き換える文字数を１つ増やす。一方、ステップＳ４４において、ｍが文字列長以下であると判定すると、ステップＳ３４に戻る。

【0059】

ステップＳ３４に戻った場合は、予想認識率が２番目に低い文字から１文字をワイルドカード文字に置き換えた仕分け規則を生成する。前述の例では、文書タイトル＝”支給？領書”である。

【0060】

次のステップＳ３６においては、作成済みの仕分け規則と論理和を取った仕分け規則を生成する。前述の例では、文書タイトル＝”支給受？書”＋”支給？領書”である。

【0061】

次のステップＳ３８においては、ステップＳ３６で生成した仕分け規則の予想認識率を算出する。予想認識率が９０％となり、目標認識率以上となって処理を終了する。

【0062】

前述した第１例では、例えば文書タイトル＝”支？？？書”となって、「支給受領書」と「支給清算書」との仕分け規則が重なる可能性がある。そこで、図９に示すように、ステップＳ５０において、重複する仕分け規則があるか否かを判定する。ステップＳ５０において、重複する仕分け規則がない場合は処理を終了するが、重複する仕分け規則がある場合は、新たなアルゴリズムで仕分け規則を生成する。例えば第１例のアルゴリズムから第２例のアルゴリズムに変更して新たな仕分け規則を生成する。

【0063】

なお、冗長度を上げる方法は、前述の第１例、第２例に限定するものではない。例えば予想認識率の低い文字に類似する文字をＯＲ条件として含ませる等であってもよい。

【符号の説明】

【0064】

２文書処理システム
８画像形成装置
１０スキャナ装置
２４帳票分類システム
２６紙文書
２８電子文書
３２受付部
３４文字情報抽出部
３６仕分け部
３８仕分け規則生成部
４０試験用データ生成部

【図1】