特許第6578858号(P6578858)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許6578858-情報処理装置及びプログラム 図000002
  • 特許6578858-情報処理装置及びプログラム 図000003
  • 特許6578858-情報処理装置及びプログラム 図000004
  • 特許6578858-情報処理装置及びプログラム 図000005
  • 特許6578858-情報処理装置及びプログラム 図000006
  • 特許6578858-情報処理装置及びプログラム 図000007
  • 特許6578858-情報処理装置及びプログラム 図000008
  • 特許6578858-情報処理装置及びプログラム 図000009
  • 特許6578858-情報処理装置及びプログラム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6578858
(24)【登録日】2019年9月6日
(45)【発行日】2019年9月25日
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06K 9/20 20060101AFI20190912BHJP
【FI】
   G06K9/20 340K
【請求項の数】6
【全頁数】10
(21)【出願番号】特願2015-192960(P2015-192960)
(22)【出願日】2015年9月30日
(65)【公開番号】特開2017-68562(P2017-68562A)
(43)【公開日】2017年4月6日
【審査請求日】2018年8月31日
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士ゼロックス株式会社
(74)【代理人】
【識別番号】110000752
【氏名又は名称】特許業務法人朝日特許事務所
(72)【発明者】
【氏名】重枝 信之
(72)【発明者】
【氏名】鹿島 洋三
【審査官】 松浦 功
(56)【参考文献】
【文献】 特開平09−016714(JP,A)
【文献】 特開2003−115028(JP,A)
【文献】 米国特許出願公開第2008/0205742(US,A1)
【文献】 特開2014−146183(JP,A)
【文献】 米国特許出願公開第2010/0310192(US,A1)
【文献】 特開平10−063789(JP,A)
【文献】 特開2010−026848(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/00 − 9/82
G06T 1/00
G06T 7/00 − 7/90
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
帳票を読み取って生成された第1の画像に含まれる第1の要素群を取得する第1取得手段と、
前記第1の画像に互いに異なるノイズを付加した複数の第2の画像を生成する付加手段と、
前記複数の第2の画像の各々に含まれる第2の要素群を取得する第2取得手段と、
前記第1の要素群に含まれる要素と複数の前記第2の要素群に含まれる要素との類似度に基づいて、前記第1の要素群から前記帳票の特徴を示す要素を抽出する抽出手段と
を備えた情報処理装置。
【請求項2】
前記付加手段は、予め定められた種類の前記ノイズを前記第2の画像毎に無作為に変動させることによって前記複数の第2の画像を生成する
請求項1に記載の情報処理装置。
【請求項3】
前記付加手段は、予め定められた複数種類の前記ノイズを前記第2の画像毎に無作為に変動させることによって前記複数の第2の画像を生成する
請求項2に記載の情報処理装置。
【請求項4】
前記抽出手段は、前記類似度が閾値に達した要素を前記帳票の特徴を示す要素として抽出する請求項1乃至3のいずれか1項に記載の情報処理装置。
【請求項5】
前記抽出手段は、前記類似度が最高である要素を前記帳票の特徴を示す要素として抽出する請求項1乃至4のいずれか1項に記載の情報処理装置。
【請求項6】
コンピュータを、
帳票を読み取って生成された第1の画像に含まれる第1の要素群を取得する第1取得手段と、
前記第1の画像に互いに異なるノイズを付加した複数の第2の画像を生成する付加手段と、
前記複数の第2の画像の各々に含まれる第2の要素群を取得する第2取得手段と、
前記第1の要素群に含まれる要素と複数の前記第2の要素群に含まれる要素との類似度に基づいて、前記第1の要素群から前記帳票の特徴を示す要素を抽出する抽出手段
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
特許文献1に記載された帳票処理システムは、帳票画像から文字列を抽出し、抽出した文字列の位置情報及び出現頻度から各文字列の安定度を計算し、同一領域内で各文字列の出現した帳票種の数から固有度を計算し、安定度と固有度とから文字列の帳票識別辞書への登録の優先度を計算する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003−115028号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
帳票の処理の能率を向上させるには、電子化が有効な手段となり得る。例えば、複数の種別の帳票の特徴を示す要素を予めコンピュータに登録しておき、帳票をスキャナで読み取って画像を生成し、生成した画像に含まれる要素を抽出し、抽出された要素と予め登録された要素との比較により、読み取った帳票の種別を判定する。ところが、帳票を読み取って生成した画像にノイズが含まれている場合がある。ノイズとは、例えば、帳票の汚れや折れ目、裏写り、記入された文字などである。これらのノイズは、帳票の種別の誤判定(真の種別と異なる種別であると判定されること)の原因となり得る。誤判定が発生すると、判定結果を訂正する煩雑な作業が必要となり、非効率的である。
本発明は、帳票を読み取って生成した画像に含まれるノイズに起因する帳票の種別の誤判定を減らすことを目的とする。
【課題を解決するための手段】
【0005】
請求項1に係る発明は、帳票を読み取って生成された第1の画像に含まれる第1の要素群を取得する第1取得手段と、前記第1の画像に互いに異なるノイズを付加した複数の第2の画像を生成する付加手段と、前記複数の第2の画像の各々に含まれる第2の要素群を取得する第2取得手段と、前記第1の要素群に含まれる要素と複数の前記第2の要素群に含まれる要素との類似度に基づいて、前記第1の要素群から前記帳票の特徴を示す要素を抽出する抽出手段とを備えた情報処理装置を提供する。
請求項2に係る発明は、請求項1に記載の情報処理装置において、前記付加手段は、予め定められた種類の前記ノイズを前記第2の画像毎に無作為に変動させることによって前記複数の第2の画像を生成する。
請求項3に係る発明は、請求項2に記載の情報処理装置において、前記付加手段は、予め定められた複数種類の前記ノイズを前記第2の画像毎に無作為に変動させることによって前記複数の第2の画像を生成する。
請求項4に係る発明は、請求項1乃至3のいずれか1項に記載の情報処理装置において、前記抽出手段は、前記類似度が閾値に達した要素を前記帳票の特徴を示す要素として抽出する。
請求項5に係る発明は、請求項1乃至4のいずれか1項に記載の情報処理装置において、前記抽出手段は、前記類似度が最高である要素を前記帳票の特徴を示す要素として抽出する。
請求項6に係る発明は、コンピュータを、帳票を読み取って生成された第1の画像に含まれる第1の要素群を取得する第1取得手段と、前記第1の画像に互いに異なるノイズを付加した複数の第2の画像を生成する付加手段と、前記複数の第2の画像の各々に含まれる第2の要素群を取得する第2取得手段と、前記第1の要素群に含まれる要素と複数の前記第2の要素群に含まれる要素との類似度に基づいて、前記第1の要素群から前記帳票の特徴を示す要素を抽出する抽出手段として機能させるためのプログラムを提供する。
【発明の効果】
【0006】
請求項1、6に係る発明によれば、第1の画像に互いに異なるノイズを付加した複数の第2の画像を用いて帳票の特徴を示す要素を抽出する構成を備えない場合と比べて、帳票を読み取って生成された画像に含まれるノイズに起因する帳票の種別の誤判定を減らすことができる。
請求項2に係る発明によれば、ノイズを作為的に変動させる構成と比べて、現実のノイズに近いノイズを付加することができる。
請求項3に係る発明によれば、1種類のノイズを付加する構成と比べて、現実のノイズに近いノイズを付加することができる。
請求項4に係る発明によれば、帳票の種別を示す要素の抽出の基準に幅を持たせることができる。
請求項5に係る発明によれば、最も信頼性の高い要素を抽出することができる。
【図面の簡単な説明】
【0007】
図1】実施形態に係るシステムの全体を示す図。
図2】情報処理装置1のハードウェア構成を示す図。
図3】帳票の例を示す図。
図4】ノイズの例を示す図。
図5】情報処理装置1の機能を示すブロック図。
図6】情報処理装置1の動作を示す流れ図。
図7】第1の要素群リストを示す図。
図8】第2の要素群リストを示す図。
図9】特徴リストを示す図。
【発明を実施するための形態】
【0008】
本発明の実施形態の一例について説明する。
<構成>
図1は、実施形態に係るシステムの全体を示す図である。情報処理装置1と読取装置2は、LANなどの通信手段3で接続されている。読取装置2は、帳票のサンプルを読み取って画像データを生成し、この画像データを情報処理装置1に送信する。情報処理装置1は、受信した画像データで表される画像から、帳票の特徴を示す要素を抽出する。抽出された要素は、実際の事務処理で使用される帳票の種別を判定するために用いられる。
【0009】
図2は、情報処理装置1のハードウェア構成を示す図である。情報処理装置1は、制御部11、記憶部12、通信部13などを備えたコンピュータである。制御部11は、CPU(Central Processing Unit)などの演算装置と、ROM(Read Only Memory)やRAM(Random Access Memory)などの記憶装置とを備える。ROMには、ハードウェアやOS(Operating System)の起動の手順を記述したファームウェアが記憶されている。RAMは、CPUが演算を実行する際のデータの記憶に用いられる。記憶部12は、例えばハードディスク装置を備え、OSやアプリケーションプログラムなどが記憶されている。通信部13は、読取装置2と通信するための通信I/F(Interface)を備える。情報処理装置1には、表示装置14と受付装置15が接続されている。表示装置14は、例えば液晶表示装置を備え、操作者が情報処理装置1を操作するための画面などを表示する。受付装置15は、例えばキーボードやマウスなどを備え、操作者が行った操作を受け付けて、その操作に応じた情報を制御部11に出力する。
【0010】
読取装置2は、例えば、プラテンガラス、遮光板、光源、光学系、撮像素子、演算装置などを備えたイメージスキャナである(図示省略)。プラテンガラス上に載せられた帳票に対して光源が光を照射し、帳票で反射された反射光が光学系を介して撮像素子に入射する。撮像素子は、入射した光を画像信号に変換して演算装置に出力する。演算装置は、画像信号に基づいてラスタ形式の画像データを生成し、この画像データを情報処理装置1に送信する。なお、複写機と情報処理装置1を通信手段3で接続し、複写機に備えられた読取装置を用いて帳票を読み取るようにしてもよい。また、USB(Universal Serial Bus)メモリなどの記録媒体を用いて読取装置2から情報処理装置1に帳票の画像データを受け渡してもよい。
【0011】
図3は、帳票の例を示す図である。帳票には、文字や罫線などの要素が印刷などによって予め形成されている。この例では、「様式A−1」、「申請日 年 月 日」、「審査部 御中」、「住宅ローン申込書」、「申込内容」、「氏名 印」の各文字列が予め形成されている。また、申込内容の欄を示す罫線が形成されている。
【0012】
図4は、ノイズの例を示す図である。帳票を読み取って生成した画像には、ノイズが含まれている場合がある。主なノイズは、以下のように分類される。
(a)記入されたもの
例えば、手書きで記入された文字や記号、押印によって形成された印影、記入すべき箇所を示すために鉛筆で書き込まれた印などである。図示した例では、氏名の欄に「富士 太郎」なる文字列(ノイズN1)が手書きで記入されている。また、申請日の欄と氏名の欄に、記入すべき箇所を囲んだ印(ノイズN2)が書き込まれている。また、氏名の欄に印影(ノイズN3)が形成されている。
【0013】
(b)ウォーターマーク
読取装置2で読み取るとウォーターマークを含んだ画像が生成されるように帳票に隠し文字が設定されている場合がある。ウォーターマークは、帳票の記入や視認に支障が生じない程度の濃度で形成されるが、ウォーターマーク自体の視認性を確保するために、例えば、大きなサイズの文字、斜めの配置、複数のウォーターマークの規則的又は不規則な配置などにより形成される。図示した例では、「コピー禁止」なるウォーターマーク(ノイズN4)が形成されている(図示の都合上、ハッチングを使用)。なお、隠し文字を用いずに、顕在化したウォーターマークが帳票に形成されている場合もある。
【0014】
(c)汚れ
例えば、消しゴムのかす、インクのしみ、埃などの汚れが帳票に付着している場合がある。また、帳票の折れ目やしわなどが線状の汚れとなる場合もある。また、読取装置2のプラテンガラスに汚れが付着している場合もある。図示した例では、面状の汚れ(図示の都合上、ハッチングを使用。ノイズN5)と線状の汚れ(ノイズN6)が生じている。
【0015】
(d)裏写り
帳票の裏面に文字などが形成されている場合がある。例えば、記入の要領が裏面に記載されている場合や、両面に記入欄が設けられている場合などがある。このように帳票の裏面に文字などが記載されており、且つ、裏面の文字などが透けて見える程度の薄い紙が用いられている場合、裏面の文字などが読取装置2に読み取られてしまうことがある。
【0016】
(e)傾き(スキュー)
本実施形態におけるノイズの概念には、読み取り時の帳票の傾きに起因するものも含まれる。例えば、読取装置2の読み取り位置に帳票を配置したときに帳票に傾きが生じることがある。また、読み取り位置に原稿を搬送する装置が備えられている場合、傾いた姿勢で帳票が搬送されることがある。この傾きの大きさによっては、例えば文字が認識されなかったり、罫線の方向が誤った方向に認識されるなどして、帳票の特徴が正確に認識されなくなるおそれがある。
【0017】
図5は、情報処理装置1の機能を示すブロック図である。第1取得手段101は、帳票を読み取って生成された第1の画像に含まれる第1の要素群を取得する。付加手段102は、前記第1の画像に互いに異なるノイズを付加した複数の第2の画像を生成する。第2取得手段103は、前記複数の第2の画像の各々に含まれる第2の要素群を取得する。抽出手段104は、前記第1の要素群に含まれる要素と複数の前記第2の要素群に含まれる要素との類似度に基づいて、前記第1の要素群から前記帳票の特徴を示す要素を抽出する。これらの機能を実現するための具体的な構成は、以下のとおりである。
【0018】
<動作>
図6は、情報処理装置1の動作を示す流れ図である。情報処理装置1には、帳票の特徴を示す要素を抽出する手順を記述したアプリケーションプログラムがインストールされている。情報処理装置1の制御部11は、このアプリケーションプログラムを実行して、以下に示す処理を実行する。
【0019】
<ステップS01>(第1取得手段101の一例)
最初に、ユーザが読取装置2にサンプルの帳票を読み取らせる。読取装置2は、サンプルの帳票を読み取って第1の画像データを生成し、第1の画像データを情報処理装置1に送信する。情報処理装置1の制御部11は、読取装置2から受信した第1の画像データで表される第1の画像に対して文字認識と罫線認識を実行する。文字認識は、例えば、OCR(Optical Character Recognition)の手法を用いる。罫線認識は、例えば、特開2003−109007号公報の段落0051に記載されている、X軸方向とY軸方向の黒画素の累積値から罫線を認識する手法を用いる。本実施形態は、第1の要素群として文字列を取得する例を示す。図3の例では、「様式A−1」、「申請日 年 月 日」、「審査部 御中」、「住宅ローン申込書」、「申込内容」、「氏名 印」の各文字列が認識される。制御部11は、これらの文字列を第1の要素群として取得する。
【0020】
図7は、第1の要素群リストを示す図である。第1の要素群を取得したならば、制御部11は、第1の要素群リストを作成する。第1の要素群リストは、要素ID、要素の内容、位置情報を関連付けて格納するリストである。要素IDは、要素を識別するための識別子である。要素の内容は、この例では、文字認識で認識された文字列である。位置情報は、第1の画像における要素の位置を示す情報であり、例えば、文字列に外接する矩形の左上の頂点の座標である。
【0021】
<ステップS02>(付加手段102の一例)
制御部11は、第1の画像にノイズを付加する。付加するノイズは、例えば前述の(a)記入されたもの、(b)ウォーターマーク、(c)汚れ、(d)裏写り、(e)傾き、である。裏写りを想定した文字は、鏡像でもよいし、鏡像でなくてもよい。記憶部12には、ノイズの初期値が記憶されている。ノイズの初期値とは、例えば、(a)については、文字や線の数、(b)については、文字列の面積、(c)については、汚れの面積、(d)については、裏写りの面積、(e)については、傾きの角度を定めたものである。また、ノイズの初期値の1つとして、例えば、第1の要素群に含まれる各要素(本実施形態では、文字列)の外接矩形内でノイズが占める面積の割合が定められていてもよい。
【0022】
制御部11は、第1の画像にこれらのノイズを付加した複数の第2の画像を生成する。このとき、制御部11は、第2の画像の各々に含まれるノイズを互いに異ならせるようにする。例えば、要素の外接矩形内でノイズを付加する位置を第2の画像毎に乱数を用いて変動させるようにしてもよい。また、要素の外接矩形内でノイズが占める面積や、外接矩形の面積に対するノイズの面積の割合などを第2の画像毎に乱数を用いて変動させるようにしてもよい。要するに、ステップS02において、制御部11は、予め定められた複数種類のノイズを第2の画像毎に無作為に変動させることによって複数の第2の画像を生成する。図4で例示した画像は、複数の第2の画像のうちの1つである。複数の第2の画像の各々は、ノイズN1乃至N6の面積や位置などが互いに異なっている。
【0023】
<ステップS03>(第2取得手段103の一例)
ステップS01と同様に、制御部11が、第2の画像の各々に対して文字認識を実行して文字列を認識し、認識した文字列を第2の要素群として取得する。図4の例では、ノイズの重なった文字が認識されなくなるため、「様 A−1」、「申請 年 月 日」、「審査部 御中」、「住宅ローン申 書」、「申込内容」、「氏 富士 太郎」の各文字列が認識される。制御部11は、これらの文字列を第2の要素群として取得する。ただし、前述のとおり、複数の第2の画像の各々はノイズの面積や位置などが互いに異なっている。そのため、例えば、図4の例では、「住宅ローン申込書」の「込」にノイズが重なったために「込」が認識されないが、別の文字にノイズが重なった場合には、その文字が認識されなくなる。従って、取得される第2の要素群は、第2の画像毎に異なるものとなる。制御部11は、複数の第2の画像の各々から第2の要素群を取得する。従って、第2の要素群は、第2の画像の数と同じ数だけ取得される。
【0024】
図8は、第2の要素群リストを示す図である。第2の要素群を取得したならば、制御部11は、第2の要素群リストを作成する。第2の要素群リストは、要素ID、要素の内容、位置情報を関連付けて格納するリストである。第2の要素群リストは、第2の画像と同じ数だけ作成される。
【0025】
<ステップS04>(抽出手段104の一例)
制御部11は、第1の要素群リストと第2の要素群リストから同一の要素IDに対応する要素を読み出して、2つの要素の類似度を求める。類似度とは、文字列の場合、全文字数に対する一致した文字数の割合である。例えば、要素ID=004については、第1の要素群リストでは「住宅ローン申込書」、第2の要素群リストでは「住宅ローン申 書」であるから、類似度は、0.875である。
【0026】
制御部11は、すべての第2の要素群リストについてこの処理を行い、要素ID毎に類似度の平均値を求める。例えば、5つの第2の画像から取得された要素ID=004の要素の内容がそれぞれ「住宅ローン申 書」、「住宅ローン 書」、「住宅ローン申 」、「住宅ローン申込書」、「住宅ロー 書」であったとすると、要素ID=004の類似度の平均値は、(0.875+0.75+0.75+1.0+0.625)÷5=0.8となる。制御部11は、類似度の平均値が予め定められた閾値に達しているならば、その要素が、その帳票の特徴を示す要素であると判定する。例えば閾値が0.4である場合、要素ID=004の要素は、類似度の平均値が閾値を上回るから、帳票の特徴を示す要素であると判定される。
【0027】
図9は、特徴リストを示す図である。制御部11は、すべての要素IDについて上記の処理が済んだならば、特徴リストを作成する。特徴リストは、帳票の特徴を示す要素の要素ID、要素の内容、位置情報を関連付けて格納するリストである。この例では、要素ID=006の「氏名 印」の類似度の平均値が閾値に達しなかったため、要素ID=001乃至005の要素が、帳票の特徴を示す要素として抽出されている。制御部11は、特徴リストを帳票毎に作成する。制御部11は、作成した特徴リストを識別するための識別子である帳票IDを生成してその特徴リストに関連付ける。この例では、作成した特徴リストに特徴ID=001が関連付けられている。以上のようにして、第1の要素群から帳票の特徴を示す要素が抽出される。なお、帳票の特徴を示す要素の抽出結果を示す画像を表示装置14に表示させるようにしてもよい。例えば、作成された特徴リストを表示装置14に表示させるようにしてもよい。また、帳票の特徴を示す要素として抽出された要素を視覚的に強調した帳票の画像を表示装置14に表示させるようにしてもよい。
【0028】
<運用例>
次に、上記のようにして作成された特徴リストを用いた帳票処理の運用例について説明する。記憶部12には、上記の手順で作成された複数の特徴リストが記憶されている。これらの特徴リストには、互いに異なる帳票IDが関連付けられている。最初にユーザが読取装置2に帳票を読み取らせる。この帳票は、例えば住宅ローンの申込者が図3に示す帳票(住宅ローン申込書)に必要事項を記入したものである。読取装置2は、この帳票を読み取って第3の画像データを生成し、この第3の画像データを情報処理装置1に送信する。情報処理装置1の制御部11は、読取装置2から受信した第3の画像データで表される第3の画像に対して文字認識を実行し、認識された文字列を第3の要素群として取得し、第3の要素群リストを作成する。第3の要素群リストの構成は、前述の第1の要素群リストと同様である。
【0029】
制御部11は、第3の要素群リストに含まれる各要素の位置情報に対応する要素を特徴リストから読み出し、第3の要素群リストに含まれる各要素と特徴リストから読み出した要素との類似度を求める。第3の要素群リストに含まれる各要素の位置情報に対応する要素が特徴リストに含まれていない場合には、その要素の類似度は0.0となる。制御部11は、特徴リスト毎にその特徴リストに含まれる各要素の類似度に基づいて得点を計算し、得点が閾値以上で、且つ、得点が最高点である特徴リストを抽出する。
【0030】
記憶部12には、第3の画像データを格納するディレクトリが設けられている。このディレクトリの1つ下の階層には、それぞれに帳票IDが関連付けられた複数のディレクトリと、帳票IDが関連付けられていない1つのディレクトリ(不明な帳票のディレクトリ)が設けられている。制御部11は、抽出された特徴リストの帳票IDと同じ帳票IDが関連付けられたディレクトリに第3の画像データを格納する。すべての特徴リストで得点が閾値に達しない場合には、不明な帳票のディレクトリに第3の画像データを格納する。以上のようにして、帳票の種別が判定される。
【0031】
本実施形態によれば、第1の画像に互いに異なるノイズを付加した複数の第2の画像を用いて帳票の特徴を示す要素を抽出する構成を備えない場合と比べて、帳票を読み取って生成された画像に含まれるノイズに起因する帳票の種別の誤判定が減少する。また、本実施形態によれば、ノイズを作為的に変動させる構成と比べて、現実のノイズに近いノイズが付加される。また、本実施形態によれば、1種類のノイズを付加する構成と比べて、現実のノイズに近いノイズが付加される。また、本実施形態によれば、帳票の種別を示す要素の抽出の基準に幅が与えられる。
【0032】
<変形例>
実施形態を次のように変形してもよい。また、複数の変形例を組み合わせてもよい。
<変形例1>
上記の実施形態では、情報処理装置1の制御部11が文字認識や罫線認識などによって第1の要素群、第2の要素群を抽出する例を示したが、例えば、帳票の画像を表示させた画面上でユーザがマウスを用いて要素を指定し、指定された要素を制御部11が第1の要素群、第2の要素群として取得するようにしてもよい。
【0033】
<変形例2>
第1の画像に付加するノイズに条件を設定するようにしてもよい。具体的には、ノイズの種類を示すメニューを表示装置14に表示させ、第1の画像を示す画面上でユーザが指定した領域に、ユーザがメニューで指定した種類のノイズを付加するようにしてもよい。この構成によれば、例えば、手書きで記入する領域には手書きを模したノイズを付加するといったことが実現される。
【0034】
<変形例3>
上記の実施形態のステップS04では、類似度の平均値が予め定められた閾値に達しているならば、その要素がその帳票の特徴を示す要素であると判定する例を示したが、類似度の平均値が最高である要素をその帳票の特徴を示す要素であると判定するようにしてもよい。また、類似度の平均値が予め定められた閾値に達し、且つ、類似度の平均値が最高である要素をその帳票の特徴を示す要素であると判定するようにしてもよい。
【0035】
<変形例4>
複写によって作成された帳票をさらに複写するということを繰り返すと、文字や線の鮮明度が低下して特徴部分が正確に認識されなくなる場合がある。このような複写の繰り返しによる鮮明度の低下もノイズの一種と考えられる。この場合、文字の輪郭をぼかす処理や、線の太さを変更する処理などによって第1の画像にノイズを付加するようにしてもよい。
【0036】
<変形例5>
上記の実施形態では、ノイズの位置や面積などを第2の画像毎に乱数を用いて変動させる例を示したが、ノイズの位置や面積などを第2の画像毎に規則的に変動させるようにしてもよい。要するに、第1の画像に互いに異なるノイズを付加した複数の第2の画像を生成するように構成されていればよい。
【0037】
<変形例6>
上記の実施形態では、情報処理装置1がアプリケーションプログラムを実行することによって上記の機能を実現する例を示したが、上記の機能の一部又は全部がハードウェア回路で実装されていてもよい。また、アプリケーションプログラムを、光記録媒体、半導体メモリ等、コンピュータで読み取り可能な記録媒体に記録して提供し、この記録媒体からプログラムを読み取ってインストールするようにしてもよい。また、このプログラムを電気通信回線で提供してもよい。
【符号の説明】
【0038】
1…情報処理装置、11…制御部、12…記憶部、13…通信部、14…表示装置、15…受付装置、101…第1取得手段、102…付加手段、103…第2取得手段、104…抽出手段、2…読取装置、3…通信手段
図1
図2
図3
図4
図5
図6
図7
図8
図9