(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024037274
(43)【公開日】2024-03-19
(54)【発明の名称】明細処理装置及びプログラム
(51)【国際特許分類】
G06V 30/14 20220101AFI20240312BHJP
【FI】
G06V30/14 340J
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022141996
(22)【出願日】2022-09-07
(71)【出願人】
【識別番号】000002897
【氏名又は名称】大日本印刷株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100165157
【弁理士】
【氏名又は名称】芝 哲央
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】内田 昌希
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029AA01
5B029CC21
5B029CC27
(57)【要約】
【課題】書類画像に含まれる明細におけるデータ入力負担を軽減するための明細処理装置及びプログラムを提供する。
【解決手段】明細領域を含む画像データに対する処理を行う明細処理サーバ1は、明細領域に含まれる文字のまとまりを矩形領域として検出する明細テキスト検出部14と、明細テキスト検出部14が検出した矩形領域の座標値を取得する座標値取得部15と、座標値取得部15が取得した座標値に基づいて明細領域をセルに分割するセル分割部16と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
明細領域を含む画像データに対する処理を行う明細処理装置であって、
前記明細領域に含まれる文字のまとまりを矩形領域として検出する明細テキスト検出手段と、
前記明細テキスト検出手段が検出した前記矩形領域の座標値を取得する座標値取得手段と、
前記座標値取得手段が取得した前記座標値に基づいて前記明細領域をセルに分割するセル分割手段と、
を備える、明細処理装置。
【請求項2】
請求項1に記載の明細処理装置において、
前記セル分割手段は、前記座標値を用いたクラスタリングの結果に基づき、前記明細領域に対して縦方向及び横方向の少なくとも一方の分割をする、明細処理装置。
【請求項3】
請求項1又は請求項2に記載の明細処理装置において、
前記セル分割手段は、前記矩形領域における同一座標軸の前記座標値が複数ある場合には、他の前記矩形領域を横断しないように分割をする、明細処理装置。
【請求項4】
請求項1に記載の明細処理装置において、
前記画像データから前記明細領域の検出を行う明細領域検出手段と、
前記明細領域に含まれる線画像を検出する線画像検出手段と、
を備え、
前記セル分割手段は、前記線画像検出手段が検出した前記線画像をさらに用いて前記明細領域をセルに分割する、明細処理装置。
【請求項5】
請求項4に記載の明細処理装置において、
前記明細領域検出手段が検出した前記明細領域に対して補正処理を行い、縦方向及び横方向に平行な前記明細領域を取得する明細領域補正手段を備える、明細処理装置。
【請求項6】
請求項1又は請求項2に記載の明細処理装置において、
前記セル分割手段が分割した各セルに対してテキストを検出する分割テキスト検出手段と、
前記分割テキスト検出手段が前記テキストを検出した場合に、前記セルを文字認識処理の対象にする対象セル取得手段と、
を備える、明細処理装置。
【請求項7】
明細領域を含む画像データに対する処理を行うコンピュータが実行するプログラムであって、
前記コンピュータを、
前記明細領域に含まれる文字のまとまりを矩形領域として検出する明細テキスト検出手段と、
前記明細テキスト検出手段が検出した前記矩形領域の座標値を取得する座標値取得手段と、
前記座標値取得手段が取得した前記座標値に基づいて前記明細領域をセルに分割するセル分割手段と、
して機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、明細処理装置及びプログラムに関する。
【背景技術】
【0002】
従来、見積書や請求書等の明細形式を含む書類については、紙による受け渡しや、PDFデータによる受け渡しがされることが多い。そして、受け渡された書類をデータとしてシステムに登録する際には、データ入力を手作業で行っている企業も多く存在し、担当者の大きな負担になっている。
そこで、例えば、OCR(Optical Character Recognition/Reader)を用いてデータ登録を自動化する取り組みが行われている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1では、OCRにより印刷物形式の決算書を読み取り、文字認識処理を経てCSV形式のデータファイルに変換する旨が記載されている。しかし、現状市販されているOCR製品では、精度よく表内部のデータをテキストにすることができず、特に、罫線の記載がされていない表形式の明細等では、顕著である。よって、OCRを用いる場合には、事前に読取領域を詳細に指定する等の必要がある。しかし、見積書等のフォーマットは、例えば、企業ごとに異なるため、フォーマットごとに手動で領域を指定するのは煩雑である。
【0005】
そこで、本発明は、書類画像に含まれる明細におけるデータ入力負担を軽減するための明細処理装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、明細領域を含む画像データに対する処理を行う明細処理装置であって、前記明細領域に含まれる文字のまとまりを矩形領域として検出する明細テキスト検出手段と、前記明細テキスト検出手段が検出した前記矩形領域の座標値を取得する座標値取得手段と、前記座標値取得手段が取得した前記座標値に基づいて前記明細領域をセルに分割するセル分割手段と、を備える、明細処理装置である。
第2の発明は、第1の発明の明細処理装置において、前記セル分割手段は、前記座標値を用いたクラスタリングの結果に基づき、前記明細領域に対して縦方向及び横方向の少なくとも一方の分割をする、明細処理装置である。
第3の発明は、第1の発明又は第2の発明の明細処理装置において、前記セル分割手段は、前記矩形領域における同一座標軸の前記座標値が複数ある場合には、他の前記矩形領域を横断しないように分割をする、明細処理装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの明細処理装置において、前記画像データから前記明細領域の検出を行う明細領域検出手段と、前記明細領域に含まれる線画像を検出する線画像検出手段と、を備え、前記セル分割手段は、前記線画像検出手段が検出した前記線画像をさらに用いて前記明細領域をセルに分割する、明細処理装置である。
第5の発明は、第4の発明の明細処理装置において、前記明細領域検出手段が検出した前記明細領域に対して補正処理を行い、縦方向及び横方向に平行な前記明細領域を取得する明細領域補正手段を備える、明細処理装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの明細処理装置において、前記セル分割手段が分割した各セルに対してテキストを検出する分割テキスト検出手段と、前記分割テキスト検出手段が前記テキストを検出した場合に、前記セルを文字認識処理の対象にする対象セル取得手段と、を備える、明細処理装置である。
第7の発明は、第1の発明から第6の発明までのいずれかの明細処理装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0007】
本発明によれば、書類画像に含まれる明細におけるデータ入力負担を軽減するための明細処理装置及びプログラムを提供することができる。
【図面の簡単な説明】
【0008】
【
図1】本実施形態に係る明細処理システムの全体構成図及び明細処理サーバの機能ブロック図である。
【
図2】本実施形態に係る明細処理サーバの書類画像処理を示すフローチャートである。
【
図3】本実施形態に係るユーザ端末から受け付けた書類画像の例及び明細処理サーバにおける処理を説明するための図である。
【
図4】本実施形態に係る明細処理サーバにおける処理を説明するための図である。
【
図5】本実施形態に係る明細処理サーバのセル分割処理を示すフローチャートである。
【
図6】本実施形態に係る明細処理サーバにおける処理を説明するための図である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<明細処理システム100の全体構成>
図1は、本実施形態に係る明細処理システム100の全体構成図及び明細処理サーバ1の機能ブロック図である。
【0010】
図1に示すように、明細処理システム100は、明細処理サーバ1(明細処理装置)と、ユーザ端末5と、OCR装置6とを備える。明細処理サーバ1と、ユーザ端末5と、OCR装置6とは、通信ネットワークNを介して接続されている。
明細処理システム100では、ユーザ端末5から入力がされた、例えば、見積書や請求書等の明細領域を含む書類の画像データを、明細処理サーバ1が受け付ける。そして、明細処理サーバ1は、画像データに対して画像処理を行って、明細領域からセルごとにテキスト領域を取得して処理結果画像を、ユーザ端末5に出力する。ユーザ端末5は、明細処理サーバ1からの受信した処理結果画像をOCR装置6に送信することで、明細領域のテキストを得る。そのため、ユーザ端末5を使用するユーザは、OCR装置6から受信した明細領域のテキストを、図示しないデータ処理のためのシステムに入力することができ、書類画像に含まれる明細についてのデータ入力負担を軽減できる。
【0011】
<明細処理サーバ1>
明細処理サーバ1は、書類の画像データから明細領域を取得し、セルに分割した処理結果画像を出力するサーバである。
明細処理サーバ1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、明細処理サーバ1の全体を制御するCPU(中央処理装置)である。制御部10は、記憶部20に記憶されているOS(オペレーティングシステム)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
【0012】
制御部10は、書類画像受付部11と、明細領域検出処理部12(明細領域検出手段、明細領域補正手段)と、線画像検出部13(線画像検出手段)と、明細テキスト検出部14(明細テキスト検出手段)と、座標値取得部15(座標値取得手段)と、セル分割部16(セル分割手段)と、分割テキスト検出部17(分割テキスト検出手段)と、処理結果画像出力部18(対象セル取得手段)とを備える。
【0013】
書類画像受付部11は、例えば、会計システム等の他のシステム(図示せず)にデータ登録するための見積書や請求書等の明細を含む書類の画像データである書類画像データを、ユーザ端末5から受け付ける。書類画像データは、例えば、紙の書類を図示しないスキャナ等により画像化したものであり、PDF形式や、JPEG形式、IMG形式等の画像データである。また、書類に含まれる見積書や請求書等は、表形式の明細部分である明細領域を含む。さらに、明細領域は、罫線で全てのセルが分割されている必要はない。例えば、少なくとも一部分に罫線を有していないものであっても、ほぼ全面的に罫線を有していないものであってもよい。
【0014】
明細領域検出処理部12は、書類画像受付部11が受け付けた画像データから明細領域の検出を行う。明細領域検出処理部12は、例えば、ディープラーニングを用いた画像の物体検出手法等の周知技術により、画像データから明細領域の検出を行う。
また、明細領域検出処理部12は、検出した明細領域が縦方向及び横方向に平行になっていない場合には、補正処理を行って縦方向及び横方向に平行な明細領域を取得する。補正処理は、周知な技術を用いて行うことができる。
線画像検出部13は、明細領域検出処理部12が検出した明細領域に含まれる線画像を検出する。線画像検出部13は、例えば、Hough変換等の周知技術を用いて、明細領域に含まれる線画像を検出する。
【0015】
明細テキスト検出部14は、明細領域に含まれる文字のまとまりを矩形領域として検出する。明細テキスト検出部14は、明細領域全体に対して全面的にテキストを検出する、大まかなテキスト検出を行う。そのため、ここでのテキスト検出は、多少の誤検出や未検出を許容するものであってもよい。明細テキスト検出部14は、例えば、輪郭線抽出の手法等の周知技術を用いる。その際、輪郭線抽出の手法では、例えば、検出結果として一連の輪郭を囲う矩形を出力する。そのため、明細テキスト検出部14は、隣接する矩形の間隔が近い場合は、矩形を統合することで、文字を認識する。また、明細テキスト検出部14は、認識した文字の間隔が近い場合には、矩形をさらに結合して、一連の文字の並びである文字のまとまり(文字群)として認識し、認識した文字のまとまりを矩形領域とする。
【0016】
座標値取得部15は、明細テキスト検出部14が検出した矩形領域の座標値を取得する。
セル分割部16は、例えば、座標値取得部15が取得した座標値を特徴量としてクラスタリングをすることで、明細領域に対して縦方向及び横方向にセル分割する。ここで、座標値を用いたクラスタリングとして、例えば、矩形領域の左座標値を用いて縦線分割を行い、矩形領域の上座標値を用いて横線分割を行う。その際、セル分割部16は、縦線分割及び横線分割した際の各線を罫線として認識する。この認識は、処理の過程で行うものであり、罫線が引かれることはない。ここで、セル分割部16は、線画像検出部13が検出した線画像と、縦線分割及び横線分割した際に認識した各線とが近接している場合には、例えば、平均値で1つにまとめる等のマージをしてもよい。
なお、セル分割部16では、例えば、k-means(k-平均法)やx-means等のクラスタリングの手法を用いることができる。
【0017】
また、セル分割部16は、例えば、矩形領域における同一座標軸の座標値が複数ある場合には、他の矩形領域を横断しないように分割をする。より具体的には、例えば、横方向の分割をする場合に、明細領域を上から下方向に見ていき、矩形領域のY座標値がある程度揃っているときに、矩形領域を横断しないのであればその位置で分割をする。この手法を、以降において、「分割アルゴリズム」ともいう。分割アルゴリズムの手法を用いる場合であっても、セル分割部16は、線画像検出部13が検出した線画像と、分割位置とが近接している場合には、例えば、平均値で1つにまとめる等のマージをしてもよい。
セル分割部16は、クラスタリングを用いる手法と、分割アルゴリズムの手法とのいずれかを用いて、明細領域に対して縦方向及び横方向にセル分割をする。ここで、例えば、縦方向の分割にクラスタリングの手法を用い、横方向の分割に分割アルゴリズムの手法を用いるといった、方向に応じて手法を使い分けてもよい。また、いずれの方向も、クラスタリングの手法のみを用いてもよいし、分割アルゴリズムの手法のみを用いてもよい。
【0018】
分割テキスト検出部17は、セル分割部16が明細領域に対して縦方向及び横方向に分割したことで得られる各セルに対してセルごとにテキストを検出する。分割テキスト検出部17は、各セルに対してテキストを検出するものであるため、明細テキスト検出部14による処理より、より細かい範囲でのテキスト検出が可能になる。分割テキスト検出部17は、明細テキスト検出部14と同じ、例えば、輪郭線抽出の手法等の周知技術を用いて認識した文字のまとまりを矩形領域とする。
そして、分割テキスト検出部17は、検出結果により、セルに文字のまとまりであるテキストを含むか否かを確認する。
処理結果画像出力部18は、分割テキスト検出部17がセルにテキストを検出した場合に、テキストを検出したセルにテキストの画像を含んだ処理結果画像をユーザ端末5に対して出力する。
なお、これらの各機能の詳細については、後述する。
【0019】
記憶部20は、明細処理サーバ1の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
記憶部20は、プログラム記憶部21を備える。
プログラム記憶部21は、明細処理サーバ1で実行する各種のプログラムを記憶するための記憶領域である。プログラム記憶部21は、明細処理プログラム21a(プログラム)を記憶している。
明細処理プログラム21aは、例えば、制御部10に有する各種機能を実行するためのプログラムである。
なお、制御部10に有する各種機能を実行するためのプログラムは、上記したように1つの明細処理プログラム21aにより実現されるものに限定されない。例えば、制御部10の機能ごとに、又は、複数の機能ごとにプログラムを有してもよい。
【0020】
通信インタフェース部29は、通信ネットワークNを介してユーザ端末5との通信を行うためのインタフェースである。
ここで、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、明細処理サーバ1は、制御部10、記憶部20等を備えた情報処理装置であり、コンピュータの概念に含まれる。
また、明細処理サーバ1を構成するハードウェアの数に制限はない。必要に応じて、1又は複数で構成してもよい。また、明細処理サーバ1のハードウェアは、必要に応じてWebサーバ、DB(データベース)サーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。また、明細処理サーバ1は、例えば、クラウドであってもよい。
【0021】
<ユーザ端末5>
図1に示すユーザ端末5は、例えば、明細領域に記載された各種のデータをシステムに登録したいユーザが使用する端末である。ユーザ端末5は、例えば、パーソナルコンピュータ(PC)や、タブレット端末等で構成することができる。図示していないが、ユーザ端末5は、制御部、記憶部、表示部、入力部、通信インタフェース部等を備える。
【0022】
<OCR装置6>
OCR装置6は、画像データからテキストを認識するOCRに係る処理を行う装置である。OCR装置6は、例えば、ユーザ端末5から処理結果画像を受信することで、処理結果画像からテキストデータを得る処理を行い、ユーザ端末5にテキストデータを送信する。OCR装置6は、例えば、サーバ等で構成されている。OCR装置6は、その他、PC等で構成されていてもよい。図示していないが、OCR装置6は、制御部、記憶部、通信インタフェース部等を備える。
【0023】
通信ネットワークNは、明細処理サーバ1と、ユーザ端末5と、OCR装置6との間のネットワークであり、例えば、インターネット回線等の通信網である。通信ネットワークNは、LAN(Local Area Network)等であってもよい。また、通信ネットワークNは、有線であるか無線であるかを問わない。
【0024】
<処理の説明>
次に、明細処理サーバ1に処理について説明する。
図2は、本実施形態に係る明細処理サーバ1の書類画像処理を示すフローチャートである。
図3は、本実施形態に係るユーザ端末5から受け付けた書類画像の例及び明細処理サーバ1における処理を説明するための図である。
図4及び
図6は、本実施形態に係る明細処理サーバ1における処理を説明するための図である。
図5は、本実施形態に係る明細処理サーバ1のセル分割処理を示すフローチャートである。
【0025】
まず、ユーザ端末5が明細処理サーバ1に接続し、見積書や請求書等の明細を含む書類の画像データである書類画像データを送信することで、
図2のステップS(以下、「ステップS」を単に「S」という。)11において、明細処理サーバ1の制御部10(書類画像受付部11)は、書類画像データを受け付ける。
図3(A)は、見積書を画像化した書類画像30の例を示す。
書類画像30は、明細領域31を含む。明細領域31は、各明細の部分において横方向の罫線がなく、品名に関する部分には縦方向の罫線もない表である。
【0026】
図2のS12において、制御部10(明細領域検出処理部12)は、受け付けた書類画像データから明細領域の外枠を検出する。
図3(B)は、明細領域31の外枠32を検出した状態を示す。
図3(B)では、外枠32を太線で示している。
図2のS13において、制御部10(明細領域検出処理部12)は、必要に応じて補正処理を行う。制御部10は、例えば、外枠32が歪んでいる場合等、外枠32が縦方向及び横方向に平行になっていない場合に、縦方向及び横方向に平行になるように補正をする。
図3(B)の書類画像30の場合には、外枠32が縦方向及び横方向に平行になっているので、制御部10は、当該処理をスキップする。
【0027】
S14において、制御部10(線画像検出部13)は、明細領域に含まれる線画像を検出する。
図3(B)の書類画像30の場合には、明細領域31に含まれる複数の線画像33を検出する。
S15において、制御部10(明細テキスト検出部14)は、明細領域における矩形領域検出処理を行う。
図4に示す明細領域40には、検出した複数の矩形で囲われた矩形領域であるオブジェクト41を含む。テキスト検出処理では、1文字を1つのオブジェクト41として認識しているものもあれば、複数の文字のまとまり(文字群)を1つのオブジェクト41として認識しているものもあるが、概して文字間の間隔の度合いにより、1つのオブジェクト41として認識する範囲が定まる。
【0028】
図2のS16において、制御部10は、セル分割処理を行う。
ここで、セル分割処理について、
図5に基づき説明する。
図5のS21において、制御部10(座標値取得部15)は、検出した矩形領域の座標値を取得する。ここで、座標値は、矩形領域の上下左右のいずれの座標値を取得してもよいが、
図4の例では、上端及び左端の座標値を取得する。
S22において、制御部10(セル分割部16)は、取得した座標値を用いてクラスタリングをする。
【0029】
ここで、クラスタリング処理の一例を説明する。
図4では、k-meansを用いてクラスタリング(分類)する例を示す。k-meansは、事前にクラスタ数kがわかっているとき、データ群をk個のクラスタ(かたまり)に分割する手法である。
数式で表現すると、次のようになる。
【数1】
【0030】
上記の式で表されるk-meansのアルゴリズムは、以下の通りである。
(1)各データx
i(i=1,…,n)に対して(最初は)ランダムにクラスタj=1,…,k(この例だとk=3)を割り振る。
(2)割り振ったデータをもとに、各クラスタの中心V
j(j=1,…,k)を計算する。
【数2】
(3)各x
iと各V
jとの距離を求め、x
iに最も近い中心のクラスタに割り当て直す。
(4)上記(2)と(3)との処理を一定回数繰り返し、クラスタの変化がほぼなくなったら終了する。
【0031】
ここで、上記アルゴリズムを
図4の例(縦方向の分割)に当てはめる。
矩形領域の左座標値を特徴量(1次元データ)とすると、データは、「1,1,1,1,1,2,2,3,3,3,9,10,11,11,11,12,12,12,12,13,25,25,26,26,27,28,29,30,30,31」になり、
図4のグラフ50のように表される。
グラフ50は、部分グラフ51から53からなる。
このアルゴリズムの(2)の単純平均の計算と、(3)のクラスタの再割り当てとを、複数回繰り返すことで、クラスタ(かたまり)ごとに分けることができる。
なお、この例では、クラスタ数kを3としてクラスタリングをした。クラスタ数kが不明の場合には、x-meansを用いてクラスタリングをしてもよい。
【0032】
図5のS23において、制御部10(セル分割部16)は、クラスタリング結果及び必要に応じて検出した線画像を用いて、明細領域に対して縦方向に分割する。
S24において、制御部10(セル分割部16)は、分割アルゴリズムを用いて、明細領域に対して横方向に分割する。
S25において、制御部10(分割テキスト検出部17)は、明細領域に対して縦方向及び横方向に分割したことで得られる各セルに対してテキストを検出する。
図6(A)は、明細領域60を示し、分割した各セルに対してテキスト61を検出した例である。
その後、制御部10は、処理を
図2のS17に移す。
【0033】
図2のS17において、制御部10(処理結果画像出力部18)は、テキストを含む対象セルを取得し、テキストの画像を含んだ処理結果画像を生成する。
S18において、制御部10(処理結果画像出力部18)は、処理結果画像をユーザ端末5に出力する。
図6(B)は、ユーザ端末5に出力する処理結果画像70の例を示す。
その後、制御部10は、本処理を終了する。
【0034】
このように、明細処理サーバ1は、書類画像データから明細領域を検出し、明細領域に含まれる文字のまとまりを矩形領域として検出して、検出した矩形領域の座標値を用いてセルに分割して処理結果画像を生成する。
よって、明細領域に罫線がないようなもの等、OCRでテキストにできないものに対して、OCRでテキストに処理ができる形式の処理結果画像を生成できる。よって、明細処理サーバ1による処理によって、書類画像に含まれる明細についてデータ入力負担を軽減することができる。
【0035】
このように、本実施形態によれば、明細処理サーバ1は、以下のような効果がある。
(1)書類画像データの明細領域に含まれる文字のまとまりを矩形領域として検出し、検出した矩形領域の座標値を取得し、取得した座標値に基づいて明細領域をセルに分割する。
よって、矩形領域の座標値を用いて明細領域をセルに分割できる。例えば、明細領域に罫線を有していないようなものである場合であっても、セルごとに分割でき、セルごとにテキスト領域を抽出する処理を行うことができる。その結果、書類画像に含まれる明細についてデータ入力負担を軽減することができる。
【0036】
(2)座標値を用いたクラスタリングの結果を用いて明細領域に対して縦方向及び横方向の少なくとも一方の分割をする。
よって、セルの分割に、座標値を用いたクラスタリングの結果を用いることができる。
(3)矩形領域における同一座標軸の座標値が複数ある場合には、他の矩形領域を横断しないように分割をする。
よって、セルの分割に際し、矩形領域を分断しないようにできる。
【0037】
(4)書類画像データから明細領域の検出を行い、明細領域に含まれる線画像を検出し、検出した線画像を用いて明細領域をセルに分割する。
また、検出した明細領域に対して補正処理を行い、縦方向及び横方向に平行な明細領域を取得する。
よって、書類画像データを入力するだけで明細領域を検出できる。また、明細領域が歪んでいる場合には、補正処理によって歪みのない明細領域にでき、その後の処理を効率的に行うことができる。さらに、明細領域に含まれる線画像を用いて、明細領域をセルに分割できるため、明細領域に既にある線を、セルの分割に有効的に用いることができる。
【0038】
(5)分割した各セルに対してテキストを検出し、テキストを検出した場合に、セルを文字認識処理の対象にする。
よって、セルにテキストの画像を含んだ処理結果画像を生成でき、例えば、処理結果画像をOCR装置6に入力することで、OCR装置6から受信した明細領域のテキストは、各セルに対応したものになる。そのため、OCR装置6での処理結果を、図示しないデータ処理のためのシステムに入力することで、書類画像に含まれる明細について、データ入力負担を軽減できる。
【0039】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
【0040】
(変形形態)
(1)本実施形態では、見積書や請求書等の書類画像を例に説明したが、これに限定されない。定型書類はもちろんであるが、非定型書類であってもよく、いずれの書類であっても同様に行うことができる。
(2)本実施形態では、処理の説明において様々な周知の技術を用いて行うものを例に説明したが、上記に記載した周知技術は、一例であり、他の技術を用いて行ってもよい。
【0041】
(3)本実施形態では、クラスタリングの例として、縦方向の分割をするものを説明し、横方向の分割には、分割アルゴリズムを用いるものを説明したが、これに限定されない。例えば、横方向の分割に、クラスタリングを用いてもよい。
【0042】
(4)本実施形態では、ユーザ端末に処理結果画像を送信し、ユーザ端末からOCR装置に対して処理結果画像を送信してテキスト化を依頼するものを例に説明したが、これに限定されない。OCR装置に対して処理結果画像を送信する前に、前処理を追加してもよい。前処理としては、例えば、コントラスト調整や先鋭化等である。そうすることで、OCR装置での処理の精度がより向上できる可能性がある。
【0043】
(5)本実施形態では、明細処理サーバとユーザ端末とOCR装置とを備えるものを例に説明したが、これに限定されない。例えば、明細処理サーバとOCR装置とは、同一のサーバにより実現してもいし、ユーザ端末とOCR装置とが同一の装置により実現されてもよい。また、例えば、明細処理サーバの機能及びOCRの機能を有するクライアント端末のみのスタンドアロン構成のものであってもよい。
【符号の説明】
【0044】
1 明細処理サーバ
5 ユーザ端末
6 OCR装置
10 制御部
11 書類画像受付部
12 明細領域検出処理部
13 線画像検出部
14 明細テキスト検出部
15 座標値取得部
16 セル分割部
17 分割テキスト検出部
18 処理結果画像出力部
20 記憶部
21a 明細処理プログラム
30 書類画像
31,40,60 明細領域
41 オブジェクト
50 グラフ
70 処理結果画像
100 明細処理システム