(58)【調査した分野】(Int.Cl.,DB名)
分類して統合された種類毎に、新たな種類別特徴量を決定するために前記ステップ(f)で先に保存された種類別特徴量を用いる際には、前記種類別特徴量が前記ステップ(f)で先に保存された枚数分の帳票から抽出されたものとして処理されることを特徴とする請求項1に記載の帳票登録支援方法。
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、特許文献2に記載の従来技術によれば、帳票識別に利用する帳票辞書データベースのデータ容量を抑えることはできるが、データベースに登録する帳票を選択する処理を行うために大容量の記憶装置が必要になるという問題があった。
【0009】
帳票を識別分類して、各帳票に記載された情報を文字認識して管理する処理は、毎日のように繰り返して行われる。これに対して、リジェクトされた新たな帳票をデータベースに登録する処理は、週一回又は月一回程度の割合でしか行われない。帳票の種類を選択してデータベースへ登録する処理がなされるまでの一週間又は一ヶ月の所定期間は、処理された全ての帳票に関する帳票画像等のデータを記憶部に保存する必要がある。このため、大容量の記憶装置が必要になる。
【0010】
また、データベースへ登録する帳票を選択する際には、所定期間蓄積された大量のデータを対象として処理が行われる。大量の帳票画像から特徴量を抽出して分類する必要があるため、処理に係る負荷が高く時間がかかる。
【0011】
本発明は、上述した従来技術による問題点を解消するためになされたもので、帳票識別に利用する帳票辞書データベースに登録する帳票の種類を選択する処理を効率よく行うための帳票登録支援方法及び装置並びにプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上述した課題を解決し、目的を達成するために、本発明は、読取部によって取得した帳票を帳票の特徴量が登録された帳票辞書データベースに基づいて識別して分類する帳票分類システムに供する帳票登録支援方法であって、(a)未登録帳票の帳票画像を取得するステップと、(b)前記ステップ(a)で取得した帳票画像から特徴量を抽出するステップと、(c)前記ステップ(b)で抽出した新たな帳票の特徴量と、先に帳票の種類別に分類して保存されていた種類別特徴量とに基づいて、前記帳票の種類を分類して統合するステップと、(d)前記ステップ(c)で分類して統合された帳票の種類毎に、同じ種類に属する新たな帳票の前記特徴量と先に保存されていた前記種類別特徴量とに基づいて、新たな種類別特徴量を決定するステップと、(e)前記ステップ(c)で分類して統合された帳票の種類毎に、同じ種類に属する新たな帳票の前記帳票画像と先に保存されていた種類別代表画像との中から、前記ステップ(d)で決定した種類別特徴量に最も近い特徴量を示す画像を選択して新たな種類別代表画像を決定するステップと、(f)前記ステップ(c)で分類して統合された帳票の種類毎に、該種類に分類して統合された帳票枚数と、前記ステップ(d)で決定した前記種類別特徴量と、前記ステップ(e)で決定した前記種類別代表画像とを関連付けて保存するステップと、前記ステップ(a)〜(f)を繰り返して行った後の所定タイミングで、(g)前記ステップ(f)で保存された前記帳票の種類の中から前記帳票辞書データベースに登録する帳票の種類を選択するステップと、(h)前記ステップ(g)で選択した前記帳票の種類を前記帳票辞書データベースに登録するステップとを含んだことを特徴とする。
【0013】
また、本発明は、上記発明において、分類して統合された種類毎に、新たな種類別特徴量を決定するために前記ステップ(f)で先に保存された種類別特徴量を用いる際には、前記種類別特徴量が前記ステップ(f)で先に保存された枚数分の帳票から抽出されたものとして処理されることを特徴とする。
【0014】
また、本発明は、上記発明において、新たな帳票の特徴量及び前記種類別特徴量に基づいて帳票の種類を分類して統合する前記ステップ(c)では、(c1)新たな帳票の特徴量を示すクラス及び前記種類別特徴量を含む全てのクラスで、各クラス間の距離値を求めるステップと、(c2)前記ステップ(c1)で求めた各クラス間の距離値のうち、最小値を示す距離値が所定しきい値以下である場合には、最小距離値を示した2つのクラスを統合するステップとが、前記ステップ(c2)の前記最小距離値が前記所定しきい値を超えるまで繰り返して行われることを特徴とする。
【0015】
また、本発明は、上記発明において、前記ステップ(f)では、さらに、帳票の種類毎に、前記種類に属する帳票が処理された処理日に関する情報が保存され、前記帳票辞書データベースに登録する帳票の種類を選択する前記ステップ(g)では、所定の期間内に処理された帳票に関する前記帳票枚数を前記帳票の種類毎に比較して、登録する帳票の種類が選択されることを特徴とする。
【0016】
また、本発明は、上記発明において、前記帳票辞書データベースに登録する帳票の種類を選択する前記ステップ(g)は、(g1)表示装置上に、少なくとも所定の期間内に処理された帳票に関する前記帳票枚数を、前記帳票の種類毎に分けて表示するステップを含んだことを特徴とする。
【0017】
また、本発明は、帳票登録支援装置であって、未登録帳票の帳票画像を取得する画像取得部と、前記画像取得部によって取得した帳票画像から特徴量を抽出する特徴量抽出部と、同じ種類に属する帳票の特徴量を示す種類別特徴量と、同じ種類に属する帳票画像の中で前記種類別特徴量に最も近い特徴量を示す画像である種類別代表画像とが、帳票の種類別に分類して保存される記憶部と、前記特徴量抽出部によって抽出した新たな帳票の特徴量と、前記記憶部に先に保存されていた前記種類別特徴量とに基づいて、前記帳票の種類を分類して統合し、分類して統合した帳票の種類毎に、同じ種類に属する新たな帳票の前記特徴量と前記記憶部に先に保存されていた前記種類別特徴量とに基づいて、新たな種類別特徴量を決定すると共に、分類して統合した帳票の種類毎に、同じ種類に属する新たな帳票の帳票画像と前記記憶部に先に保存されていた前記種類別代表画像との中から、新たに決定した前記種類別特徴量に最も近い特徴量を示す画像を選択して、新たな種類別代表画像を決定する分類処理部と、分類して統合した前記帳票の種類毎に、該種類に分類して統合された帳票枚数と、新たに決定した前記種類別特徴量及び前記種類別代表画像とを関連付けて前記記憶部に保存するデータ管理部と、所定のタイミングで、前記記憶部に保存されている前記帳票の種類の中から、帳票の識別に利用する帳票辞書データベースに登録する帳票の種類を選択して前記帳票辞書データベースに登録する登録処理部とを備えることを特徴とする。
【0018】
また、本発明は、帳票登録支援プログラムであって、(a)未登録帳票の帳票画像を取得する処理と、(b)前記処理(a)で取得した帳票画像から特徴量を抽出する処理と、(c)前記処理(b)で抽出した新たな帳票の特徴量と、先に帳票の種類別に分類して保存されていた種類別特徴量とに基づいて、前記帳票の種類を分類して統合する処理と、(d)前記処理(c)で分類して統合された帳票の種類毎に、同じ種類に属する新たな帳票の前記特徴量と先に保存されていた前記種類別特徴量とに基づいて、新たな種類別特徴量を決定する処理と、(e)前記処理(c)で分類して統合された帳票の種類毎に、同じ種類に属する新たな帳票の前記帳票画像と先に保存されていた種類別代表画像との中から、前記処理(d)で決定した種類別特徴量に最も近い特徴量を示す画像を選択して新たな種類別代表画像を決定する処理と、(f)前記処理(c)で分類して統合された帳票の種類毎に、該種類に分類して統合された帳票枚数と、前記処理(d)で決定した前記種類別特徴量と、前記処理(e)で決定した前記種類別代表画像とを関連付けて保存する処理と、前記処理(a)〜(f)を繰り返して行った後の所定タイミングで、(g)前記処理(f)で保存された前記帳票の種類の中から、帳票の識別に利用する帳票辞書データベースに登録する帳票の種類を選択する処理と、(h)前記処理(g)で選択した前記帳票の種類を前記帳票辞書データベースに登録する処理とをコンピュータ装置に実行させることを特徴とする。
【発明の効果】
【0019】
本発明によれば、帳票辞書データベースに新たな帳票を登録するまでの所定期間の間、帳票を種類別に分類して、種類毎に求めた種類別特徴量及び種類別代表画像のみを保存して各帳票のデータは削除するようにしたので、全帳票の特徴量及び画像を保存する場合に比べて、データ保存に利用する記憶容量を削減することができる。また、帳票辞書データベースに登録する帳票を選択する処理についても、帳票の種類毎に保存された情報を利用して行うことができるので、処理に係る負荷を軽減して短時間で効率よく処理を行うことができる。
【0020】
また、本発明によれば、帳票の種類毎に特徴量を求める際に、先に種類別に分類して保存されていた種類別特徴量が、もととなった帳票枚数を考慮して処理されるので、処理された帳票の種類及び帳票枚数を保存済リジェクト帳票データに反映させて、最終的に帳票辞書データベースにも正しく反映させることができる。
【0021】
また、本発明によれば、例えば、各帳票の罫線特徴量のユークリッド距離に基づいて、この距離が最小値を示す帳票を検索して統合するルーチン処理を行うことによって、多数の帳票を容易に種類別に分類することができる。
【0022】
また、本発明によれば、所定期間内に処理された帳票の処理枚数に加えて、処理日に関する情報として、例えば帳票が処理された処理日に関する情報をもとに、帳票辞書データベースに登録する帳票を選択するので、特定の期間しか利用されない帳票や処理頻度が非常に少ない帳票等が帳票辞書データベースに登録されて、帳票辞書データベースへのデータ登録数が膨大になったり、帳票辞書データベースを利用した帳票識別処理の効率が低下するといった事態を回避することができる。
【0023】
また、本発明によれば、所定期間内に処理された帳票の処理枚数が、表示装置上に、帳票の種類毎に分けて表示されるので、この表示を確認しながら帳票辞書データベースに登録する帳票の種類を選択することができる。
【発明を実施するための形態】
【0025】
以下に添付図面を参照して、この発明に係る帳票登録支援方法及び装置並びにプログラムについて説明する。
【0026】
まず、本実施形態に係る帳票登録支援装置の処理対象を明らかにするため、帳票処理全体の流れについて、その概要を説明する。
図1は、帳票処理の概要を説明する模式図である。
図1では、帳票現物の動きを白い矢印で示し、データの動きを黒い矢印で示している。
【0027】
処理対象となる複数の帳票100が帳票分類装置2に投入されると、スキャナ等の読取部6によって、投入された帳票100の帳票画像が取得される。この帳票画像は識別部7によって帳票100の種類を識別するために利用される。識別部7による識別は、帳票辞書データベース4に登録済みのデータを利用して行われる。帳票辞書データベース4には、予め、帳票100の種類を識別するための特徴量が登録されている。
【0028】
識別部7による帳票100の識別結果は、分類部8によって帳票100を分類するために利用される。帳票辞書データベース4に既にデータが登録されている登録済帳票については、帳票現物110が、分類部8によって分類され、例えば、複数の集積部に種類別に集積される。また、読取部6によって取得された登録済帳票の帳票画像111は、帳票処理装置3へ送られる。そして、帳票処理装置3では、帳票画像111を対象とするOCR処理によって帳票の記載事項が読み取られ、読み取り結果に基づいて各種の帳票処理が行われる。
【0029】
一方、帳票辞書データベース4にデータが登録されていない未登録帳票は、識別部7によって識別することができないためリジェクトされる。リジェクトされた帳票については、例えば、帳票データ入力装置5を利用して、リジェクト帳票120の記載事項を目視確認しながら手入力する処理が行われる。手入力されたデータは、帳票処理装置3に送られて処理される。なお、帳票データ入力装置5で、読取部6で取得されたリジェクト帳票画像121を利用できる場合には、この画像を目視確認しながら記載事項を手入力する場合もある。
【0030】
本実施形態に係る帳票登録支援装置1は、帳票辞書データベース4にデータが未登録であったためにリジェクトされたリジェクト帳票120のデータを、帳票辞書データベース4へ登録する処理を支援するために利用される。具体的には、リジェクト帳票画像121を取得して、この中から、帳票辞書データベース4に登録する帳票120の種類を選択して登録する処理を支援するものである。
【0031】
なお、
図1に示した処理は一例であって、例えば、帳票辞書データベース4が図示しない別の管理装置で管理される場合もあるし、帳票処理装置3によって管理される場合もある。また、帳票分類装置2が、帳票処理装置3や帳票データ入力装置5の一部又は全ての機能を兼ねる場合もあるし、帳票処理装置3が帳票データ入力装置5の機能を兼ねる場合もある。
【0032】
また、帳票登録支援装置1が利用するリジェクト帳票画像121についても、帳票データ入力装置5から取得する場合もあるし、リジェクト帳票120をスキャンしてリジェクト帳票画像121を生成する専用装置から取得する場合もある。また、帳票登録支援装置1が、自らリジェクト帳票120をスキャンしてリジェクト帳票画像121を取得する場合もある。
【0033】
以下では、帳票登録支援装置1の構成、機能及び動作について説明する。
図2は、本実施形態に係る帳票登録支援装置1の構成概略を示す機能ブロック図である。帳票登録支援装置1は、後述する機能及び動作を実現するための制御部10と、制御部10の動作に必要な各種のデータを保存するための記憶部20と、制御部10による処理内容や処理結果に関する情報を表示するための表示部30と、表示部30に表示された情報に基づくデータ入力や処理内容に関する指示操作を行うための操作部31と、外部装置との間でデータを送受信するためのデータ通信部32とを備えている。
【0034】
また、制御部10は、記憶部20に保存するデータを管理するためのデータ管理部11と、帳票辞書データベース4に登録する帳票の種類を決定するためにリジェクト帳票画像121から各帳票の特徴量を抽出するための特徴量抽出部12と、特徴量抽出部12によって抽出された特徴量に基づいて帳票を分類するための分類処理部13と、帳票辞書データベース4に登録する帳票の種類を決定して登録するための登録処理部14とを有している。
【0035】
記憶部20には、保存済リジェクト帳票データ21と、新規分リジェクト帳票データ22と、帳票登録条件23とが保存されている。
図1に示すように帳票分類装置2で帳票100が処理された後、帳票分類装置2から帳票登録支援装置1へ新たに入力されたリジェクト帳票画像121及び該画像に関する情報が新規分リジェクト帳票データ22である。これに対して、先に記憶部20に保存されていたリジェクト帳票画像121に関する情報が保存済リジェクト帳票データ21である。また、帳票登録条件23には、保存済リジェクト帳票データ21の中から、帳票辞書データベース4に登録する帳票の種類を選択する条件に関する情報が保存されている。各データの詳細については後述する。
【0036】
帳票登録支援装置1は、例えば、コンピュータ装置によって構成される。そして、制御部10と、制御部10に含まれる各部11〜14とは、専用のコンピュータプログラムを実行することによって実現される。コンピュータプログラムは、例えば、ハードディスク等の不揮発性の記憶装置によって実現される記憶部20や専用の記憶装置に保存される。なお、表示部30は液晶ディスプレイ等の表示装置、操作部31はマウスやキーボード等の入力装置、データ通信部32はLAN等のネットワークを利用してデータを送受信する通信インターフェイスによって実現される。
【0037】
次に、帳票登録支援装置1による処理内容を説明する。
図3は、帳票辞書データベース4へ登録する帳票の種類を選択する処理を示すフローチャートである。
図3に示す処理は、例えば、リジェクト帳票120に係る情報を所定期間蓄積した後や、リジェクト帳票120の枚数が所定枚数に達した場合又はリジェクト帳票画像121のデータ容量が所定容量に達した場合等の所定のタイミングで開始される。
【0038】
ここでは、1日の帳票処理が完了して、その日新たに得られた全てのリジェクト帳票画像121がデータ通信部32によって取得され、データ管理部11によって新規分リジェクト帳票データ22として記憶部20に保存された後に、以下の処理が開始されるものとして説明する。
【0039】
まず、特徴量抽出部12によって、記憶部20に保存された各リジェクト帳票画像121から、各帳票の特徴量を抽出する処理が行われる(ステップS1)。ここで抽出される特徴量は、例えば、罫線特徴量である。
【0040】
リジェクト帳票120には、罫線で囲まれた各欄内に金額、氏名、住所等の様々な文字が記入されているが、これらは帳票を利用した利用者によって変動する情報であるため、帳票の種類を識別するために利用することはできない。このため、帳票を識別するための特徴量として、帳票内で各欄を形成する罫線に関する特徴量が利用される。罫線特徴量は、例えば、帳票画像内で罫線を構成する黒画素の所定領域内での密度、長さ、方向等に基づいて算出される。ここで利用する罫線特徴量は、例えば、特開2001−283152号公報に記載のものと同様であるため詳細な説明は省略する。
【0041】
新規分リジェクト帳票データ22として新たに保存された、1日分全てのリジェクト帳票画像121から特徴量が抽出されると、次に、分類処理部13によって、抽出された特徴量に基づいて、リジェクト帳票画像121を種類別に分類する処理が行われる(ステップS2)。
【0042】
ここで、特徴量に基づいて帳票を分類する処理について説明する。
図4は、6つのリジェクト帳票画像121を、各画像の特徴量に基づいて分類する処理の例を示す模式図である。
図4では、前日に2つのリジェクト帳票画像121の特徴量(図中の数字1及び2)が処理された後、当日新たに得られた4つのリジェクト帳票画像121の特徴量(図中の数字3〜6)を処理するものとして説明する。
【0043】
また、
図4では、帳票の特徴量が二次元で表されており、距離が近いものほど特徴量が近似していることを示す。具体的には、この距離が、特徴量間のユークリッド距離を示している。
【0044】
まず、
図4(a)に示すように、前日に、2つの帳票の特徴量(図中の数字1及び2)間の距離値が予め設定されたしきい値以下であることから、分類処理部13によって、これらが1つのクラスXに統合されていたものとする。すなわち、分類処理部13は、これら2つの特徴量を示す帳票が同じ種類の帳票であると判定したものとする。
【0045】
なお、統合する際には、統合しようとする2つの特徴量に関する各リジェクト帳票画像121を表示部30に表示して、帳票登録支援装置1の利用者に、統合の可否を判断させるようにしてもよい。また、距離値と比較するしきい値は、帳票登録条件23に含まれるデータの1つとして記憶部20に保存されている。
【0046】
次に、分類処理部13によって、前日得られたクラスXと、当日新たに得られた各リジェクト帳票画像121の特徴量(
図4中の数字3〜6)を独立した各クラス3〜6として、これらを分類して統合する処理が開始される。まず、クラスX及びクラス3〜6の各クラス間の距離値が総当たりで確認される。その結果、クラス3とクラス4の間の距離値が最小値を示し、かつ、この最小値が予め設定された所定しきい値以下である場合には、
図4(b)に示すように、これらがクラスYに統合される。このとき、クラス3とクラス4とが統合されたクラスYの位置は、これら2つのクラスの中間位置となる。
【0047】
次に、クラスX、クラスY、クラス5及びクラス6の各クラス間の距離値が確認される。その結果、
図4(c)に実線矢印で示したようにクラスXとクラス5の間の距離値が最小値を示し、かつ、この最小値が所定しきい値以下である場合には、クラス5とクラスXとが統合される。このとき、
図4(d)に示すように、統合された後のクラスを、前日のクラスXと区別するために、クラスX’とする。クラスX’の位置は、前日に得られたクラスXが
図4(a)に示すように2つのクラスから得られたものであるため、クラス5よりもクラスXに近い位置となる。
【0048】
次に、クラスX、クラスY及びクラス6の各クラス間の距離値から、
図4(d)に実線矢印で示したようにクラスYとクラス6の間の距離値が最小値を示したものとする。しかし、例えばここで、次に統合処理の対象となる2つのクラス(クラスYとクラス6)間の距離値が所定しきい値を越えている場合には、クラスの統合は行われずに処理を完了することになる。すなわち、クラス6はクラスYと統合されず、クラスZに分類される。
【0049】
このように、新たに得られたリジェクト帳票画像121の特徴量を独立したクラスとして、これらのクラスと前日までに得られたクラスとを区別することなく、距離値が最小値を示すクラスを統合する処理を繰り返し行って、最小となる距離値が予め設定された所定しきい値を越える状況となったところで処理を終了する。
【0050】
例えば、
図4の例では、最終的には同図(e)に示すように、前日得られたクラス及び当日分のクラスが、3つのクラスに分類して統合されている。統合されたクラスは、各クラス内に含まれる特徴量を示した帳票が同じ種類の帳票であることを示している。すなわち、
図4の例では、前日の2枚のリジェクト帳票120及び当日の4枚のリジェクト帳票120から得られた6つのリジェクト帳票画像121が、クラスX、クラスY及びクラスZの3種類に分類されたことを示している。
【0051】
このように、本実施形態に係る帳票登録支援装置1では、帳票を種類別に分類する際に、当日分として新たに得られたリジェクト帳票画像121だけではなく、前日までに分類処理されたリジェクト帳票画像121に関する情報を利用する点を1つの特徴としている。これについて、さらに、
図5を参照しながら詳細を説明する。
図5は、
図3に示すステップS1及びS2に関する処理内容を説明する模式図である。
【0052】
例えば、
図5に示すように、前日にリジェクト帳票画像121がA〜Dの4つのクラスに分類されていた場合には、各クラスに関する情報(クラス別情報)が、
図2に示すように保存済リジェクト帳票データ21として記憶部20に保存されている。具体的には、保存済リジェクト帳票データ21として、各クラスの平均特徴量、代表画像及び帳票枚数等が保存されている。ここで、各クラスの平均特徴量とは、各クラスに分類された全てのリジェクト帳票画像121の特徴量の平均値であり、代表画像とは各クラスに分類されたリジェクト帳票画像121のうち各クラスの平均特徴量に最も近い特徴量を示す画像である。また、帳票枚数とは、各クラスに分類されたリジェクト帳票画像121の数、すなわちリジェクト帳票120の枚数を示している。なお、保存済リジェクト帳票データ21には、これらの他に、各クラスのリジェクト帳票120が処理された日付情報等も保存される。
【0053】
図5に示すように、前日までに得られた各クラスA〜Dの平均特徴量が、二次元平面130にプロットされる(S2)。また、当日の帳票処理で新たに得られた新規分のリジェクト帳票画像121については、各画像から特徴量が抽出された後(S1)、二次元平面130にプロットされる(S2)。そして、前日分までリジェクト帳票画像121から得られた各クラスの情報と、当日得られた新規分のリジェクト帳票画像121の情報とを利用して、
図4で説明したように、必要があれば統合する処理が行われる。
【0054】
例えば、
図5右側の平面130上に示したように、前日のクラスAの平均特徴量131と新規分のリジェクト帳票画像121から得られた当日分の特徴量(図中ひし形)とが、破線で囲まれた新たなクラスA’(141)に統合される。また、前日のクラスBの平均特徴量132と当日分の特徴量(図中実線円形)とが、新たなクラスB’(142)に統合される。また、前日のクラスCの平均特徴量133と当日分の特徴量(図中三角形)とが、新たなクラスC’(143)に統合される。また、前日のクラスDの特徴量134については、これと統合される新たな特徴量が存在しないために前日のクラスDがそのまま維持される。そして、前日には無かった新たな特徴量(図中正方形)が、新たなクラスE(145)に分類される。すなわち、前日までに得られたクラスA〜Dが、当日分の特徴量を反映した新たなクラスA’〜C’、D及びEに分類して統合される。
【0055】
こうして、前日までに得られたデータと当日得られたデータとを利用して、帳票を分類して統合する処理が完了すると(
図3ステップS2)、次に、分類処理部13によって各クラスの平均特徴量(種類別特徴量)が決定される(ステップS3)。また、各クラスの代表画像(種類別代表画像)が決定される(ステップS4)。これらの処理について、
図6を参照しながら説明する。
図6は、
図3に示すステップS3及びS4に関する処理内容を説明する模式図である。
【0056】
例えば、
図6(a)に示すように、新たなクラスA’(141)では、前日のクラスAの平均特徴量131と、当日得られた新規分の全リジェクト帳票画像121の特徴量とを含めた平均値を求めて、これを新たなクラスA’(141)の平均特徴量151とする(
図3ステップS3)。同様に、新たなクラスB’(142)では、前日のクラスBの平均特徴量132及び当日分の全特徴量の平均値を求めて、これを新たなクラスB’(142)の平均特徴量152とする。また、新たなクラスC’(143)でも、前日のクラスCの平均特徴量133及び当日分の全特徴量から平均値を求めて、これを新たなクラスC’(143)の特徴量153とする。クラスD(134)については、新たに統合された特徴量が存在しないため、前日の特徴量がそのまま利用される。そして、新たに得られたクラスE(145)では、当日分の特徴量のみから平均値を求めて、これをクラスE(145)の特徴量155とする。こうして、各クラスの平均特徴量が決定される。
【0057】
図6(a)では、平均特徴量を示す図形の大きさが、この平均特徴量に関する帳票枚数を反映している。例えば、新たなクラスB’(142)では、前日迄のクラスBの平均特徴量132に、複数枚の新規分の帳票画像121の特徴量を加えて算出されるため、クラスB’の平均特徴量152を示す図形(実線円形)が、前日のクラスBの平均特徴量132を示す図形(破線円形)より大きく示されている。
【0058】
各クラスの平均特徴量の算出を行う際、前日までに得られた平均特徴量については、前日までにそのクラスに分類された帳票枚数が反映される。具体的には、例えば、前日までにクラスBに分類された帳票の枚数が7枚であった場合には、
図6(a)に示す前日までのクラスBの平均特徴量132は7枚分の特徴量として、新たなクラスの平均特徴量の算出に用いられる。このように、先に種類別に分類して保存されていた平均特徴量が、この平均特徴量のもととなる特徴量を示した帳票の枚数を考慮して処理されるので、各クラスのデータを過去に処理された帳票の種類及び帳票枚数を反映したデータとすることができる。
【0059】
なお、平均特徴量は、代表画像を決定する前にそのクラスの平均特徴量を決定することができれば、クラスを決定した後に算出される態様に限定されるものではない。例えば、
図4で説明したようにクラスの分類統合処理を行う際に、2つのクラスを統合する度に統合された新たなクラスの特徴量を算出し、分類統合及び平均特徴量算出を繰り返して最終的に各クラスの特徴量を決定する態様であっても構わない。
【0060】
各クラスの平均特徴量が決定されると、次に、各クラスの代表画像が選択される。具体的には、
図6(b)に示すように、新たに分類統合されたクラスA’では、このクラスの平均特徴量151との距離が最も近い特徴量161を示す画像を代表画像とする(
図3ステップS4)。また、クラスB’では、このクラスの平均特徴量152との距離が最も近い特徴量162を示す画像を代表画像とする。また、クラスC’では、このクラスの平均特徴量153との距離が最も近い特徴量163を示す画像を代表画像とする。また、クラスEでは、このクラスの平均特徴量155との距離が最も近い特徴量165を示す画像を代表画像とする。そして、クラスDについては、このクラスの平均特徴量164を示す前日の代表画像がそのまま維持される。こうして、各クラスの代表画像が決定される。
【0061】
各クラスA’〜C’、D及びEの平均特徴量及び代表画像が決定されると、この結果を受けたデータ管理部11によって、記憶部20に保存されている保存済リジェクト帳票データ21の更新が行われる(
図3ステップS5)。具体的には、クラスA〜Cのデータが、新たに決定されたクラスA’〜C’の平均特徴量及び代表画像によって更新され、新たに得られたクラスEに関する平均特徴量及び代表画像が追加される。また、クラスDについては、前日に保存されたデータから変更がないため、前日のデータがそのまま維持される。なお、保存済リジェクト帳票データ21として、各クラスの平均特徴量及び代表画像に加えて、各クラスに統合された帳票枚数と処理日に関する情報が保存される。
【0062】
こうして、新たなクラスと各クラスの平均特徴量及び代表画像とによって前日のデータが更新されると、記憶部20に保存された新規分リジェクト帳票データ22は不要になる。このため、データ管理部11によって削除される。
【0063】
このように、本実施形態に係る帳票登録支援装置1では、毎日、当日分の全てのリジェクト帳票画像121から得られた情報を反映しながら、新たに得られた各クラスの平均特徴量、代表画像及び帳票枚数等のデータのみを保存して、その他のデータを破棄することができる。例えば、1日の帳票処理で同じ種類の帳票が数百枚リジェクトされた場合でも、これを1つのクラスにまとめて、このクラスの平均特徴量及び代表画像のみを保存する。多数のリジェクト帳票120から得られた特徴量及び画像を、クラス毎に帳票1枚分のデータ容量に相当する平均特徴量及び代表画像にまとめることができるので、全てのデータを保存する場合に比べてデータ保存に必要な記憶部20の容量を抑制することができる。
【0064】
リジェクト帳票に関するデータを更新する処理(
図3ステップS1〜S5)は、帳票辞書データベース4の更新タイミングとなるまでの間(ステップS6;No)、繰り返し行われる。例えば、所定期間経過するまでの間や、リジェクト帳票120を分類したクラスの数が所定数に達する迄の間又は記憶部20に保存された全クラスに関するデータ容量が所定容量に達するまでの間、これらの処理が繰り返される。以下では、リジェクト帳票120に関するデータを帳票辞書データベース4に登録する処理が、例として、月一回行われるものとして説明する。
【0065】
帳票辞書データベース4の更新タイミングになると(ステップS6;Yes)、登録処理部14によって、帳票辞書データベース4に追加する帳票のデータを選択する処理が行われる(ステップS7)。具体的には、1ヶ月の間、保存済リジェクト帳票データ21として記憶部20に蓄積されたクラスの中から、帳票辞書データベース4に登録するクラスが選択される。
【0066】
蓄積された各クラスのデータ内容に基づいて、帳票辞書データベース4に登録するクラスを選択する処理について説明する。まず、帳票登録支援装置1の利用者が、操作部31を操作してクラスを選択する処理を開始すると、表示部30に、保存済リジェクト帳票データ21の内容が表示される。
【0067】
図7は、表示部30に表示される各クラスのデータの例を示す図である。このように、1ヶ月の間に処理されたリジェクト帳票120を種類別に分類した各クラスと、各クラスが作成された日付である作成日と、各クラスのデータが最後に更新された日付である最終更新日と、各クラスに属する帳票のデータ数と、出願日数とが表示される。なお、表内のクラス名を選択すると、そのクラスの代表画像が表示部30に表示されるようになっている。また、表内で、クラス、作成日、最終更新日、データ数、割合及び出現日数の中から項目を選択してその項目のデータが昇順又は降順となるようにクラスデータを並べ替えたり、作成日及び最終更新日の欄で直近に更新された日付をハイライト表示して他の日付と区別可能に表示したり、データ数、割合及び出現日数の欄で最も大きな数値を示すデータをハイライト表示させたりすることも可能である。
【0068】
保存済リジェクト帳票データ21で、各クラスのデータを保存する期間は、任意の期間に設定することができる。具体的には、帳票辞書データベース4に新たに登録された帳票に関するデータは、保存済リジェクト帳票データ21から削除されるのに対して、選択されなかった帳票に関するデータは維持されるが、この維持期間を設定できるようになっている。例えば、帳票辞書データベース4への登録処理が月一回行われるのに対して、登録されなかった場合でも1年間はそのデータを維持するように設定される。このため、保存済リジェクト帳票データ21には、例えば
図7に示したクラスRのように、他のクラスの作成日から1ヶ月以上前に作成されたクラスも維持されている。なお、保存済リジェクト帳票データ21に維持されるデータは、予め設定された期間の経過後に自動的に削除されるが、維持する必要がないと判断した場合には、手動で削除することもできる。
【0069】
ここで、
図7に示すデータ数とは、1ヶ月の間に処理されたリジェクト帳票120のクラス別枚数のことを示している。また、データ数の欄内に割合として括弧で示された数字は、全クラスのリジェクト帳票120の合計枚数に対する各クラスのリジェクト帳票120枚数の割合を示している。また、出現日数とは、作成日から最終更新日迄の間に、各クラスに属するリジェクト帳票120が実際に処理された実日数である。例えば、
図7の例では、クラスAに属するリジェクト帳票120は2月20日に始めて登場して2月22日に更新されているが、この3日間のうちクラスAに属するリジェクト帳票120が処理された実日数は2日間であることを示している。
【0070】
利用者は、表示部30に表示された
図7の情報を確認しながら、帳票辞書データベース4に新たに登録するクラス、すなわち帳票の種類を選択する。例えば、もし帳票辞書データベース4に登録されていれば1ヶ月の間にリジェクトされた帳票の38%がリジェクトされることなく処理されていたことを考慮して、クラスP及びQを選択する。また、例えば、処理枚数は少ないものの1ヶ月のうちにリジェクト帳票120の手入力処理を行う日数が減ることを考慮して、出現日数が多いクラスSを選択する。また、例えば、処理枚数は多いものの1ヶ月のうちに1日しか処理されていないことを考慮して、クラスRを選択しないといった判断を行うことができる。
【0071】
クラスの選択は、手動で行う態様に限らず自動で行うこともできる。処理を自動で行う場合には、記憶部20に保存された帳票登録条件23が利用される。帳票登録条件23は、表示部30及び操作部31を利用して設定される。
【0072】
図8は、帳票登録条件23を設定する際に表示部30に表示される設定画面の例を示す図である。例えば、設定画面には、上から、帳票辞書データベース4にデータを追加登録する周期と、設定可能な登録条件と、設定作業時に記憶部20に保存されている保存済リジェクト帳票データ21の内容を示す表とが表示される。
【0073】
設定画面では、利用者が設定変更できる部分に下線が付されている。
図8では、毎月第1月曜日にデータ登録を行うよう設定された例を示しているが、下線が付された部分を変更して、例えば、毎月1日にデータ登録を行うように設定したり、毎週金曜日にデータ登録を行うように設定することもできる。
【0074】
また、登録条件についても、データ数の上位何位までを登録するのか、データ数が何枚以上である場合に登録するのか、全てのリジェクト帳票枚数に対する割合が何%以上である場合に登録するのか、データ登録周期として設定された期間内(
図8では1ヶ月)の出現日数が何日以上又は何%以上の場合に登録するのかについて、各数値を設定することができる。
【0075】
各登録条件の左側には、チェックボックスが設けられており、このチェックボックスによって各登録条件を有効にするか否かを選択することができる。
図8では、データ数割合及び出現日数の登録条件が有効になっている。
【0076】
このように各登録条件の数値条件を変更できることに加えて、有効にする登録条件の組み合わせを選択可能とすることで、様々な設定を行うことができる。例えば、
図8に示すように、データ数の割合が10%以上の場合に登録するという条件と、出現日数が4日以上という条件とを有効にすることで、登録条件下方に示した表内のクラスP〜Sのうち処理枚数が多いものの処理頻度(出現日数)が少ないクラスP及びRを登録しないように設定することもできる。
【0077】
登録条件を設定する際には、表示部30上で、登録条件に対応するクラスが他のクラスと区別可能に表示されるようになっている。
図8の例では、データ数が10%以上という条件が有効にされた時点で、この条件を満たすクラスP〜Rの欄が表示部30上で反転表示される。続いて、出現日数が4日以上の場合に登録する条件が設定されると、これら2つの条件設定を満たすクラスQが点滅表示される。これにより、利用者は、登録条件が反映された場合に帳票辞書データベース4に登録されるクラスを確認しながら、登録条件の有効無効を変更したり数値設定を変更することができる。
【0078】
記憶部20に保存された保存済リジェクト帳票データ21を利用して、
図7に示すように表示部30に表示された情報を確認しながら、手動で、帳票辞書データベース4に登録するクラスが選択されると、登録処理部14によって、選択されたクラスのデータを帳票辞書データベース4に登録する処理が行われる(
図3ステップS8)。また、予め、
図8に示すように登録条件が選択され、クラスを選択する処理が自動的に行われるように設定されている場合には、登録処理部14が、登録条件に基づいて帳票辞書データベース4に登録するクラスを自動的に選択して登録する(ステップS8)。
【0079】
具体的には、登録処理部14が、手動又は自動で選択された各クラスの代表画像から、罫線特徴量等、帳票を識別するための情報を抽出して、帳票辞書データベース4へ登録する。帳票辞書データベース4への登録処理が完了すると、新たに登録された帳票に関するデータは、記憶部20に保存された保存済リジェクト帳票データ21から削除される(ステップS9)。このとき、帳票辞書データベース4へ登録されなかった帳票のクラスに関するデータは、予め設定された期間は保存済リジェクト帳票データ21として記憶部20に維持される。
【0080】
上述したように、本実施形態によれば、リジェクト帳票画像121を種類毎に各クラスに分類して、各クラスの平均特徴量、代表画像及び枚数情報等のデータのみを記憶部20に保存するので、全てのリジェクト帳票画像121を保存する場合に比べて、利用する記憶部20の容量を抑制することができる。リジェクト帳票120に関するデータの保存は、帳票辞書データベース4の登録処理が行われるまでの所定期間続けて行われるので、記憶部容量増大の抑制効果は非常に大きなものとなる。
【0081】
また、特徴量について、各クラスで帳票1枚分のデータ容量に相当する平均特徴量及び代表画像のデータのみを保存しながら、この平均特徴量のもととなった帳票の枚数情報を保存しているので、過去に処理された全ての帳票に係る情報を各クラスの平均特徴量に反映させながら、日々新たに発生する帳票に基づいてデータを更新することができる。
【0082】
また、帳票辞書データベース4に追加する帳票を選択する際には、各クラスの中から追加するクラスを選択するだけでよいので、従来のように全てのリジェクト帳票画像121を保存して全画像を対象に一度に処理を行う場合に比べて、処理に係る負荷が軽減され、短時間で効率よく処理を行うことができる。
【0083】
また、帳票辞書データベース4に登録する帳票を選択する登録条件を設定変更することができるので、利用者のニーズに柔軟に対応した登録条件とすることができる。