(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態について説明する。
図1は、一実施形態に係る情報処理装置1について説明するためのブロック図である。
図2は、会計証憑の一例について説明するための図である。
【0014】
図1に示す情報処理装置1は、会計証憑についてデータ化し、テンプレートとして出力する装置である。テンプレートは、例えば、会計証憑の記載スタイルに応じてデータ化された、同様の会計証憑を効率的に文字認識するための設定データである。会計証憑の一例は、
図2に示すような請求書等である。
図2に示す会計証憑(請求書)は、先頭付近に「請求書」と記載され、会計証憑の内容を示すようになっている。また、請求書には表が記載され、その表に項目名、数量及び金額等が記載されている。文字認識されてラベルごとに構造化された会計証憑データは、例えば、ユーザによって文字等の編集を行うことも可能である。なお、情報処理装置1は、会計証憑に限らず、種々の書類についてデータ化及びテンプレート化を行うこととしてもよい。
【0015】
情報処理装置1は、会計証憑に関する画像データに基づいて文字認識を行う。情報処理装置1は、会計証憑に表が含まれている場合には、表の行又は列に記載される文字を関連付けて文字認識を行う。情報処理装置1が行う文字認識の一例は、OCR(Optical Character Recognition)である。これにより、情報処理装置1は、構造化された会計証憑に加えて、構造化されていない会計証憑に対しても自動的に文字認識のテンプレートの設定をすることができる。
【0016】
以下、情報処理装置1について詳細に説明する。
情報処理装置1は、入力部22、通信部23、記憶部24、出力部(表示部25)、受付部11、第1取得部12、第1特定部15、割当部19、関連付け部20、及び、出力制御部21を備える。第1取得部12は、第2特定部13及び置換部14を備える。第1特定部15は、第2取得部16、作成部17及び第3特定部18を備える。受付部11、第1取得部12(第2特定部13及び置換部14)、第1特定部15(第2取得部16、作成部17及び第3特定部18)、割当部19、関連付け部20、及び、出力制御部21は、情報処理装置1の制御部10(演算処理装置)の一機能として実現されてもよい。
【0017】
入力部22は、例えば、スキャナ等の画像読取装置であってもよい。入力部22は、用紙に記録された会計証憑を読み取り、会計証憑に関する画像データを生成する。
【0018】
通信部23は、例えば、情報処理装置1の外部からデータを受信することが可能な装置である。通信部23は、例えば、情報処理装置1の外部にある外部サーバ及び外部端末(パーソナルコンピュータ及びタブレット)等からデータを受信する。データは、例えば、会計証憑に関する画像データ等であってよい。
【0019】
記憶部24は、例えば、種々のデータ及びプログラムを記憶することが可能な装置である。記憶部24は、入力部22によって会計証憑が読み取られて、その会計証憑に関する画像データが生成された場合、画像データを記憶する。また、記憶部24は、通信部23によって情報処理装置1の外部から会計証憑に関する画像データが受信された場合、その画像データを記憶する。
【0020】
受付部11は、会計証憑に関する画像データ(第1画像データ)を受け付ける。受付部11は、例えば、記憶部24に記憶された会計証憑に関する画像データを読み出して、情報処理装置1への入力を受け付ける。また、受付部11は、通信部23によって会計証憑に関する画像データが受信された場合には、その画像データを受け付けることとしてもよい。
【0021】
第1取得部12は、画像データ(第1画像データ)に記録される文字を認識して文字データとして取得する。文字認識の一例は、OCR等である。
まず、ユーザに指定された場合、第1取得部12は、画像データについて文字認識を行う前に、会計証憑に手書きの書き込みが有れば、その書き込みを削除する。すなわち、会計証憑は印刷されている場合が相対的に多いため、印刷された文字(数字及び記号等を含む)のみを認識できるように、第1取得部12は、印刷された文字を除く他の文字(手書きの文字)を削除する。具体的には、第1取得部12は、以下のような処理を行う。
【0022】
第1取得部12の一機能としての第2特定部13は、受付部11によって受け付けた画像データに対応する会計証憑において文字が印刷された印刷領域と、文字が書き込まれた書込領域とを推定して、書込領域を特定する。第2特定部13は、例えば、ニューラルネットワークを利用して、印刷領域及び書込領域を推定する。具体的には、第2特定部13は、会計証憑への書き込みを予め学習して学習モデルを生成し、その学習モデル及び画像データに基づいて、会計証憑の印刷領域及び書込領域を推定する。
【0023】
第2特定部13は、書込領域を推定できた場合、その書込領域の特徴量を算出する。特徴量としては、例えば、AKAZE特徴量であってよい。第2特定部13は、AKAZE特徴量等のバイナリ型局所特徴量を利用することにより、処理速度を相対的に速くすることができる。しかし、書き込みの特徴を抽出することができれば、上述したAKAZE特徴量を利用するばかりでなく、他の特徴量(一例として、KAZE特徴量)を利用することとしてもよい。
【0024】
第2特定部13は、算出した特徴量と、予め算出した書き込み画像の特徴量(モデル)との類似度を算出する。予め算出される特徴量(モデル)は、書き込み画像を判定するための基準となる特徴量である。第2特定部13は、その類似度が閾値以上であれば、書込領域に記載される内容は書き込みである(印刷ではない)と特定(判定)する。
【0025】
なお、第2特定部13は、上述した類似度に基づく特定(判定)の代わりに、例えば、ニューラルネットワーク及びサポートベクターマシーン等の機械学習(又は、深層学習)を利用して書き込みを特定(判定)することとしてもよい。この場合、第2特定部13は、例えば、Exemplar−SVM等を利用することにより、書き込みの特定(判定)の精度を高くすることができる。
【0026】
ここで、第2特定部13は、上述した処理を行うために、会計証憑に記載されるチェックマーク及びメモ書きなど書き込み画像の特徴量をモデルデータとして予め記憶する必要がある。このため、第2特定部13は、画像編集ソフトを利用してより多くのチェックマーク部分を切り出し、より多くの特徴量を算出して記憶することで、書き込みを特定するための精度及び再現率を相対的に高めることができる。第2特定部13は、特徴量データセットが十分で有れば、書き込みの特定に用いる類似度の許容値を相対的に高く設定することができ、偽陽判定及び偽陰判定を抑えることができる。
【0027】
第1取得部12の一機能としての置換部14は、第2特定部13によって特定された書込領域に記載される文字を、文字が記載されていない背景(背景色)の色に置き換える。すなわち、置換部14は、書き込み(書込領域)と特定された画素を背景色で置き換える。置換部14は、印刷領域及び書込領域と推定されなかった他の領域の最頻値を背景色とみなすこととしてもよい。
【0028】
図3は、手書き内容を含む会計証憑の一例について説明するための図である。
図3に例示する場合、チェックマークが手書きで書きこまれているとする。
第2特定部13は、「請求書」、「A株式会社」、「B株式会社」及び表を印刷領域Aとして推定し、チェックマークを書込領域Bとして推定する。置換部14は、書込領域Bの文字(チェックマーク)を背景色で置き換える。
【0029】
次に、第1取得部12は、書き込みが削除された画像データ(第2画像データ)に基づいて、画像を認識する。この場合、第1取得部12は、画像認識として文字及び表を認識する。
例えば、まず、第1取得部12は、画像データ(第2画像データ)全体を認識対象として、文字を認識し、認識された文字の領域を特定する座標情報を取得する。座標情報は、例えば、会計証憑内での位置を示す座標の情報であってよい。次に、第1取得部12は、画像データ(第2画像データ)において、明度の低い画素が連続する場合、それらの複数の画素を構成要素とする直線を罫線として検出し、複数の画素についてクラスタ化を行う。次に、第1取得部12は、クラスタ化が行われた複数の画素に基づいて、表の行及び列に分類する。一例として、第1取得部12は、クラスタ化が行われた複数の画素が横方向及び縦方向に複数ある場合、それらを表の行及び列として分類する。次に、第1取得部12は、行及び列に関するデータに文字の領域を特定する座標情報を適用し、この座標情報を用いて行及び列をさらに細かく分類し、表のヘッダ名を認識する。すなわち、第1取得部12は、表の行又は列の先頭行(または先頭数行)に存在する文字をヘッダ名として認識する。
【0030】
第1特定部15は、上述したように認識された表の外にある文字及び表の中にあるヘッダ名に基づいて、目的区分を特定する。すなわち、第1特定部15は、第1取得部12によって取得された文字データ、又は、受付部11によって受け付けた画像データに基づいて、目的区分を特定する。目的区分は、会計証憑の目的となる名称である。例えば、第1特定部15は、認識された文字に特定のキーワード(例えば、「請求書」、「Invoice」、「受注書」及び「Purchase Order」等)が有り、キーワードに対応する文字(一例として、「請求書」)が会計証憑の先頭付近に有れば、その文字が属する分類(「請求書」)を目的区分として特定する。なお、特定のキーワードは、会計証憑の内容毎に分類して、予め記憶部24等に登録されている。
【0031】
第1特定部15は、上述したように目的区分を特定できない場合、例えば、以下のような処理を行う。
第1特定部15の一機能としての第2取得部16は、画像データ(第2画像データ)に基づく画像の特徴を取得する。具体的には、第1特定部15は、例えば、画像の特徴としてAKAZE特徴量を算出する。
【0032】
第1特定部15の一機能としての作成部17は、第2取得部16によって取得された特徴に基づいて、目的区分の候補となるショートリストを作成する。すなわち、作成部17は、第2画像データに基づく画像から算出された特徴と、予め作成されている複数のモデル画像の特徴との類似度を比較し、その類似度が閾値以上のモデル画像に基づいてショートリスト(類似度が高いモデル画像のリスト)を作成する。より具体的には、作成部17は、第2取得部16によって算出された特徴を量子化し、予め作成されているモデル画像のデータベースを第2画像データの特徴に基づくクエリを用いて検索してショートリストを作成してもよい。
【0033】
第1特定部15の一機能としての第3特定部18は、作成部17によって作成されたショートリストと、第2画像データの特徴とに基づいて、目的区分を特定する。
すなわち、第3特定部18は、作成部17によって作成されたショートリストに含まれるモデル画像の目的区分が1種類なら、それを目的区分として特定する。一例として、ショートリストに含まれる画像の目的区分が「請求書」のみなら、第2画像データに基づく画像を請求書へ分類する。
一方、第3特定部18は、作成部17によって作成されたショートリストに含まれるモデル画像が複数ある場合、ショートリスト内の全モデル画像とクエリ(第2画像の特徴)の類似度を比較して、類似度が最も高いモデル画像を目的区分として特定する。第3特定部18は、類似度の比較として、特徴量が一致するキーポイント数及び特徴量間のユークリッド距離計算等の相対的に低速だが厳密な方法を利用することができる。
【0034】
第3特定部18は、類似度が最大となるモデル画像の目的区分を、クエリ画像の目的区分として特定する。より具体的には、第3特定部18は、ショートリストに含まれる各モデル画像について、クエリ画像との量子化誤差の距離より類似度を算出してもよい。
この場合、第3特定部18の処理では、画像を処理する前に、予め相対的に多数のモデル画像に基づいてデータベースを構築しておく必要がある。モデル画像に対して第2取得部16の処理と同様に特徴の算出を行い、
(1)直積量子化によってコードワードをまとめ、(2)まとめた後のコードワードひとつに対して複数の値(画像ID、画像IDに対応する直積量子化後のコード、目的区分)に対応するKey−valueデータベースを構築しておく必要がある。Key−valueデータベースは、記憶させたいデータ(値:value)と、そのデータに対応する標識(key)とを設定し、それらをペアで記憶するデータベースである。
【0035】
上述したように目的区分を特定することにより、情報処理装置1は、標準項目のセットを取得することができる。すなわち、情報処理装置1は、目的区分に応じた標準項目セットを予め記憶部24に記憶している。標準項目の一例として、情報処理装置1は、目的区分が「請求書」の場合には、タイトル、請求書番号、請求日付、請求元、請求先、品目、単価、数量、税抜価格、消費税及び税込価格等を取得することができる。
【0036】
割当部19は、文字データに基づいて会計証憑に関する標準項目を特定して、特定された標準項目に対応する文字をその標準項目に割り当てる。すなわち、割当部19は、第1取得部12によって認識した文字及び表のヘッダ名に基づいて、第1特定部15によって特定した目的区分に対応する、目的区分ごとに予め定められた標準項目を割り当てる。標準項目は、後述するテンプレートにおけるラベルとなる。
例えば、割当部19は、第1取得部12によって認識された文字および表のヘッダ名に、標準項目に対応する文字、及び、予め登録された単語(代替語)が含まれるかを判定する。割当部19は、標準項目に対応する文字が含まれれば、対応する文字又は表のヘッダ名を標準項目として設定する。また、割当部19は、文字又は表のヘッダ名に代替語が含まれていれば、それを標準項目に置換して設定する。割当部19は、第1取得部12によって認識された文字及び表のヘッダ名にも含まれていない標準項目があれば、文字及び表のヘッダ名と標準項目との意味的距離を計算し、最も距離が近い文字又は表のヘッダ名を標準項目に割り当てる。
【0037】
次に、関連付け部20は、表の外部に記載される文字を関連付ける。
図4は、文字と、その文字に隣接する他の文字との関連付けについて説明するための図である。
関連付け部20は、割当部19によって特定された標準項目に対応する文字と、その文字に隣接する他の文字とを関連付ける。
図4に示すように、関連付け部20は、文字(破線Cを参照)、及び、その文字に隣接する他の文字(破線Cを参照)を破線Dで囲む範囲について関連付ける。
【0038】
すなわち、まず、関連付け部20は、第1取得部12によって認識された文字の領域を特定する座標情報に基づいて、認識された文字をクラスタ化する。次に、関連付け部20は、標準項目に対応する文字の領域から右又は下にあるクラスタのうち、標準項目を割り当てられた項目名を含まないものに係る座標情報を、対応する標準項目に関連付ける。次に、関連付け部20は、会計証憑のタイトルなど、ラベルとなる文字画像が必要ない標準項目は、クラスタの座標情報のみを基に認識対象領域を設定する。
【0039】
より具体的には、関連付け部20は、標準項目ごとに認識対象領域を割り当てる。認識対象領域は、例えば、表の場合はヘッダ名、表以外の場合は長方形の座標情報として表現される。この場合、関連付け部20は、次のような処理を行う。
【0040】
まず、処理1として、関連付け部20は、第2画像データに基づく画像全体について画像認識(一例として、OCR等)を行い、画像に標準項目名又は登録済みの代替語が含まれるかを検索する。関連付け部20は、いずれにも該当しなかった標準項目については、標準項目名と各単語との意味的距離(例えば、分散表現ベクトルのライブラリ等を用いて生成したエンベディング間の距離)を計算し、もっとも意味的距離が近い候補を標準項目に対応する項目名として割り当てる。これは、特に、類似項目内での分類に有利となる。これにより、関連付け部20は、例えば、英文の請求書にSubtotal、Tax及びTotalの3項目が記載されていた場合、税抜金額、消費税、税込金額にそれぞれ相当する区分はどれかを自動判定することができる。
【0041】
次に、処理2として、関連付け部20は、第1特定部15によって特定されたヘッダ名が、上記の処理1で標準項目に対応する項目名となった場合は、対応する行又は列を認識対象領域として設定する。もしテンプレートに表として認識するよう指定するときは、認識対象となる全てのページで表の認識を行うことになる。また、ページごとに表の行数又は列数が増減する可能性があるため、テンプレートの自動生成時は座標情報を設定する必要がなく、また設定しない方が有利となる。表について特定の座標を設定する必要がある場合は、テンプレートの自動生成後にユーザが手動で設定することになる。
【0042】
次に、処理3として、関連付け部20は、処理1で認識された文字(文字列画像)をそれの座標情報に基づいてクラスタ化する。関連付け部20は、ヘッダ項目以外で標準項目に割り当てられた項目名については、対応する領域を座標距離が最も近いクラスタへ拡張して設定する。この場合、関連付け部20は、項目名を示す文字列画像の座標から右又は下にあるクラスタのうち、標準項目を割り当てられた項目名を含まないものを選択する。なお、関連付け部20は、項目名を用いない項目はクラスタの位置のみを基に領域を設定する。例えば、会計証憑のタイトルは最上部中央にある文字列クラスタを用いる。
【0043】
関連付け部20は、標準項目と紐づけた全ての領域に対し、記憶部24に記憶された言語/文字種データに基づいて文字認識を行い、最も辞書と適合する言語/文字種データを採用する。ただし、日付、金額及び数量等の書式指定対象となる標準項目は、言語/文字種データを用いる代わりに後述する正規表現を利用して言語/文字種を認識する。言語/文字種データとしては、一例として、英語データ、数値及び句読点のみのデータ、日本語データ、手書き文字用データ等があり、文字認識部は、認識対象に応じて項目ごとに切り替えて使用することとしてもよい。
【0044】
関連付け部20は、割当部19によって割り当てられた標準項目について、上記のように紐づけた認識対象領域における文字認識の結果へ書式を適用する。書式には、例えば、請求日付の書式には元号年月日式、西暦年月日式、スラッシュ「/」やピリオド「.」などの記号を用いる方式などがある。これらの標準項目として請求日付に対応する書式全てを予め正規表現で登録しているので、文字認識の結果へ当てはまった正規表現をテンプレートにおける書式として採用する。請求書であれば、請求日付のほか、単価、数量、税抜金額、消費税、税込金額などの標準項目が書式指定の対象となる。文字認識の時にはこの書式を示す正規表現が文字認識の結果をフィルタリングする検索条件として利用される。
【0045】
表示部25(出力部)は、第1特定部15によって特定された目的区分、並びに、関連付け部20によって標準項目と他の文字とを関連付けた書式でその標準項目及び他の文字を出力する。
出力制御部21は、関連付け部20で関連付けた標準項目及び文字について書式を認識した後、テンプレートとしてまとめて表示部25に表示する。すなわち、出力制御部21は、関連付け部20で設定された各認識対象領域へ、標準項目ごとに予め登録された言語/文字種データから、文字認識の結果が最も辞書と適合するものを割り当てる。出力制御部21は、関連付け部20で設定された各認識対象領域へ、標準項目ごとに予め正規表現で登録された書式があれば、文字認識の結果に適合するものを割り当てる。出力制御部21は、各ラベルに対応する、認識対象領域/ヘッダ名、言語/文字種、及び、書式をテンプレートとして設定する。出力制御部21は、設定したテンプレートを表示部25に表示する。出力制御部21は、テンプレートに関するデータを記憶部24に記憶することとしてもよい。
【0046】
図5は、表示部25に表示されるテンプレートの一例について説明するための図である。
図5に例示するテンプレートは、
図3に例示する会計証憑の記載に対応するようになっている。また、
図5に例示するテンプレートに記載される数字等は、情報処理装置1の入力キー及びマウス等がユーザによって操作されることにより、変更可能になっている。
【0047】
次に、一実施形態に係る情報処理方法について説明する。
図6は、一実施形態に係る情報処理方法について説明するためのフローチャートである。
【0048】
ステップST1において、受付部11は、会計証憑に関する画像データ(第1画像データ)を受け付ける。受付部11は、例えば、記憶部24に記憶された会計証憑に関する画像データを読み出して、情報処理装置1への入力を受け付ける。また、受付部11は、通信部23によって会計証憑に関する画像データが受信された場合には、その画像データを受け付けることとしてもよい。
【0049】
ステップST2において、第1取得部12は、ステップST1で受け付けた画像データ(第1画像データ)に記録される画像に基づいて文字認識を行い、会計証憑に対する書き込みを削除する。
例えば、第1取得部12(第2特定部13)は、第1画像データに対応する会計証憑において文字が印刷された印刷領域と、文字が書き込まれた書込領域とを推定して、書込領域を特定する。
第1取得部12(置換部14)は、第2特定部13によって特定された書込領域に記載される文字を背景色の色に置き換える。
【0050】
ステップST3において、第1取得部12は、ステップST2で書き込みが削除された画像データ(第2画像データ)に基づいて、画像を認識する。第1取得部12は、例えば、画像認識として文字及び表を認識する。
【0051】
ステップST4において、第1特定部15は、ステップST3で認識した文字、又は、ステップST2で受け付けた画像データ(第1画像データ)に基づいて、目的区分を特定する。
具体的には、第1特定部15は、ステップST2で認識した文字に特定のキーワード(一例として、「請求書」)が有り、その文字が会計証憑の先頭付近に有れば、その文字を目的区分として特定する。
又は、第1特定部15(第2取得部16)は、画像データ(第2画像データ)に基づく画像の特徴を取得する。第1特定部15(作成部17)は、第2取得部16によって取得された特徴に基づいて、目的区分の候補となるモデル画像のショートリストを作成する。第1特定部15(第3特定部18)は、作成部17によって作成されたショートリストに挙げられた各モデル画像の特徴と、第2画像データの特徴との類似度に基づいて、目的区分を特定する。
【0052】
ステップST5において、割当部19は、ステップST3で認識した文字に基づいて会計証憑に関する標準項目を特定し、特定された標準項目に対応する文字をその標準項目に割り当てる。例えば、割当部19は、ステップST3で認識した文字及び表のヘッダ名に基づいて、第1特定部15によって特定した目的区分に対応する、目的区分ごとに予め定められた標準項目を割り当てる。
【0053】
ステップST6において、関連付け部20は、隣接する文字を関連付ける。すなわち、関連付け部20は、ステップST5で特定された標準項目に対応する文字と、その文字に隣接する他の文字とを関連付ける。
【0054】
ステップST7において、表示部25(出力部)は、第1特定部15によって特定された目的区分、並びに、関連付け部20によって標準項目と他の文字とを関連付けた書式でその標準項目及び他の文字を出力する。すなわち、出力制御部21は、関連付け部20で関連付けた標準項目及び文字について書式を認識した後、テンプレートとしてまとめて表示部25に表示する。
【0055】
次に、本実施形態の効果について説明する。
情報処理装置1は、会計証憑に関する画像データを受け付ける受付部11と、画像データに記録される文字を認識して文字データとして取得する第1取得部12と、第1取得部12によって取得された文字データ、及び、受付部11によって受け付けた画像データに基づいて、会計証憑の目的となる目的区分を特定する第1特定部15と、文字データに基づいて会計証憑に関する標準項目を特定して、特定された標準項目に対応する文字をその標準項目に割り当てる割当部19と、割当部19によって特定された標準項目に対応する文字と、その文字に隣接する他の文字とを関連付ける関連付け部20と、第1特定部15によって特定された目的区分、並びに、関連付け部20によって標準項目と他の文字とを関連付けた書式でその標準項目及び他の文字を出力する出力部と、を備える。
情報処理装置1は、種々の会計証憑の様式毎の文字認識(一例として、OCR)の設定をデータ化することができる。すなわち、情報処理装置1は、会計証憑に対応するテンプレートを生成して出力することができる。
また、情報処理装置1は、モデル画像データベースの構築及び目的区分毎の標準項目の指定等のユーザによる作業が必要になるが、構造化された会計証憑に加えて、構造化されていない会計証憑に対しても自動的に文字認識のテンプレートの設定することができる。
【0056】
情報処理装置1では、第1取得部12は、画像データに対応する会計証憑の印刷領域と書込領域とを推定して、書込領域を特定する第2特定部13と、第2特定部13によって特定された書込領域に記載される文字を、文字が記載されていない背景の色に置き換える置換部14と、を備える。
これにより、情報処理装置1は、会計証憑に書き込みがある場合でも、その書き込みについてはデータ化を行うことはなく、会計証憑の印刷部分のみテンプレートとして出力することができる。
【0057】
情報処理装置1では、第1特定部15は、画像データに基づく画像の特徴を取得する第2取得部16と、第2取得部16によって取得された特徴に基づいて、目的区分の候補となるショートリストを作成する作成部17と、作成部17によって作成されたショートリストと、画像データの特徴とに基づいて、目的区分を特定する第3特定部18と、を備える。
これにより、情報処理装置1は、会計証憑の目的を示す目的区分(例えば、請求書等)を特定して、目的区分に対応する標準項目も特定することができる。
【0058】
情報処理方法では、コンピュータが、会計証憑に関する画像データを受け付ける受付ステップと、画像データに記録される文字を認識して文字データとして取得する第1取得ステップと、第1取得ステップによって取得された文字データ、及び、受付ステップによって受け付けた画像データに基づいて、会計証憑の目的となる目的区分を特定する第1特定ステップと、文字データに基づいて会計証憑に関する標準項目を特定して、特定された標準項目に対応する文字をその標準項目に割り当てる割当ステップと、
割当ステップによって特定された標準項目に対応する文字と、その文字に隣接する他の文字とを関連付ける関連付けステップと、第1特定ステップによって特定された目的区分、並びに、関連付けステップによって標準項目と他の文字とを関連付けた書式でその標準項目及び他の文字を出力する出力ステップと、を実行する。
情報処理方法は、種々の会計証憑の様式毎の文字認識(一例として、OCR)の設定をデータ化することができる。すなわち、情報処理方法は、会計証憑に対応するテンプレートを生成して出力することができる。
また、情報処理方法は、モデル画像データベースの構築及び目的区分毎の標準項目の指定等のユーザによる作業が必要になるが、構造化された会計証憑に加えて、構造化されていない会計証憑に対しても自動的に文字認識のテンプレートの設定することができる。
【0059】
情報処理プログラムは、コンピュータに、会計証憑に関する画像データを受け付ける受付機能と、画像データに記録される文字を認識して文字データとして取得する第1取得機能と、第1取得機能によって取得された文字データ、及び、受付機能によって受け付けた画像データに基づいて、会計証憑の目的となる目的区分を特定する第1特定機能と、文字データに基づいて会計証憑に関する標準項目を特定して、特定された標準項目に対応する文字をその標準項目に割り当てる割当機能と、割当機能によって特定された標準項目に対応する文字と、その文字に隣接する他の文字とを関連付ける関連付け機能と、第1特定機能によって特定された目的区分、並びに、関連付け機能によって標準項目と他文字とを関連付けた書式でその標準項目及び他の文字を出力する出力機能と、を実現させる。
情報処理プログラムは、種々の会計証憑の様式毎の文字認識(一例として、OCR)の設定をデータ化することができる。すなわち、情報処理プログラムは、会計証憑に対応するテンプレートを生成して出力することができる。
また、情報処理プログラムは、モデル画像データベースの構築及び目的区分毎の標準項目の指定等のユーザによる作業が必要になるが、構造化された会計証憑に加えて、構造化されていない会計証憑に対しても自動的に文字認識のテンプレートの設定することができる。
【0060】
上述した情報処理装置1の各部は、コンピュータの演算処理装置等の機能として実現されてもよい。すなわち、情報処理装置1の受付部11、第1取得部12、第1特定部15、割当部19、関連付け部20及び出力制御部21は、コンピュータの演算処理装置等による、受付機能、第1取得機能、第1特定機能、割当機能、関連付け機能及び出力制御機能としてそれぞれ実現されてもよい。
情報処理プログラムは、上述した各機能をコンピュータに実現させることができる。情報処理プログラムは、外部メモリ又は光ディスク等の、コンピュータで読み取り可能な非一時的な記録媒体に記録されていてもよい。
また、上述したように、情報処理装置1の各部は、コンピュータの演算処理装置等で実現されもよい。その演算処理装置等は、例えば、集積回路等によって構成される。このため、情報処理装置1の各部は、演算処理装置等を構成する回路として実現されてもよい。すなわち、情報処理装置1の受付部11、第1取得部12、第1特定部15、割当部19、関連付け部20及び出力制御部21は、コンピュータの演算処理装置等を構成する、受付回路、第1取得回路、第1特定回路、割当回路、関連付け回路及び出力制御回路として実現されてもよい。
また、情報処理装置1の入力部22、通信部23、記憶部24及び出力部(表示部25)は、例えば、集積回路等によって構成されることにより、入力回路、通信回路、記憶回路及び出力回路(表示回路)として実現されてもよい。また、情報処理装置1の入力部22、通信部23、記憶部24及び出力部(表示部25)は、演算処理装置等を含むことにより、入力機能、通信機能、記憶機能及び出力機能(表示機能)として実現されてもよい。また、情報処理装置1の入力部22、通信部23、記憶部24及び出力部(表示部25)は、例えば、複数のデバイスによって構成されることにより、入力装置、通信装置、記憶装置及び出力装置(表示装置)として構成されてもよい。
情報処理装置は、会計証憑に関する画像データを受け付ける受付部と、画像データに記録される文字を認識して文字データとして取得する第1取得部と、第1取得部によって取得された文字データ、及び、受付部によって受け付けた画像データに基づいて、会計証憑の目的となる目的区分を特定する第1特定部と、文字データに基づいて会計証憑に関する標準項目を特定して、特定された標準項目に対応する文字をその標準項目に割り当てる割当部と、割当部によって特定された標準項目に対応する文字と、その文字に隣接する他の文字とを関連付ける関連付け部と、第1特定部によって特定された目的区分、並びに、関連付け部によって標準項目と他の文字とを関連付けた書式でその標準項目及び他の文字を出力する出力部と、を備える。