特許7435118 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特許7435118情報処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-13

(45)【発行日】2024-02-21

(54)【発明の名称】情報処理装置及びプログラム

(51)【国際特許分類】

G06V 30/412 20220101AFI20240214BHJP

G06F 40/279 20200101ALI20240214BHJP

【ＦＩ】

G06V30/412

G06F40/279

【請求項の数】 9

(21)【出願番号】P 2020052740

(22)【出願日】2020-03-24

(65)【公開番号】P2021152735

(43)【公開日】2021-09-30

【審査請求日】2023-02-28

(73)【特許権者】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】110001210

【氏名又は名称】弁理士法人ＹＫＩ国際特許事務所

(72)【発明者】

【氏名】山口政幸

(72)【発明者】

【氏名】道村唯夫

(72)【発明者】

【氏名】榎本尚之

【審査官】伊知地和之

(56)【参考文献】

【文献】特開２００２－１７００７９（ＪＰ，Ａ）

【文献】国際公開第２００９／０８１７９１（ＷＯ，Ａ１）

【文献】特開２０１６－１２８９９０（ＪＰ，Ａ）

【文献】特開２０１８－０３６７３１（ＪＰ，Ａ）

【文献】特開２０１３－０４１４５４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／４１２

Ｇ０６Ｆ４０／２７９

(57)【特許請求の範囲】

【請求項1】

プロセッサを備え、
前記プロセッサは、
第１文書に対する文字認識処理の結果である第１処理結果および前記第１文書と形式が同様の文書である第２文書に対する文字認識処理の結果である第２処理結果を受信し、
前記第１処理結果から検出された所定の複数の文字の前記第１文書上における第１位置情報と、前記第２処理結果から検出された前記所定の複数の文字の前記第２文書上における第２位置情報とからコサイン類似度を前記所定の文字毎に算出し、
算出したコサイン類似度が所定の閾値以上となる文字の数に応じた補正方法に従って前記第１文書に含まれる前記所定の複数の文字の位置情報を補正する、
ことを特徴とする情報処理装置。

【請求項2】

前記所定の複数の文字は、前記第１文書および前記第２文書の両方で検出される文字であることを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記プロセッサは、
前記第１文書と前記第２文書それぞれに同じ文字が含まれている場合であっても算出したコサイン類似度が所定の閾値に満たない場合、当該同じ文字の位置情報を参照しない、
ことを特徴とする請求項２に記載の情報処理装置。

【請求項4】

前記第１位置情報および第２位置情報は、前記第１文書および前記第２文書の中心を中心座標とした場合、中心座標から前記第１処理結果および前記第２処理結果から検出された前記文字を囲む矩形領域の左上の位置を示す相対座標により表されることを特徴とする請求項１に記載の情報処理装置。

【請求項5】

前記プロセッサは、算出したコサイン類似度が全て前記所定の閾値以上の場合、拡縮に伴うずれに対応する補正方法によって前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする請求項１に記載の情報処理装置。

【請求項6】

前記プロセッサは、前記第１文書において文書の中心位置とコサイン類似度が最大となる文字の位置の間の距離と、前記第２文書において文書の中心位置とコサイン類似度が最大となる文字の位置の間の距離と、の比に応じて前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする請求項５に記載の情報処理装置。

【請求項7】

前記プロセッサは、算出したコサイン類似度が全て前記所定の閾値以上でない場合、文書への形成位置のずれに対応する補正方法によって前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする請求項１に記載の情報処理装置。

【請求項8】

前記プロセッサは、前記第１文書において文書の中心位置とコサイン類似度が前記所定の閾値以上であって最大となる文字の位置の間の距離と、前記第２文書において文書の中心位置とコサイン類似度が前記所定の閾値以上であって最大となる文字の位置の間の距離と、の差に応じて前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする請求項１に記載の情報処理装置。

【請求項9】

コンピュータに、
第１文書に対する文字認識処理の結果である第１処理結果および前記第１文書と形式が同様の文書である第２文書に対する文字認識処理の結果である第２処理結果を受信する機能、
前記第１処理結果から検出された所定の複数の文字の前記第１文書上における第１位置情報と、前記第２処理結果から検出された前記所定の複数の文字の前記第２文書上における第２位置情報とからコサイン類似度を前記所定の文字毎に算出する機能、
算出したコサイン類似度が所定の閾値以上となる文字の数に応じた補正方法に従って前記第２文書に含まれる前記所定の複数の文字の位置情報を補正する機能、
を実現させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及びプログラムに関する。

【背景技術】

【0002】

文書の画像データから文書の所定の位置に形成されている文字を抽出しようとする場合、抽出したい文字が形成されている位置、通常は矩形領域で表される範囲を文書の形式毎に事前に特定しておく。そして、取得した文書の形式が識別できると、その形式の文書に対応した情報を参照して文字が形成されている矩形領域を特定し、その特定した矩形領域に対して文字認識処理を実施して文書上から文字を抽出する。

【先行技術文献】

【特許文献】

【0003】

【文献】特許第４０４６９７１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

スキャナで読み取るなどして文書の画像データが生成される場合、スキャナの性能等によっては位置ずれが発生する場合がある。この場合、位置ずれが発生した文書から文書の形式が識別できたとしても文字が形成されている位置がずれていることから文字を正しく抽出できない場合がある。

【0005】

本発明は、コサイン類似度を利用して文書の所定の位置に形成される文字の位置ずれを補正することを目的とする。

【課題を解決するための手段】

【0006】

本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、第１文書に対する文字認識処理の結果である第１処理結果および前記第１文書と形式が同様の文書である第２文書に対する文字認識処理の結果である第２処理結果を受信し、前記第１処理結果から検出された所定の複数の文字の前記第１文書上における第１位置情報と、前記第２処理結果から検出された前記所定の複数の文字の前記第２文書上における第２位置情報とからコサイン類似度を前記所定の文字毎に算出し、算出したコサイン類似度が所定の閾値以上となる文字の数に応じた補正方法に従って前記第１文書に含まれる前記所定の複数の文字の位置情報を補正する、ことを特徴とする。

【0007】

また、前記所定の複数の文字は、前記第１文書および前記第２文書の両方で検出される文字であることを特徴とする。

【0008】

また、前記プロセッサは、前記第１文書と前記第２文書それぞれに同じ文字が含まれている場合であっても算出したコサイン類似度が所定の閾値に満たない場合、当該同じ文字の位置情報を参照しないことを特徴とする。

【0009】

また、前記第１位置情報および第２位置情報は、前記第１文書および前記第２文書の中心を中心座標とした場合、中心座標から前記第１処理結果および前記第２処理結果から検出された前記文字を囲む矩形領域の左上の位置を示す相対座標により表されることを特徴とする。

【0010】

また、前記プロセッサは、算出したコサイン類似度が全て前記所定の閾値以上の場合、拡縮に伴うずれに対応する補正方法によって前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする。

【0011】

また、前記プロセッサは、前記第１文書において文書の中心位置とコサイン類似度が最大となる文字の位置の間の距離と、前記第２文書において文書の中心位置とコサイン類似度が最大となる文字の位置の間の距離と、の比に応じて前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする。

【0012】

また、前記プロセッサは、算出したコサイン類似度が全て前記所定の閾値以上でない場合、文書への形成位置のずれに対応する補正方法によって前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする。

【0013】

また、前記プロセッサは、前記第１文書において文書の中心位置とコサイン類似度が前記所定の閾値以上であって最大となる文字の位置の間の距離と、前記第２文書において文書の中心位置とコサイン類似度が前記所定の閾値以上であって最大となる文字の位置の間の距離と、の差に応じて前記第１文書に含まれる前記所定の複数の文字の位置情報を補正することを特徴とする。

【0014】

本発明に係るプログラムは、コンピュータに、第１文書に対する文字認識処理の結果である第１処理結果および前記第１文書と形式が同様の文書である第２文書に対する文字認識処理の結果である第２処理結果を受信する機能、前記第１処理結果から検出された所定の複数の文字の前記第１文書上における第１位置情報と、前記第２処理結果から検出された前記所定の複数の文字の前記第２文書上における第２位置情報とからコサイン類似度を前記所定の文字毎に算出する機能、算出したコサイン類似度が所定の閾値以上となる文字の数に応じた補正方法に従って前記第２文書に含まれる前記所定の複数の文字の位置情報を補正する機能、を実現させる。

【発明の効果】

【0015】

請求項１に記載の発明によれば、コサイン類似度を利用して文書の所定の位置に形成される文字の位置ずれを補正することができる。

【0016】

請求項２に記載の発明によれば、コサイン類似度を確実に算出することができる。

【0017】

請求項３に記載の発明によれば、第１文書と第１文書の形式上における文字の位置ずれを精度よく行うことができる。

【0018】

請求項４に記載の発明によれば、コサイン類似度の算出の便宜を図ることができる。

【0019】

請求項５に記載の発明によれば、第２文書が第１文書に対して拡縮されているものと判断して補正することができる。

【0020】

請求項６に記載の発明によれば、拡縮によりずれている第１文書に含まれる文字の位置情報を補正することができる。

【0021】

請求項７に記載の発明によれば、第１文書において文字の形成位置がずれているものと判断して補正することができる。

【0022】

請求項８に記載の発明によれば、文書上の正しい位置に形成されていない第１文書に含まれる文字の位置情報を補正することができる。

【0023】

請求項９に記載の発明によれば、コサイン類似度を利用して文書の所定の位置に形成される文字の位置ずれを補正することができる。

【図面の簡単な説明】

【0024】

【図1】本発明に係る情報処理装置の一実施の形態を示すブロック構成図である。

【図2】本実施の形態における帳票識別処理を示すフローチャートである。

【図3】帳票の一例である請求書を示す図である。

【図4】本実施の形態において帳票から抽出したキーバリュー抽出結果のデータ構成の一例を示す図である。

【図5】本実施の形態における帳票の同一性判定を説明するための図である。

【図6】本実施の形態における位置ずれ補正処理を示すフローチャートである。

【図7】本実施の形態における基準帳票と補正帳票を概略的に示す図であり、補正帳票が基準帳票に対して拡縮されている場合を示す図である。

【図8】本実施の形態における基準帳票と補正帳票を概略的に示す図であり、補正帳票が基準帳票に対して位置ずれして形成されている場合を示す図である。

【図9】本実施の形態において、補正帳票が基準帳票に対して位置ずれして形成されている場合の同じ文字の位置関係を示す図である。

【発明を実施するための形態】

【0025】

以下、図面に基づいて、本発明の好適な実施の形態について説明する。本実施の形態では、情報処理装置が処理する文書として帳票を取り扱う場合を例にして説明する。

【0026】

本実施の形態における情報処理装置は、パーソナルコンピュータ（ＰＣ）等の従前から存在する汎用的なハードウェア構成で実現できる。すなわち、情報処理装置１は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ハードディスクドライブ（ＨＤＤ）等の記憶手段、入力手段として設けられたマウスやキーボード及び表示手段として設けられたディスプレイ等のユーザインタフェース手段、ネットワークインタフェース等の通信手段を有する。

【0027】

図１は、本発明に係る情報処理装置１の一実施の形態を示すブロック構成図である。本実施の形態における情報処理装置１は、帳票取得部２、帳票解析処理部３、帳票データベース（ＤＢ）４、キーバリュー抽出結果データベース（ＤＢ）５及び抽出結果情報記憶部６を有している。なお、本実施の形態の説明に用いない構成要素については図から省略する。

【0028】

帳票取得部２は、帳票の画像データを取得する。取得した画像データは、帳票データベース４に保存されると共に、帳票解析処理部３に渡される。帳票解析処理部３は、取得した帳票の画像データを解析することによって帳票の形式を識別し、また、帳票の形式の識別に必要な情報として抽出結果情報を必要により作成して、抽出結果情報記憶部６に登録する。

【0029】

ここで、「帳票の形式」というのは、端的には帳票に適用されるフォームということができる。例えば、請求書や納品書等の帳票の種別を表す「帳票の種類」においても、帳票のフォームが異なれば帳票の形式は異なる。ある種類の帳票、例えば、請求書の場合、通常、タイトルを示す「請求書」や、請求書の発行日、請求書番号、請求金額、また請求元や請求先を特定する文字が記載される。これらの記載される文字は、請求書という種別において共通し、比較対象となる請求書の両方で検出可能な文字である。但し、帳票のフォーム（つまり、形式）によって文字の記載位置が同じとは限らず、異なる場合が少なくない。従って、本実施の形態においては、２つの帳票を比較し、帳票上におけるこれらの文字の位置が同じであれば、２つの帳票の形式は同じと判別し、異なるようであれば、２つの帳票の形式は異なると判別する。

【0030】

ところで、帳票に記載される上記例示した請求書の「発行日」や「請求書番号」等の特定の文字のことを、本実施の形態においては「キー」（Ｋｅｙ）と称する。また、帳票には、通常、キーに文字が対応付けて記載される。例えば、「発行日」というキーの近傍には、発行日を示す日付の形式で表現される文字が記載されているはずであり、「請求書番号」というキーの近傍には、番号を示す形式で表現される文字が記載されているはずである。キーを項目名というならば、日付や番号は項目値ということができる。本実施の形態においては、キーに対応付けして記載される文字を「バリュー」（Ｖａｌｕｅ）と称する。帳票の画像データを解析することによって帳票上にキーに該当する所定の特定の文字を見つけると、そのキーの周辺近傍（例えば、横書きの場合、多くはキーの右側または下側）にバリューが存在するので、帳票からキーとバリューをセットにして抽出することが可能となる。すなわち、帳票をスキャンすることで、その帳票の読取画像（上記「画像データ」に相当）からキーとバリューを組にして自動的に抽出することができる。なお、キーだけあるいはバリューだけが抽出される場合もあるが、本実施の形態においては、この場合も含めてキーとバリューを抽出する技術は既存技術を利用する。また、本実施の形態において「文字」というのは、特に断らない限り、一文字の場合と複数の文字から成る文字列の双方を意味する。

【0031】

図１に戻り、帳票解析処理部３は、キーバリュー抽出部３１、帳票識別部３２、抽出結果情報編集部３３及び位置ずれ補正処理部３４を有する。キーバリュー抽出部３１は、前述したように帳票の画像データに対し文字認識処理を実施してキー及びバリューを抽出する。以降の説明では、このキーバリュー抽出処理の処理結果のことを「キーバリュー抽出結果」と称する。帳票識別部３２は、キー及びバリューが抽出された帳票と抽出結果情報記憶部６に抽出結果情報が登録されている帳票との同一性を判定することで、当該帳票を識別する。つまり、帳票の形式を判別する。また、帳票識別部３２は、詳細は後述するように、必要により抽出結果情報を作成して抽出結果情報記憶部６に登録する。

【0032】

本実施の形態では、抽出結果情報記憶部６に登録されている抽出結果情報を使用して帳票の形式を判別するが、抽出結果情報編集部３３は、その判別精度の向上等のために抽出結果情報記憶部６に登録されている抽出結果情報を編集する。抽出結果情報編集部３３は、自動訂正部３３１、文字認識処理部３３２及び編集処理部３３３を有している。自動訂正部３３１は、抽出結果情報を参照して、誤っていると推測されるキー又はバリューの読取位置を自動的に訂正する。文字認識処理部３３２は、自動訂正部３３１により訂正された読取位置に対して文字認識処理を実施して正しい文字、すなわちキー又はバリューを取得する。編集処理部３３３は、手動によりキー又はバリューの読取位置をユーザに訂正させる。

【0033】

詳細は後述するが、処理対象となる帳票の画像データ（以下、「補正帳票」ともいう）がスキャナの読取精度等の関係から補正帳票と同じ形式において基準となる帳票の画像データ（以下、「基準帳票」ともいう）からずれる場合がある。つまり、基準帳票と補正帳票それぞれに含まれている同じ文字（つまり、キー及びバリュー）の位置がずれる可能性がある。位置ずれ補正処理部３４は、この位置ずれを補正するための位置ずれ補正処理を実行する。

【0034】

帳票データベース４には、帳票取得部２が取得した帳票の画像データが蓄積される。キーバリュー抽出結果データベース５は、キーバリュー抽出結果の管理目的として使用され、キーバリュー抽出部３１により抽出されたキー及びバリューに関する情報がキーバリュー抽出結果として登録される。抽出結果情報記憶部６には、キーバリュー抽出部３１によるキーバリュー抽出結果が抽出結果情報として登録され、帳票の同一性の判定に使用される。本実施の形態では、抽出結果情報記憶部６をキーバリュー抽出結果の管理目的として使用しないので、全ての帳票のキーバリュー抽出結果が登録されるとは限らない。抽出結果情報の種類やデータ構成については後述する。

【0035】

なお、説明の便宜上、本実施の形態においては、帳票データベース４及びキーバリュー抽出結果データベース５を情報処理装置１に含めるように構成したが、本実施の形態における情報処理装置１は、帳票を識別するために使用されるコンピュータであることから、各データベース４，６を保持し、また管理する必要はない。従って、各データベース４，６を外部の装置に持たせるように構成し、情報処理装置１は、必要の時に外部の装置から必要なデータを取得するようにしてもよい。

【0036】

情報処理装置１における各構成要素２，３は、情報処理装置１を形成するコンピュータと、コンピュータに搭載されたＣＰＵで動作するプログラムとの協調動作により実現される。また、情報処理装置１における各記憶手段４～６は、情報処理装置１に搭載されたＨＤＤにて実現される。あるいは、ＲＡＭ又は外部にある記憶手段をネットワーク経由で利用してもよい。

【0037】

また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、ＣＤ－ＲＯＭやＵＳＢメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのＣＰＵがプログラムを順次実行することで各種処理が実現される。

【0038】

本実施の形態では、コサイン類似度を利用して帳票の同一性を判定し、帳票を識別する。この本実施の形態における帳票識別処理について図２に示すフローチャートを用いて説明する。なお、この時点では、抽出結果情報記憶部６には、まだ抽出結果情報が登録されていないものとする。

【0039】

まず、帳票取得部２は、１つの帳票の画像データを取得する（ステップ１０１）。帳票の画像データは、例えばスキャン機能を有する画像形成装置に帳票を読み取らせることによって生成される帳票の読取画像を画像データとして、画像形成装置から直接又は間接的に取得する。帳票取得部２は、取得した帳票の画像データを帳票データベース４に登録すると共に帳票解析処理部３に渡す。なお、以下の説明では、便宜的に以降の処理において処理対象とされる帳票の画像データ、つまりステップ１０１において取得した帳票の画像データを単に「帳票」と称して説明する。

【0040】

帳票取得部２から帳票を取得すると、帳票解析処理部３におけるキーバリュー抽出部３１は、前述したように帳票を解析してキー及び当該キーに対応するバリューを、既存技術を利用して自動的に抽出するキーバリュー抽出処理を実施して（ステップ１０２）、そのキーバリュー抽出結果をキーバリュー抽出結果データベース５に登録する。より詳細には、帳票に対して文字認識処理を実施し、その処理結果から検出された所定の複数の文字（すなわち、キー及びバリュー）の帳票上における位置情報を取得する。取得した帳票が請求書の場合の請求書の形式の一例を図３に示す。

【0041】

図３に示す請求書の例のように、請求書には、「発行日」２１ａ、「請求書番号」２１ｂ、「様」２１ｃなどのように、バリュー“２０２０／０３／０３”２２ａ、“Ｊ０１２３４５”２２ｂ、“山田太郎”２２ｃをそれぞれ抽出するための特定の文字、すなわちキーが帳票に含まれている。なお、図３の説明において、キーとなる特定の文字を相互に区別する必要はない場合は「キー２１」と総称する。同様に、各キー２１ａ，２１ｂ，２１に紐付くバリューとなる文字を相互に区別する必要はない場合は「バリュー２２」と総称する。また、キー２１の中には、「請求書」２１ｄのように、紐付くバリュー２２が存在しないキー２１が存在する。また、図３では例示していないが、その逆に対応するキー２１が存在しないバリュー２２が存在する。

【0042】

図４は、キーバリュー抽出部３１が帳票から抽出したキーバリュー抽出結果のデータ構成の一例を示す図である。なお、図４では、データ構成の一例を示しており、データ値が正しいとは限らない。図４には、キーとバリューの各組毎に通し番号（Ｎｏ．）が付けられて管理される。キー及びバリューは、共にキー又はバリューを示す文字に座標と幅と高さが対応付けして設定される。なお、ここでの説明では、キーとバリューとを分けて説明する必要がないので、特に断らない限り、キー及びバリューを「文字」と総称して説明する。

【0043】

文字は、当該文字を囲む矩形の領域にて帳票上において当該文字が存在する領域（つまり、文字の位置）が特定される。座標（Ｘ）と座標（Ｙ）は、当該文字の位置を示す座標情報である。本実施の形態においては、帳票の中心を中心座標とした場合、中心座標からキーバリュー抽出処理により検出された文字（すなわち、キー及びバリュー）を囲む矩形領域の左上の位置を示す相対座標により表される。幅は、矩形領域の幅（つまり、図面横方向に相当するＸ軸方向の大きさ）である。高さは、矩形領域の高さ（つまり、図面縦方向に相当するＹ軸方向の大きさ）である。文字の位置情報は、矩形領域の大きさと矩形領域の左上の座標情報によって構成される。なお、図４においては、Ｎｏ．１のようにバリューの位置情報が空白で示されるレコードのキーには、対応するバリューが存在していないことを示している。

【0044】

ところで、矩形領域の大きさは、帳票から文字を抽出する範囲を特定するために必要な情報であるが、文字の位置を特定するには特に必要でない。文字の位置は、座標情報によって特定可能なので、狭義には、座標情報が文字の位置を特定する位置情報となる。

【0045】

続いて、帳票識別部３２は、ステップ１０２において取得した帳票のキーバリュー抽出結果と、抽出結果情報記憶部６に登録されている抽出結果情報を参照して、帳票と過去に取得済みの帳票との同一性を判定する（ステップ１０３）。ただ、前述したように、この段階では、抽出結果情報記憶部６に抽出結果情報がまだ登録されていない。従って、この場合は、帳票と同一形式の帳票はまだ存在しないと判断して（ステップ１０４でＮ）、帳票識別部３２は、ステップ１０２において取得したキーバリュー抽出結果を抽出結果情報として抽出結果情報記憶部６に登録する（ステップ１０５）。なお、以降の説明では、ステップ１０２において取得したキーバリュー抽出結果を「訂正前抽出結果情報」と称する場合もある。

【0046】

続いて、抽出結果情報編集部３３における編集処理部３３３は、帳票に含まれている文字の位置情報を編集可能に表示させる。画面表示される帳票には、自動抽出されたキーとバリューの組がわかるように表示される。例えば、キーとバリューの位置情報から特定される範囲（つまり、矩形領域）を枠で囲んで表示させる場合、キーとバリューで異なる線種で枠を表示させ、同じ組には同じ線の色で枠を表示すれば、キーとバリューの組及びキーとバリューの種別が一目瞭然に把握できる。これは、一例であって、矩形領域内を塗りつぶしなど他の表示形態で表示させるようにしてもよい。

【0047】

帳票が請求書の場合、ステップ１０２におけるキーバリュー抽出処理では、「請求書番号」というキーの下側に正しい請求書番号（つまり、バリュー）が記載されているところを、そのキーの右側にある文字をバリューとして自動抽出してしまう可能性がある。この場合、ユーザは、所定の操作手順に従い、例えばキーの右側にある文字を囲む枠を正しいバリューである文字を囲むように移動させる。また、他の操作によって正しいバリューを指定させるようにしてもよい。編集処理部３３３は、このユーザによるバリューの位置の訂正操作に応じて、図４に示すバリューの座標情報（すなわち、座標（Ｘ）と座標（Ｙ））を更新する。また、文字の長さが異なる場合、ユーザは、所定の操作によって枠の大きさを変更させてもよい。編集処理部３３３は、このユーザによる枠の大きさを変更する操作に応じて、図４に示すバリューの矩形領域の大きさ（すなわち、幅と高さの少なくとも一方）を更新する。ここでは、バリューの位置を例にして説明したが、キーの位置も同様に訂正させることができる。

【0048】

以上のようにして、ユーザにより文字の位置が必要により訂正されると（ステップ１０８）、編集処理部３３３は、訂正が反映された抽出結果情報を「訂正後抽出結果情報」として、訂正前抽出結果情報と組にして抽出結果情報記憶部６に登録する（ステップ１０９）。また、訂正後抽出結果情報でキーバリュー抽出結果データベース５に登録しているキーバリュー抽出結果を更新する。なお、以降の説明では省略するが、キーバリュー抽出結果データベース５に登録されるキーバリュー抽出結果は、最新の抽出結果情報によって更新される。

【0049】

なお、ユーザが抽出結果情報を訂正しなかった場合は、訂正後抽出結果情報は生成されないので、ステップ１０５において登録された訂正前抽出結果情報が単独で保存された状態になる。

【0050】

以上のように、過去に抽出結果情報が抽出結果情報記憶部６に登録されていない形式の帳票が読み取られると、抽出結果情報が生成されて抽出結果情報記憶部６に登録される。

【0051】

続いて、他の帳票が読み取られることで図２に示す帳票識別処理が開始されるが、キーバリュー抽出処理（ステップ１０２）が実施される処理までは、上記と同じである。帳票識別部３２は、ステップ１０２において取得した帳票のキーバリュー抽出結果と、抽出結果情報記憶部６に登録されている抽出結果情報を参照して、帳票と過去に取得済みの帳票との同一性を判定する（ステップ１０３）。ここで、帳票と同一と判定される帳票が存在する場合の処理については後述するが、帳票と同一と判定される帳票が存在しない場合（ステップ１０４でＮ）、前述した処理を実施する（ステップ１０５，１０８，１０９）。

【0052】

処理対象の他の帳票が、帳票取得部２が取得した２枚目の帳票の場合、２形式目の帳票の抽出結果情報が抽出結果情報記憶部６に登録されることになる。帳票の形式が同一と識別されないことで以上の処理が繰り返され、これにより、抽出結果情報記憶部６には、多種類の形式の帳票に対応する抽出結果情報が登録されていく。ステップ１０８において抽出結果情報が訂正された場合には、訂正前抽出結果情報と訂正後抽出結果情報とが組にして登録される。

【0053】

図５では、上記帳票識別処理が繰り返されることによって帳票Ｂ，Ｃ，Ｄ，Ｅの抽出結果情報が抽出結果情報記憶部６に登録されており、帳票Ａがステップ１０１において新たに取得されている場合を示している。なお、帳票Ｂ，Ｃ，Ｄ，Ｅのそれぞれは、前述したように文字認識処理が実施されて得られた処理結果から検出された所定の複数の文字（すなわち、キー及びバリュー）の帳票上における位置情報を取得することでキーバリュー抽出結果が取得され、抽出結果情報として抽出結果情報記憶部６に登録されている。また、必要により訂正後抽出結果情報が登録されている。なお、ステップ１０８において訂正されていない抽出結果情報は、訂正後抽出結果情報が存在しないことから単独で抽出結果情報記憶部６に登録されるが、単独で登録されている抽出結果情報は、訂正されていないことから、説明の便宜上、訂正前抽出結果情報に相当するものとして説明する。

【0054】

以下、この図を用いて、ステップ１０３における本実施の形態の特徴的な帳票の同一性の判定処理について説明する。

【0055】

本実施の形態における同一性判定処理では、コサイン類似度を利用する。コサイン類似度では、ｎ個の要素をもつデータをｎ次のベクトル空間に落とし込み、それらがどれだけ類似しているかを示すことができる。コサイン類似度は、－１～＋１の値をとり、＋１に近いほど類似度が高い。

【0056】

例えば、図５に例示するように５つの帳票（ここでの例では、請求書）があり、それぞれのキー及びバリューを入力としてコサイン類似度を算出する。全てのキー及びバリューに基づきコサイン類似度を算出してもよいが、ここでは、説明の便宜上、帳票には、６つのキーが設定され、この６つのキーをコサイン類似度の計算に用いるものとする。この場合、帳票Ａのキーバリュー抽出結果と、帳票Ｂ～Ｅそれぞれの訂正前抽出結果情報を参照して、６つのキーの位置をそれぞれ表す座標（Ｘ）と座標（Ｙ）の１２次元でコサイン類似度を計算する。

【0057】

例えば、帳票Ｂを第１文書とし、帳票Ａを第２文書とし、帳票Ａに対するキーバリュー抽出結果と帳票Ｂに対するキーバリュー抽出結果（すなわち、訂正前抽出結果情報）それぞれに含まれている６つのキーの位置情報に基づきコサイン類似度を計算する。また、帳票Ｃを第１文書とし、帳票Ａを第２文書としてコサイン類似度を計算する。帳票Ｄ，Ｅに対しても同様にそれぞれを第１文書としてコサイン類似度を計算する。

【0058】

図５では、この計算結果を表形式にて示している。比較対象の帳票が同一形式の場合、類似度は１若しくは１に極めて近い値となる。図５の表に示す計算結果の数値例によると、帳票Ａは、帳票Ｃとのコサイン類似度が０．９１３と最も高い数値となる。本実施の形態では、コサイン類似度が所定の閾値（例えば、０．８）以上の場合、同じ形式の帳票と判定する。換言すると、コサイン類似度が所定の閾値に満たない場合は異なる形式の帳票と判定する。このため、図５に示す数値例では、帳票Ｃが帳票Ａと同じ形式の帳票であると判定される（ステップ１０３）。なお、以降の説明では、ステップ１０１において取得した処理対象の帳票を「帳票Ａ」、抽出結果情報が抽出結果情報記憶部６に登録されている、帳票Ａと同一と判定された帳票を「帳票Ｃ」として説明する。

【0059】

帳票Ａと同一形式の帳票Ｃが存在する場合（ステップ１０４でＹ）、必要により位置ずれ補正処理を実施する（ステップ１１０）。

【0060】

ステップ１０３における帳票の同一性判定処理において、帳票Ａは、帳票Ｃと同一形式と判定されている。従って、本来であれば、抽出結果情報記憶部６に登録されている帳票Ｃに対応する抽出結果情報を当該帳票の形式において基準となるキーバリュー抽出結果とした場合、帳票Ａにおける文字（つまり、キー及びバリュー）は、その基準となるキーバリュー抽出結果を用いて抽出することができるはずである。しかしながら、帳票の識別ができた場合でもスキャナの読取精度等の関係から帳票Ａ及び帳票Ｃそれぞれに形成されている同じ文字の位置にずれが生じている場合がある。この場合、帳票Ａにおける文字は、帳票Ｃに対応する抽出結果情報、つまり帳票Ｃの位置情報を利用しても正しく抽出することができなくなる。そこで、本実施の形態においては、同一形式における帳票間の位置ずれを補正できるようにした。

【0061】

以下、本実施の形態における位置ずれ補正処理を図６に示すフローチャートを用いて説明する。

【0062】

まず、位置ずれ補正処理においては、帳票Ａが第１文書であって前述した補正帳票に相当し、帳票Ｃが第２文書であって前述した基準帳票に相当する。位置ずれ補正処理の説明では、「基準帳票」及び「補正帳票」を使用して説明する。また、基準帳票に対応するキーバリュー抽出結果を「基準キーバリュー抽出結果」と称し、補正帳票に対応するキーバリュー抽出結果を「補正キーバリュー抽出結果」と称することにする。相互に区別する必要がない場合は、単に「キーバリュー抽出結果」と称する。また、前述したように、文字（つまり、キー及びバリュー）の帳票上における位置は、キーバリュー抽出結果に含まれる座標情報を参照することで特定できるので、位置ずれ補正処理で用いる位置情報というのは、狭義の位置情報を意味している。つまり、座標情報に等しい。

【0063】

基準帳票及び補正帳票の関係のように同じ形式の帳票の場合、キーは同じ文字となる。ただ、バリューは、同じ文字になるとは限らない。例えば、「請求金額」というキーに対して、実際の額面を示すバリューの文字は、同じ文字になるとは限らない。しかしながら、バリューに対応する矩形領域の左上の座標情報は、基準帳票と補正帳票とで一致するはずなので、バリューを示す文字は異なっても、バリューを示す文字の位置は同じはずである。従って、位置ずれ補正処理においては、バリューのように同じ位置となる文字の組は、基準帳票と補正帳票の両方で検出される文字に該当する。

【0064】

前述したように、補正帳票の位置ずれは、スキャナによる帳票の読み取りによって発生しうるが、文字の形成位置がずれる原因として、基準帳票に対し、補正帳票を形成する画像データ全体が拡縮によりずれる場合と補正帳票を形成する画像データ全体がいずれかの方向に平行移動する場合とが考えられる。本実施の形態では、この２種類の文字の形成位置のずれに対処している。

【0065】

位置ずれ補正処理部３４は、基準帳票及び補正帳票それぞれに対応するキーバリュー抽出結果を取得する（ステップ１１１）。基準帳票のキーバリュー抽出結果は、キーバリュー抽出結果データベース５から取得してもよいし、抽出結果情報記憶部６に登録されている抽出結果情報を取得してもよい。

【0066】

続いて、位置ずれ補正処理部３４は、基準帳票及び補正帳票それぞれに対応するキーバリュー抽出結果を参照して、基準帳票及び補正帳票それぞれに含まれている同じ文字を抽出し、抽出した各文字の位置情報からコサイン類似度を計算する（ステップ１１２）。このように、位置ずれ補正処理部３４は、同じ文字毎にコサイン類似度を計算する。

【0067】

続いて、位置ずれ補正処理部３４は、算出した各文字のコサイン類似度を所定の閾値（例えば、０．９５）と比較する。比較した結果、全てのコサイン類似度が閾値以上の場合（ステップ１１３でＹ）、補正帳票は基準帳票に対して拡縮されていることによって文字の位置ずれが生じていると判断し、拡縮に伴うずれに対応する補正方法によって補正帳票に含まれる所定の複数の文字（すなわち、キー及びバリュー）の位置情報を補正する。

【0068】

図７は、基準帳票と補正帳票を概略的に示す図であり、補正帳票が基準帳票に対して拡縮されている場合において、どのように補正するのかについての説明に用いる図である。図７には、特に補正帳票が拡大されている場合の例が示されている。そして、図７では、３つの文字を便宜的に黒丸にて示しているが、基準帳票の文字Ａ，Ｂ，Ｃと補正帳票の文字Ａ´，Ｂ´，Ｃ´は、それぞれ同じ文字である。なお、各文字の組（ＡとＡ´、ＢとＢ´、ＣとＣ´）を示す場合には、文字ａ，ｂ，ｃと小文字にて記載する。

【0069】

ここでは、コサイン類似度を“Ｃｏｓ（ｎ，ｎ´）”という関数で表すことにする。但し、ｎは基準帳票における文字の位置情報であり、ｎ´は補正帳票における文字の位置情報である。

【0070】

例えば、コサイン類似度が
Ｃｏｓ（Ａ，Ａ´）＝１．００
Ｃｏｓ（Ｂ，Ｂ´）＝１．００
Ｃｏｓ（Ｃ，Ｃ´）＝１．００
であったとする。この場合、全ての文字のコサイン類似度が閾値以上となることから、補正帳票は拡縮されたと判断されることになる。拡縮されている場合、文字Ａ´，Ｂ´，Ｃ´の位置は、文字Ａ，Ｂ，Ｃの位置とずれていることから、補正帳票上の文字Ａ´，Ｂ´，Ｃ´は、基準帳票と同じ形式であると識別されていても基準キーバリュー抽出結果を用いて補正帳票上から文字Ａ´，Ｂ´，Ｃ´を抽出することはできない。

【0071】

そこで、各文字ａ，ｂ，ｃの中からコサイン類似度が最大値となる文字を特定する。ここでは、全ての文字ａ，ｂ，ｃともコサイン類似度は１．００と最大値であることから、どの文字に特定してもよい。ここでは、文字ｃに特定したものとして説明する。

【0072】

位置ずれ補正処理部３４は、基準帳票において文字Ｃの中心座標からの大きさ（つまり、ベクトル長）Ｌ及び補正帳票において文字Ｃ´の中心座標からの大きさＬ´を取得する。つまり、大きさＬは、基準帳票における中心位置（つまり、中心座標（０，０））と文字Ｃの位置の間の距離を示す。同様に、大きさＬ´は、補正帳票における中心位置（つまり、中心座標（０，０））と文字Ｃ´の位置の間の距離を示す。そして、位置ずれ補正処理部３４は、拡縮率（Ｌ´／Ｌ）を算出する（ステップ１１４）。つまり、補正帳票は、基準帳票に対して（Ｌ´／Ｌ）倍拡縮されていることになる。従って、補正帳票の文字Ｃ´の位置情報（座標（Ｘ）、座標（Ｙ））をそれぞれ逆数倍（Ｌ／Ｌ´）、すなわちＸ＊（Ｌ／Ｌ´）、Ｙ＊（Ｌ／Ｌ´）と計算することで、補正帳票の文字Ｃ´の位置情報を補正する。他の文字Ａ´，Ｂ´においても同様に補正する（ステップ１１５）。

【0073】

このように、位置ずれ補正処理部３４は、コサイン類似度を利用して特定した文字ｃに基づき算出した拡縮率を用いて、補正帳票の文字Ａ´，Ｂ´，Ｃ´の位置情報を補正する。これにより、基準キーバリュー抽出結果に含まれる位置情報を用いて補正帳票上の文字Ａ´，Ｂ´，Ｃ´を抽出することができるようになる。

【0074】

一方、位置ずれ補正処理部３４は、算出した各文字のコサイン類似度を所定の閾値と比較した結果、全てのコサイン類似度が閾値以上でない場合（ステップ１１３でＮ）、補正帳票は基準帳票に対して画像データが平行移動されて文字の位置ずれが生じていると判断し、帳票への形成位置のずれに対応する補正方法によって補正帳票に含まれる所定の複数の文字の位置情報を補正する。

【0075】

図８は、基準帳票と補正帳票を概略的に示す図であり、補正帳票が基準帳票に対して位置がずれている場合において、どのように補正するのかについての説明に用いる図である。図８には、特に補正帳票が基準帳票に対して図面右側（Ｘ軸方向）にずれている場合の例が示されている。そして、図８では、図７と同様に３つの文字を黒丸にて示しており、基準帳票の文字Ａ，Ｂ，Ｃと補正帳票の文字Ａ´，Ｂ´，Ｃ´は、同じ文字である。

【0076】

例えば、コサイン類似度が
Ｃｏｓ（Ａ，Ａ´）＝０．８５
Ｃｏｓ（Ｂ，Ｂ´）＝０．８３
Ｃｏｓ（Ｃ，Ｃ´）＝１．００
であったとする。この場合、全ての文字のコサイン類似度が閾値以上でないことから、補正帳票は基準帳票に対して位置がずれていると判断されたことになる。位置ずれが生じている場合、文字Ａ´，Ｂ´，Ｃ´の位置は、文字Ａ，Ｂ，Ｃの位置とずれていることから、補正帳票上の文字Ａ´，Ｂ´，Ｃ´は、基準帳票と同じ形式であると識別されていても基準キーバリュー抽出結果を用いて補正帳票上から文字Ａ´，Ｂ´，Ｃ´を抽出することはできない。

【0077】

そこで、位置ずれ補正処理部３４は、コサイン類似度が閾値以上であってコサイン類似度が最大となる文字を特定する。ここでは、文字ｃだけが閾値以上であるから、コサイン類似度が最大値となる文字は、文字ｃと選定する（ステップ１１６）。

【0078】

続いて、位置ずれ補正処理部３４は、文字Ｃと文字Ｃ´のずれ量を算出する（ステップ１１７）。ここで、ずれ量の詳細について図９を用いて説明する。

【0079】

図９において、文字Ｄの位置は、Ｘ軸からの角度、すなわち向きがθ１で、大きさ、すなわち長さがＬのベクトルで表される。大きさＬは、基準帳票における中心位置（つまり、中心座標（０，０））と文字Ｄの位置の間の距離を示す。基準キーバリュー抽出結果における座標情報は（ｘ１，ｙ１）である。一方、文字Ｄ´の位置は、Ｘ軸からの角度、すなわち向きがθ２で、大きさ、すなわち長さがＬ´のベクトルで表される。大きさＬ´は、補正帳票における中心位置（つまり、中心座標（０，０））と文字Ｄ´の位置の間の距離を示す。補正帳票に対応するキーバリュー抽出結果における座標情報は（ｘ２，ｙ２）である。

【0080】

なお、図９において、｜θ２－θ１｜がコサイン類似度となる。従って、Ｃｏｓθ＝コサイン類似度を解くことによって文字Ｄと文字Ｄ´とのずれた角度θが算出できる。この場合、ずれた方向（図９におけるｕ方向又はｄ方向）は、特定できないが、文字Ｄ及び文字Ｄ´の座標情報を対比することで特定できる。

【0081】

ここで、ずれた大きさは（Ｌ－Ｌ´）という中心座標からの大きさの差分で表されるが、これは、Ｘ成分（ｘ１－ｘ２）とＹ成分（ｙ１－ｙ２）という差分にそれぞれ分解できる。すなわち、文字Ｄ´の座標（Ｘ）は、ずれ量（ｘ１－ｘ２）を加算することで（ｘ２＋（ｘ１－ｘ２））と補正し、文字Ｄ´の座標（Ｙ）は、ずれ量（ｙ１－ｙ２）を加算することで（ｙ２＋（ｙ１－ｙ２）と補正することで、文字Ｄ´における座標情報を補正することができる。

【0082】

文字の位置ずれは、帳票の形成位置全体の平行移動に伴うずれであることから、他の文字においても上記のようにして求めたずれ量より補正する。すなわち、他の文字の座標（Ｘ）に（ｘ１－ｘ２）を加算し、座標（Ｙ）に（ｙ１－ｙ２）を加算することによって、他の文字における座標情報を補正する。図８の場合、文字Ａ´，Ｂ´，Ｃ´を、文字ａ，ｂ，ｃそれぞれの組の座標情報によって別個に求めたずれ量によって各文字Ａ´，Ｂ´，Ｃ´の座標情報を補正してもよいが、同じずれ量によって補正することにより、補正帳票を歪ませることなく補正することが可能となる。

【0083】

図８において、本来、文字ｃのベクトル長は、Ｌであるはずのところが、位置ずれによってＬ´となっていることから、文字Ｃ´の位置のずれた大きさは、前述したように（Ｌ－Ｌ´）と差をとることで算出できる。ところで、基準帳票の基準キーバリュー抽出結果及び補正帳票のキーバリュー抽出結果を参照すると、各文字Ｃ，Ｃ´の位置情報における座標（Ｙ）は共に０であることから、各文字Ｃ，Ｃ´は共に図８に示すようにＸ軸上に存在するとする。つまり、中心位置からの文字Ｃ´の方向は、中心位置からの文字Ｃの方向と同じであってＹ軸方向にずれていない。従って、文字Ａ´，Ｂ´，Ｃ´の各座標（Ｘ）に対しては、（Ｌ－Ｌ´）を加算することによって補正する。文字Ａ´，Ｂ´，Ｃ´の各座標（Ｙ）に対しては、ずれていないことから補正をする必要はない。このようにして、文字Ａ´，Ｂ´，Ｃ´における座標情報を補正することができる。

【0084】

なお、位置ずれ補正処理においては、基準帳票及び補正帳票それぞれに含まれている同じ文字の位置情報からコサイン類似度を算出するが、算出したコサイン類似度が所定の閾値に満たない場合、当該文字の位置情報を参照しないようにしてもよい。

【0085】

以上のようにして、必要により位置ずれ補正処理を実施すると、続いて、自動訂正部３３１は、必要により自動訂正を行う。ここでは、図５に示す例に戻り、ステップ１０１において取得した処理対象の帳票を「帳票Ａ」、抽出結果情報が抽出結果情報記憶部６に登録されている、帳票Ａと同一と判定された帳票を「帳票Ｃ」として説明する。

【0086】

帳票Ｃの訂正後抽出結果情報が抽出結果情報記憶部６に登録されていなければ、自動訂正処理を実施する必要はないが、帳票Ｃの訂正後抽出結果情報が登録されている場合、抽出結果情報編集部３３における自動訂正部３３１は、第１文書としての帳票Ｃの訂正後抽出結果情報を取得し、その訂正後抽出結果情報に従って第３文書としての帳票Ａのキーバリュー抽出結果を訂正する（ステップ１０６）。

【0087】

帳票Ｃに対するキーバリュー抽出処理（ステップ１０２）で自動抽出した文字の位置が正しくない場合に、その文字の位置がステップ１０８においてユーザにより手動にて訂正されている。つまり、帳票Ａに対して実施されたキーバリュー抽出処理（ステップ１０２）において自動抽出された文字であって帳票Ｃにおいて正しくないため位置が訂正された文字と同じ文字は、ステップ１０８においてユーザにより手動にて訂正される対象となるはずである。

【0088】

そこで、本実施の形態においては、キーバリュー抽出処理に基づく訂正前抽出結果情報とユーザによる訂正に基づく訂正後抽出結果情報とを対応付けして記憶しておき、ステップ１０８においてユーザに訂正させるのではなく、ステップ１０６において訂正後抽出結果情報により帳票Ａのキーバリュー抽出結果を自動的に訂正するようにした。これにより、ユーザによる文字の位置の訂正の手間を省くことができる。

【0089】

自動訂正をした後、自動訂正部３３１は、帳票Ａにおいて訂正前の文字の位置情報と、訂正後の文字の位置情報とからコサイン類似度を計算してみる。そして、算出したコサイン類似度が所定の閾値以上の場合、自動訂正部３３１は、帳票Ａにおける文字の位置の自動訂正を取り消す。訂正前後の位置が同一と判定されたため、あえて訂正する必要がないからである。むしろ、文字の位置を誤って訂正される可能性があるからである。

【0090】

自動訂正部３３１が帳票Ｃの訂正後抽出結果情報に基づき帳票Ａの文字の位置を有効に訂正すると、文字認識処理部３３２は、帳票Ａの訂正後抽出結果情報から特定されるキー及びバリューの位置、すなわちキー及びバリューが存在する正しい位置に文字認識処理を実施することでキー及びバリューを正しく抽出する（ステップ１０７）。

【0091】

基本的には、以上の処理により帳票Ａに対しては、正しいキーバリュー抽出結果が得られると推測されるが、例えば、バリューの位置は正しくても、矩形領域が小さいと文字を正しく抽出できない可能性が生じてくる。例えば、住所というキーに対応するバリューの場合、住所の表記が長くて住所を構成する全ての文字を抽出結果情報で設定された矩形領域では抽出できなくなる可能性がある。そこで、本実施の形態では、編集処理部３３３に、帳票Ａに含まれている文字の位置情報を編集可能に表示させ、手動による訂正を可能にする（ステップ１０８）。ここで、ユーザにより編集された場合、この編集結果に基づき訂正後抽出結果情報を更新する。そして、編集処理部３３３は、この訂正後抽出結果情報と、帳票Ａのキーバリュー抽出結果を訂正前抽出結果情報とを対応付けて抽出結果情報記憶部６に登録する（ステップ１０９）。

【0092】

このように、はじめて取得される形式の帳票の抽出結果情報は、単独で抽出結果情報記憶部６に登録されうるが、上記例示した帳票Ａのように、はじめてでない形式の帳票の抽出結果情報は、訂正前抽出結果情報と訂正後抽出結果情報とが組にして登録される。

【0093】

この場合、同一形式の帳票の抽出結果情報が抽出結果情報記憶部６に登録されることになる。そして、新たに帳票識別処理の対象となる帳票（例えば、帳票Ｆ）の形式が、帳票Ａ，Ｃと同じ場合、ステップ１０３においては、算出したコサイン類似度が所定の閾値以上となる帳票として帳票Ａ及び帳票Ｃの双方が帳票Ｆの形式と同一であると判定されることになる。ただ、この場合は、いずれか一方の帳票の抽出結果情報を用いてステップ１０６以降の処理を実施すればよい。例えば、コサイン類似度が最大となる帳票に対応する抽出結果情報を用いるようにしてもよい。

【0094】

以上説明したように、本実施の形態においては、キーバリュー抽出結果を参照し、コサイン類似度を利用して帳票の同一性を判定し、また、キーバリュー抽出結果を必要により訂正できるようにして同一性の識別精度を向上できるようにした。

【0095】

ところで、キーバリュー抽出処理（ステップ１０２）において、全てのキー及びバリューが正確に抽出できていても、更にキー又はバリューと誤認して不要な文字をも抽出している可能性がある。そこで、帳票識別部３２は、前述した同一性の判定のためにコサイン類似度を算出する前に、帳票（上記帳票Ａ）のキーバリュー抽出部３１によるキーバリュー抽出結果及び帳票Ａと比較される帳票（上記帳票Ｂ～Ｅ）の訂正前抽出結果情報それぞれに含まれている同じ文字を抽出し、抽出した各文字の位置情報からコサイン類似度を計算する。そして、算出したコサイン類似度が所定の閾値に満たない場合、帳票識別部３２は、当該文字の位置情報を同一性の判定に用いるコサイン類似度の算出に使用しない。つまり、算出したコサイン類似度が所定の閾値に満たない文字の位置情報を除外してコサイン類似度を計算し、その算出結果に基づき比較対象の帳票の同一性を判定する（ステップ１０３）。

【0096】

この場合、帳票識別部３２は、比較する帳票から抽出した文字、すなわち同じ文字の位置情報から算出したコサイン類似度の算出結果が所定の閾値に満たない文字の位置を編集可能に表示させる。これにより、キー又はバリューと誤認されて抽出された文字の位置を訂正させたり、キー又はバリューとしての文字から除外させたりするなどの修正をユーザに行わせることができる。

【0097】

以上説明したように、本実施の形態によれば、帳票上にロゴマーク類がなくても帳票の形式の同一性を判定することができ、これにより帳票を識別することができる。また、比較する帳票の一方に位置ずれがあったとしても、その位置ずれを補正することでキー及びバリューを正しく抽出することができるようになる。

【0098】

上記実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス等）を含むものである。

【0099】

また上記実施の形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

【符号の説明】

【0100】

１情報処理装置、２帳票取得部、３帳票解析処理部、４帳票データベース（ＤＢ）、５キーバリュー抽出結果データベース（ＤＢ）、６抽出結果情報記憶部、３１キーバリュー抽出部、３２帳票識別部、３３抽出結果情報編集部、３４補正処理部、３３１自動訂正部、３３２文字認識処理部、３３３編集処理部。

【図1】