IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネットスマイル株式会社の特許一覧

特許7561378書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
<>
  • 特許-書類画像処理システム、書類画像処理方法、および書類画像処理プログラム 図1
  • 特許-書類画像処理システム、書類画像処理方法、および書類画像処理プログラム 図2
  • 特許-書類画像処理システム、書類画像処理方法、および書類画像処理プログラム 図3
  • 特許-書類画像処理システム、書類画像処理方法、および書類画像処理プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-26
(45)【発行日】2024-10-04
(54)【発明の名称】書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
(51)【国際特許分類】
   G06V 30/412 20220101AFI20240927BHJP
【FI】
G06V30/412
【請求項の数】 6
(21)【出願番号】P 2021085715
(22)【出願日】2021-05-20
(65)【公開番号】P2022178723
(43)【公開日】2022-12-02
【審査請求日】2023-12-05
(73)【特許権者】
【識別番号】514253459
【氏名又は名称】ネットスマイル株式会社
(74)【代理人】
【識別番号】100114971
【弁理士】
【氏名又は名称】青木 修
(72)【発明者】
【氏名】齊藤 福光
【審査官】菊池 伸郎
(56)【参考文献】
【文献】特開2021-64209(JP,A)
【文献】特開2019-12346(JP,A)
【文献】特開2020-16946(JP,A)
【文献】平山淳一, 外3名,"仮説検証型アプローチを用いた定義レス非定型帳票認識技術",電子情報通信学会論文誌,日本,電子情報通信学会,2014年12月01日,第J97-D巻, 12号,pp.1797-1808
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00-7/90
G06V 10/00-40/70
(57)【特許請求の範囲】
【請求項1】
書類画像を取得する書類画像取得部と、
前記書類画像内の文字画像集合を抽出し前記文字画像集合のテキストデータを生成するテキストデータ生成部と、
前記テキストデータに対応する特徴ベクトルを生成する特徴ベクトル生成部と、
(a)前記テキストデータから、特定属性についての1または複数の属性ラベル候補を検出し、(b)前記テキストデータから、1または複数の属性値候補を検出し、(c)前記属性ラベル候補と前記属性値候補とのペアをペア候補として検出し、(d)前記ペア候補から、前記特定属性についての属性ラベルと属性値とのペアを選択するラベル値ペア特定部とを備え、
前記ラベル値ペア特定部は、(a)前記テキストデータの特徴ベクトルに基づいて、前記テキストデータから、前記特定属性についての前記属性ラベル候補を検出し、(b)前記属性ラベル候補の特徴ベクトルおよび前記属性値候補の特徴ベクトルに基づいて前記ペアを特定すること、
を特徴とする書類画像処理システム。
【請求項2】
前記特徴ベクトル生成部は、所定のワードエンベティング方法で前記テキストデータに対応する特徴ベクトルを生成するとともに、前記所定のワードエンベティング方法で前記特定属性の名称の特徴ベクトルを生成し、
前記ラベル値ペア特定部は、前記特定属性の名称の特徴ベクトルと前記テキストデータの特徴ベクトルとの距離に基づいて、前記属性ラベル候補を検出すること、
を特徴とする請求項1記載の書類画像処理システム。
【請求項3】
前記ラベル値ペア特定部は、(a)前記書類画像における前記属性ラベル候補の文字集合画像の位置と前記属性値候補の文字集合画像の位置との対応関係と、(b)前記属性ラベル候補の特徴ベクトルおよび前記属性値候補の特徴ベクトルに基づく前記属性ラベル候補と前記属性値候補との関連度または類似度とに基づいて前記ペア候補のスコアリングを行うことで前記ペア候補のスコアを導出し、前記スコアに基づいて、前記ペア候補から前記ペアを選択することを特徴とする請求項1記載の書類画像処理システム。
【請求項4】
前記テキストデータ生成部は、前記特定属性に対応する前記書類画像内の領域の位置を指定するテンプレートデータを使用せずに、前記書類画像内の文字画像集合を抽出することを特徴とする請求項1から請求項3のうちのいずれか1項記載の書類画像処理システム。
【請求項5】
書類画像を取得する書類画像取得ステップと、
前記書類画像内の文字画像集合を抽出し前記文字画像集合のテキストデータを生成するテキストデータ生成ステップと、
前記テキストデータに対応する特徴ベクトルを生成する特徴ベクトル生成ステップと、
(a)前記テキストデータから、特定属性についての1または複数の属性ラベル候補を検出し、(b)前記テキストデータから、1または複数の属性値候補を検出し、(c)前記属性ラベル候補と前記属性値候補とのペアをペア候補として検出し、(d)前記ペア候補から、前記特定属性についての属性ラベルと属性値とのペアを選択するラベル値ペア特定ステップとを備え、
前記ラベル値ペア特定ステップでは、(a)前記テキストデータの特徴ベクトルに基づいて、前記テキストデータから、前記特定属性についての前記属性ラベル候補を検出し、(b)前記属性ラベル候補の特徴ベクトルおよび前記属性値候補の特徴ベクトルに基づいて前記ペアを特定すること、
を特徴とする書類画像処理方法。
【請求項6】
コンピュータを、
書類画像を取得する書類画像取得部、
前記書類画像内の文字画像集合を抽出し前記文字画像集合のテキストデータを生成するテキストデータ生成部、
前記テキストデータに対応する特徴ベクトルを生成する特徴ベクトル生成部、並びに、
(a)前記テキストデータから、特定属性についての1または複数の属性ラベル候補を検出し、(b)前記テキストデータから、1または複数の属性値候補を検出し、(c)前記属性ラベル候補と前記属性値候補とのペアをペア候補として検出し、(d)前記ペア候補から、前記特定属性についての属性ラベルと属性値とのペアを選択するラベル値ペア特定部として機能させ、
前記ラベル値ペア特定部は、(a)前記テキストデータの特徴ベクトルに基づいて、前記テキストデータから、前記特定属性についての前記属性ラベル候補を検出し、(b)前記属性ラベル候補の特徴ベクトルおよび前記属性値候補の特徴ベクトルに基づいて前記ペアを特定すること、
を特徴とする書類画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、書類画像処理システム、書類画像処理方法、および書類画像処理プログラムに関するものである。
【背景技術】
【0002】
ある文書認識システムは、特定の属性の記述位置を指定するテンプレート情報を使用して、文書画像内のその属性についての画像を抽出し、文字認識処理(OCR処理)でそのテキストデータを取得しており、さらに、その属性の文字列および位置に基づいて、その属性についてのOCR要素(属性、属性値(項目値)、位置、並びにOCRスコアおよび位置スコアなど)を計算し、それらのスコアに基づいてOCR要素から代表OCR要素を選択し、代表OCR要素の属性および属性値から文書サマリ情報を生成し、上述のスコアから特徴ベクトルを生成し、特徴ベクトルに基づいてその文書サマリ情報の信頼性を評価している(例えば特許文献1参照)。
【0003】
また、ある帳票識別システムでは、帳票フォーマットテーブルが予めユーザにより作成されており、帳票フォーマットテーブルには、ユーザにより指定された文字認識対象領域の位置、サイズ、文字種などを示すフィールド情報が含まれている。そして、この帳票フォーマット(つまり、フィールド情報)に基づいて、帳票画像の画像データから、帳票内の文字情報(テキストデータ)が取得されている(例えば特許文献2参照)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-86984号公報
【文献】特開2016-48444号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述の技術では、帳票などの書類のレイアウト(各属性が記述されている位置の情報など)を指定するテンプレートデータを使用するため、レイアウトの異なる複数の書類を処理するためには、レイアウトごとにテンプレートデータを予め作成しておかなければならず、事前に煩雑な作業が要求される。また、レイアウトが未知である書類については、上述の技術では、ある属性について書類画像内の属性値を正確に検出することは困難である。
【0006】
本発明は、上記の問題に鑑みてなされたものであり、書類画像内である属性についての記述位置を指定するテンプレートデータを使用せずに、ある属性の属性値を正確に特定する書類画像処理システム、書類画像処理方法、および書類画像処理プログラムを得ることを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る書類画像処理システムは、書類画像を取得する書類画像取得部と、その書類画像内の文字画像集合を抽出しその文字画像集合のテキストデータを生成するテキストデータ生成部と、そのテキストデータに対応する特徴ベクトルを生成する特徴ベクトル生成部と、(a)そのテキストデータから、特定属性についての1または複数の属性ラベル候補を検出し、(b)そのテキストデータから、1または複数の属性値候補を検出し、(c)属性ラベル候補と属性値候補とのペアをペア候補として検出し、(d)ペア候補から、特定属性についての属性ラベルと属性値とのペアを選択するラベル値ペア特定部とを備える。そして、ラベル値ペア特定部は、(a)上述のテキストデータの特徴ベクトルに基づいて、上述のテキストデータから、特定属性についての属性ラベル候補を検出し、(b)属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルに基づいて上述のペアを特定する。
【0008】
本発明に係る書類画像処理方法は、書類画像を取得する書類画像取得ステップと、その書類画像内の文字画像集合を抽出しその文字画像集合のテキストデータを生成するテキストデータ生成ステップと、そのテキストデータに対応する特徴ベクトルを生成する特徴ベクトル生成ステップと、(a)そのテキストデータから、特定属性についての1または複数の属性ラベル候補を検出し、(b)そのテキストデータから、1または複数の属性値候補を検出し、(c)属性ラベル候補と属性値候補とのペアをペア候補として検出し、(d)ペア候補から、特定属性についての属性ラベルと属性値とのペアを選択するラベル値ペア特定ステップとを備える。そして、ラベル値ペア特定ステップでは、(a)上述のテキストデータの特徴ベクトルに基づいて、上述のテキストデータから、特定属性についての属性ラベル候補を検出し、(b)属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルに基づいて上述のペアを特定する。
【0009】
本発明に係る書類画像処理プログラムは、コンピュータを、上述の書類画像取得部、テキストデータ生成部、特徴ベクトル生成部、およびラベル値ペア特定部として機能させる。
【発明の効果】
【0010】
本発明によれば、書類画像内である属性についての記述位置を指定するテンプレートデータを使用せずに、ある属性の属性値を正確に特定する書類画像処理システム、書類画像処理方法、および書類画像処理プログラムが得られる。
【0011】
本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。
【図面の簡単な説明】
【0012】
図1図1は、本発明の実施の形態に係る書類画像処理システムの構成を示すブロック図である。
図2図2は、書類画像の一例を示す図である。
図3図3は、図2に示す書類画像から抽出される文字画像集合の一例を示す図である。
図4図4は、図1に示す書類画像処理システムの動作を説明するフローチャートである。
【発明を実施するための形態】
【0013】
以下、図に基づいて本発明の実施の形態を説明する。
【0014】
図1は、本発明の実施の形態に係る書類画像処理システムの構成を示すブロック図である。図1に示す書類画像処理システムは、1台の情報処理装置(パーソナルコンピュータ、サーバなど)で構成されているが、後述の処理部を、互いにデータ通信可能な複数の情報処理装置に分散させてもよい。また、そのような複数の情報処理装置には、特定の演算を並列処理するGPU(Graphics Processing Unit)が含まれていてもよい。
【0015】
図1に示す書類画像処理システムは、記憶装置1、通信装置2、画像読取装置3、および演算処理装置4を備える。
【0016】
記憶装置1は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。
【0017】
ここでは、記憶装置1には、書類画像処理プログラム11およびユーザ設定データ12が格納されており、また、システム設定データ(後述の各処理部に使用されるニューラルネットワークの係数設定値など)が必要に応じて格納される。なお、書類画像処理プログラム11は、CD(Compact Disk)などの可搬性のあるコンピュータ読み取り可能な記録媒体に格納されていてもよい。その場合、例えば、その記録媒体から記憶装置1へプログラム11がインストールされる。また、プログラム11は、1つのプログラムでも、複数のプログラムの集合体でもよい。また、ユーザ設定データ12は、後述のユーザにより指定される特定属性を示すデータである。
【0018】
通信装置2は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。画像読取装置3は、書類から書類画像を光学的に読み取り、書類画像の画像データ(ラスタイメージデータなど)を生成する。なお、通信装置2および画像読取装置3は、必要に応じて設けられる。
【0019】
演算処理装置4は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピュータであって、プログラムを、ROM、記憶装置1などからRAMにロードしCPUで実行することで、各種処理部として動作する。
【0020】
ここでは、プログラム11を実行することで、演算処理装置4は、書類画像取得部21、テキストデータ生成部22、特徴ベクトル生成部23、ラベル値ペア特定部24、データ出力部25、および機械学習処理部26として動作する。
【0021】
書類画像取得部21は、ラスターイメージデータなどの画像データとして書類画像を取得する。書類画像は、領収書(レシートを含む)、請求書、納品書などの帳票類、宣伝広告や告知などのチラシ、回答済みアンケート用紙、健康診断書などといった、1または複数の属性(記載項目など)についての属性ラベル(見出しなどのテキスト)と属性値(数値、その他の文字列などのテキスト)とを含む書類の画像である。例えば、書類画像取得部21は、記憶装置1に格納されている画像データとしての書類画像を読み出したり、ネットワークなどの通信路を介して通信装置2により受信された画像データとしての書類画像を取得したり、画像読取装置3により生成された画像データとしての書類画像を取得したりする。
【0022】
テキストデータ生成部22は、取得された書類画像内の文字画像集合を抽出しその文字画像集合のテキストデータを生成する。
【0023】
具体的には、テキストデータ生成部22は、(a)書類画像内の文字以外のオブジェクト(写真オブジェクト、図形オブジェクト、罫線オブジェクトなど)を除外して文字オブジェクトを検出し、(b)各文字オブジェクトの位置に基づいて、「単語」、「行」、「段落」などの単位にグルーピングして文字画像集合を抽出し、(c)文字認識処理(OCR処理)を実行して、その文字画像集合のテキストデータ(つまり文字コード列)を生成する。
【0024】
テキストデータ生成部22は、既存の技術(例えば、領域分離処理や、機械学習されたディープニューラルネットワークなど)を使用して、書類画像内の文字オブジェクトを抽出する。
【0025】
なお、この実施の形態では、テキストデータ生成部22は、特定属性(ここでは、ユーザにより指定される属性)に対応する書類画像内の領域の位置(つまり、属性ラベルおよび属性値の記述位置)を指定するテンプレートデータを使用せずに、書類画像内の文字画像集合を抽出し、OCR処理で、その文字画像集合のテキストデータを生成する。
【0026】
この特定属性は、ユーザによりテキストデータで指定され、ユーザ設定データ12として当該システムに入力される。例えば、ユーザ設定データ12は、書類画像の画像データとともに通信装置12で受信されたり、図示せぬユーザインターフェイスによって、直接的に入力される。
【0027】
特徴ベクトル生成部23は、テキストデータ生成部22により生成された1または複数のテキストデータのそれぞれに対応する特徴ベクトルを生成する。
【0028】
例えば、特徴ベクトル生成部23は、所定のワードエンベディング方法で、文字画像集合のテキストデータを特徴ベクトル(例えば単語ベクトル)に変換する。上述のワードエンベディング方法は例えばWord2vec(Skip-Gramモデル)などであり、特徴ベクトル生成部23は、そのワードエンベディング方法のために予め機械学習されている変換部を備える。変換部は、例えばニューラルネットワークを備え、そのニューラルネットワークでテキストデータを特徴ベクトルに変換する。
【0029】
ラベル値ペア特定部24は、ユーザ所望の属性(ここでは、特定属性)についての属性ラベル(属性の名称を示すテキストデータ)と属性値(属性の値を示すテキストデータ)とのペアを特定する。具体的には、ラベル値ペア特定部24は、(a)上述のテキストデータから、特定属性についての1または複数の属性ラベル候補を検出し、(b)上述のテキストデータから、1または複数の属性値候補を検出し、(c)検出した属性ラベル候補と検出した属性値候補とのペアをペア候補として検出し、(d)そのペア候補から、その特定属性についての属性ラベルと属性値とのペア(つまり、ユーザ所望の属性に関する属性値)を特定する。
【0030】
具体的には、ラベル値ペア特定部24は、(a)上述のテキストデータの特徴ベクトルに基づいて、上述のテキストデータから、特定属性についての属性ラベル候補を検出し、(b)属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルに基づいて、上述のペアを特定する。
【0031】
なお、ラベル値ペア特定部24は、スコアが所定閾値未満のペア候補については、ペア候補(ペア)から除外するようにしてもよい。
【0032】
この実施の形態では、特徴ベクトル生成部23は、上述の特定属性の名称(ここでは、ユーザにより指定される属性の名称)の特徴ベクトルを上述のテキストデータの特徴ベクトルと同様にして導出し、ラベル値ペア特定部24は、その特定属性の名称(特定属性としてユーザに指定されるテキストデータ)の特徴ベクトルと上述のテキストデータの特徴ベクトルとの距離(つまり、特定属性の名称とそのテキストデータとの関連度あるいは類似度)に基づいて、属性ラベル候補を検出する。
【0033】
具体的には、ラベル値ペア特定部24は、その距離が所定閾値未満であるテキストデータを属性ラベル候補として検出する。例えば、ラベル値ペア特定部24は、所定の演算式などで、その距離から、その距離に対応するスコアを導出し、スコアと所定閾値とを比較して属性ラベル候補を検出する。例えば、このスコアは、所定範囲(ここでは、0~1の範囲)の値を取り、両者が同一である場合、スコアが1となり、両者が全く関連しない場合、スコアが0となる。また、特定属性の名称と上述のテキストデータとの関連度あるいは類似度が強いほど、それらの距離が短くなるように、上述の変換部は機械学習されている。
【0034】
また、属性ラベル候補に対応してペア候補を構成する属性値候補としては、例えば、両者の物理的距離(つまり、書類画像における両者の文字画像集合の位置の間の距離)が所定閾値以下となるものが選択される。
【0035】
なお、属性値候補は数値(数値を示す文字列)に限定されるものではなく、数値以外を示す文字列(単語、文章など)でもよい。
【0036】
また、この実施の形態では、ラベル値ペア特定部24は、(a)書類画像における属性ラベル候補の文字集合画像の位置と属性値候補の文字集合画像の位置との対応関係と、(b)属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルに基づく属性ラベル候補と属性値候補との(意味上の)関連度または類似度とに基づいて、ペア候補のスコアリングを行うことで各ペア候補のスコアを導出し、そのスコアに基づいて、ペア候補からペアを選択する。
【0037】
例えば、上述のスコアは、両者の位置が近いほどスコアが高くなり、かつ、両者の関連度または類似度が高いほどスコアが高くなるように、所定の演算式で導出され、所定閾値を超えたスコアを有するペア候補かつ/または最も高いスコアを有するペア候補がペアとして選択される。
【0038】
例えば、上述の関連度は、関連性(例えば共起性)が強いほど関連度が高くなるように、属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルから所定の演算式(例えば機械学習で得られる演算式)で導出される。例えば、上述の類似度は、両者の特徴ベクトル間の距離に基づいて所定の演算式(例えば機械学習で得られる演算式)で導出される。
【0039】
また、ペア候補における属性ラベル候補の文字集合画像の位置と属性値候補の文字集合画像の位置との対応関係については、属性ラベル候補の文字集合画像の位置から属性値候補の文字集合画像の位置への方向、あるいは、属性値候補の文字集合画像の位置から属性ラベル候補の文字集合画像の位置への方向に応じてスコアが変化するようにしてもよい。つまり、その場合、属性ラベル候補が属性値候補から特定の方向(例えば右方向(主走査方向の逆方向)や上方向(副走査方向の逆方向))に存在する場合に、その逆方向(例えば左方向(主走査方向)や下方向(副走査方向))に存在する場合に比べスコアが高くなるようにスコアが導出される。
【0040】
なお、上述の機械学習については、所定の適切なコーパスを使用して既存の方法を適用すればよい。
【0041】
図2は、書類画像の一例を示す図である。図3は、図2に示す書類画像から抽出される文字画像集合の一例を示す図である。
【0042】
図2に示す書類画像101は、不動産チラシの画像である。図2に示す書類画像101から図3に示すような複数の文字画像集合が抽出され、各文字画像集合について、書類画像101内での文字画像集合の位置が特定されるとともに、OCR処理によって文字画像集合がテキストデータに変換される。
【0043】
例えば、ユーザにより特定属性として「建築年月」が指定されている場合、図3に示す文字画像集合のテキストデータから、属性ラベル候補として、「建築年月」に関連度または類似度が高い「築年月」が検出されるとともに、属性値候補「1990年10月」と属性ラベル候補「築年月」とのペア候補が得られる。そして、この場合、属性値候補「1990年10月」および属性ラベル候補「築年月」の特徴ベクトルおよび位置に基づいて、両者の位置が近くかつ関連度が高いため、このペア候補がペアとして選択される。
【0044】
なお、その際、比較的近距離にある属性値候補「管理費5,000円」および属性ラベル候補「築年月」がペア候補とされるが、両者の関連度は低いため、このペア候補はペアとして選択されない。
【0045】
機械学習処理部26は、上述の機械学習を行う機械学習処理を実行する。なお、上述の機械学習処理部26は、必須のものではなく、必要に応じて設ければよい。
【0046】
次に、本実施の形態に係る書類画像処理システムの動作について説明する。図4は、図1に示す書類画像処理システムの動作を説明するフローチャートである。
【0047】
まず、書類画像取得部21は、書類画像を取得する(ステップS1)。次に、テキストデータ生成部22は、取得された書類画像内の文字オブジェクトを検出して(ステップS2)文字画像集合を抽出し(ステップS3)、OCR処理で、その文字画像集合のテキストデータを生成する(ステップS4)。
【0048】
そして、特徴ベクトル生成部23は、各文字画像集合のテキストデータに対応する特徴ベクトルを生成する(ステップS5)。また、特徴ベクトル生成部23は、ユーザにより指定された1または複数の特定属性の名称(テキストデータ)に対応する特徴ベクトルを生成する。
【0049】
そして、ラベル値ペア特定部24は、ユーザにより指定された特定属性の属性ラベル候補をその文字画像集合のテキストデータから検出し(ステップS6)、書類画像において属性ラベル候補から所定距離の範囲内に位置する属性値候補を選択して、その属性ラベル候補とその属性値候補とでペア候補を設定する(ステップS7)。
【0050】
なお、各特定属性について、1または複数のペア候補が個別的に設定される。なお、ある特定属性についてペア候補が設定できない場合には、その特定属性については属性値が検出されなかった旨の結果を記録してその特定属性についての当該処理を終了する。
【0051】
次に、ラベル値ペア特定部24は、設定した各ペア候補のスコアリングを行い、得られたスコアに基づいて、各特定属性について、1または複数のペア(属性ラベルと属性値とのペア)を特定する(ステップS8)。
【0052】
そして、データ出力部25は、すべての特定属性について得られた1または複数のペアを所定のデータ形式で記憶装置1に記憶したり、通信装置2で送信したりする(ステップS9)。
【0053】
以上のように、上記実施の形態によれば、テキストデータ生成部22は、書類画像内の文字画像集合を抽出しその文字画像集合のテキストデータを生成する。特徴ベクトル生成部23は、文字画像集合のテキストデータに対応する特徴ベクトルを生成する。ラベル値ペア特定部24は、(a)そのテキストデータのうち、特定属性についての1または複数の属性ラベル候補を検出し、(b)そのテキストデータのうち、1または複数の属性値候補を検出し、(c)属性ラベル候補と属性値候補とのペアをペア候補として検出し、(d)ペア候補から、上述の属性についての属性ラベルと属性値とのペアを特定する。その際、ラベル値ペア特定部24は、(a)文字画像集合のテキストデータの特徴ベクトルに基づいて、当該特定属性についての属性ラベル候補を検出し、(b)属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルに基づいて上述のペアを特定する。
【0054】
これにより、書類画像内の文字画像集合のテキストデータの特徴ベクトルを使用してテキストデータを意味的に分類し、属性ラベル候補の特徴ベクトルおよび属性値候補の特徴ベクトルに基づいて両者の関連度や類似度を評価して上述のペアを特定しているので、書類画像内で特定属性の属性値が記述されている領域の位置を指定するテンプレートデータを使用せずに、書類画像内に記述されている特定属性の属性値が正確に特定される。
【0055】
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
【0056】
例えば、上記実施の形態において、上述の処理が完了した後、ただちに、書類画像の画像データを当該システムから消去するようにしてもよい。
【産業上の利用可能性】
【0057】
本発明は、例えば、帳票などの書類画像の認識処理に適用可能である。
【符号の説明】
【0058】
4 演算処理装置(コンピュータの一例)
11 書類画像処理プログラム
21 書類画像取得部
22 テキストデータ生成部
23 特徴ベクトル生成部
24 ラベル値ペア特定部
25 データ出力部
図1
図2
図3
図4