(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023003887
(43)【公開日】2023-01-17
(54)【発明の名称】書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20230110BHJP
G06F 16/583 20190101ALI20230110BHJP
G06V 30/14 20220101ALI20230110BHJP
【FI】
G06F16/35
G06F16/583
G06K9/20 340A
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021105251
(22)【出願日】2021-06-24
(71)【出願人】
【識別番号】514253459
【氏名又は名称】ネットスマイル株式会社
(74)【代理人】
【識別番号】100114971
【弁理士】
【氏名又は名称】青木 修
(72)【発明者】
【氏名】齊藤 福光
【テーマコード(参考)】
5B029
5B175
【Fターム(参考)】
5B029CC27
5B175DA01
5B175DA02
5B175FA03
(57)【要約】
【課題】 テンプレートデータを使用せずにテーブル内のセルの属性を正確に特定する。
【解決手段】 テーブル検出部22は、書類画像内のテーブル、およびテーブル内のセルを検出し、そのセルのセル幾何学データを生成する。テキストオブジェクト検出部23は、書類画像内のテキストオブジェクトを検出し、そのテキストオブジェクトのテキストオブジェクト幾何学データを生成する。セル属性特定部25は、セル幾何学データおよびテキストオブジェクト幾何学データに基づいて、セル内のテキストオブジェクトを特定し、セルごとに、セル幾何学データ、セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、およびセル内のテキストオブジェクトのテキストデータを含むノードデータを生成し、テーブルに対応するノードデータを含むノードデータセットに対して所定の分類処理を実行してセルの属性を特定する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
書類画像内のテーブルを検出し、少なくとも前記テーブル内のセルを検出し、前記セルの位置およびサイズを示すセル幾何学データを生成するテーブル検出部と、
前記書類画像内のテキストオブジェクトを検出し、前記テキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成するテキストオブジェクト検出部と、
前記テキストオブジェクトに対して文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成する文字認識処理部と、
(a)前記セル幾何学データおよび前記テキストオブジェクト幾何学データに基づいて、前記セル内の前記テキストオブジェクトを特定し、(b)前記セルごとに、前記セル幾何学データ、前記セル内の前記テキストオブジェクトの前記テキストオブジェクト幾何学データ、および前記セル内の前記テキストオブジェクトの前記テキストデータを含むノードデータを生成し、前記テーブルに対応する前記ノードデータを含むノードデータセットを生成し、(c)前記ノードデータセットに対して所定の分類処理を実行して、前記セルごとに、前記セルの属性を特定するセル属性特定部と、
を備えること特徴とする書類画像処理システム。
【請求項2】
前記セル属性特定部は、前記ノードデータセットを入力データとして機械学習済みのグラフニューラルネットワークに入力し、前記グラフニューラルネットワークの出力データを前記セルの属性として特定することを特徴とする請求項1記載の書類画像処理システム。
【請求項3】
前記セル属性特定部は、前記ノードデータの示す特徴量に基づいて、前記ノードデータに対するクラスタリングを行って前記ノードデータをクラスターに分類し、前記クラスターに基づいて前記セルの属性を特定することを特徴とする請求項1記載の書類画像処理システム。
【請求項4】
前記テーブル検出部は、前記テーブル内のセルとともにロウおよびカラムの少なくとも一方を検出し、前記ロウの位置およびサイズを示すロウ幾何学データ並びに前記カラムの位置およびサイズを示すカラム幾何学データの少なくとも一方を生成し、
あるセルの前記ノードデータは、当該セルの属するロウの前記ロウ幾何学データおよび当該セルの属するカラムの前記カラム幾何学データの少なくとも一方をさらに含むこと、
を特徴とする請求項1から請求項3のうちのいずれか1項記載の書類画像処理システム。
【請求項5】
前記セルの属性は、前記セルのセルタイプを少なくとも含み、
前記セルタイプは、ラベルおよび属性値を含むこと、
を特徴とする請求項1から請求項4のうちのいずれか1項記載の書類画像処理システム。
【請求項6】
書類画像内のテーブルを検出し、少なくとも前記テーブル内のセルを検出し、前記セルの位置およびサイズを示すセル幾何学データを生成するステップと、
前記書類画像内のテキストオブジェクトを検出し、前記テキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成するステップと、
前記テキストオブジェクトに対して文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成するステップと、
(a)前記セル幾何学データおよび前記テキストオブジェクト幾何学データに基づいて、前記セル内の前記テキストオブジェクトを特定し、(b)前記セルごとに、前記セル幾何学データ、前記セル内の前記テキストオブジェクトの前記テキストオブジェクト幾何学データ、および前記セル内の前記テキストオブジェクトの前記テキストデータを含むノードデータを生成し、前記テーブルに対応する前記ノードデータを含むノードデータセットを生成し、(c)前記ノードデータセットに対して所定の分類処理を実行して、前記セルごとに、前記セルの属性を特定するステップと、
を備えること特徴とする書類画像処理方法。
【請求項7】
コンピューターを、
書類画像内のテーブルを検出し、少なくとも前記テーブル内のセルを検出し、前記セルの位置およびサイズを示すセル幾何学データを生成するテーブル検出部、
前記書類画像内のテキストオブジェクトを検出し、前記テキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成するテキストオブジェクト検出部、
前記テキストオブジェクトに対して文字認識処理を実行して前記テキストオブジェクトに対応するテキストデータを生成する文字認識処理部、並びに、
(a)前記セル幾何学データおよび前記テキストオブジェクト幾何学データに基づいて、前記セル内の前記テキストオブジェクトを特定し、(b)前記セルごとに、前記セル幾何学データ、前記セル内の前記テキストオブジェクトの前記テキストオブジェクト幾何学データ、および前記セル内の前記テキストオブジェクトの前記テキストデータを含むノードデータを生成し、前記テーブルに対応する前記ノードデータを含むノードデータセットを生成し、(c)前記ノードデータセットに対して所定の分類処理を実行して、前記セルごとに、前記セルの属性を特定するセル属性特定部、
として機能させる書類画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、書類画像処理システム、書類画像処理方法、および書類画像処理プログラムに関するものである。
【背景技術】
【0002】
ある帳票識別システムでは、帳票フォーマットテーブルが予めユーザにより作成されており、帳票フォーマットテーブルには、ユーザにより指定された文字認識対象領域の位置、サイズ、文字種などを示すフィールド情報が含まれている。そして、この帳票フォーマット(つまり、フィールド情報)に基づいて、帳票画像の画像データから、帳票内の文字情報(テキストデータ)が取得されている(例えば特許文献1参照)。
【0003】
ある画像認識装置は、対象画像から部分画像を切り出して、部分画像における文字および数字を認識し、 その文字および数字から所定の条件を満たす文字および数字を抽出する抽出処理を実行している(例えば特許文献2参照)。抽出処理において、その画像認識装置は、例えば、認識した文字が、予め設定されている所定の銀行名を含むか否かを判定し、その文字が所定の銀行名を含む場合、その文字とその文字から所定距離内の数字を、銀行名および口座番号の対として抽出している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2016-48444号公報
【特許文献2】特開2020-170264号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述の帳票識別システムでは、帳票などの書類のレイアウト(各属性が記述されている位置の情報など)を指定するテンプレートデータを使用するため、レイアウトの異なる複数の書類を処理するためには、レイアウトごとにテンプレートデータを予め作成しておかなければならず、事前に煩雑な作業が要求される。また、レイアウトが未知である書類については、上述の技術では、ある属性について書類画像内の属性値を正確に検出することは困難である。
【0006】
また、上述の画像認識装置では、テンプレートデータは不要であるが、抽出すべき文字列(上述の銀行名)を予め設定しておく必要があり、設定されていない文字列については抽出されない。また、上述の画像認識装置では、上述の銀行名から所定距離内の数字を口座番号として抽出しているが、2つの文字オブジェクト間の距離が短くても、両者が関連しない場合や、両者間の距離が長くても、両者が関連する場合があるため、所望の文字列が正しく抽出されない可能性がある。
【0007】
図5は、テーブルを含む書類画像の一例を示す図である。例えば
図5に示すように、健康診断報告書の書類画像101には、健康診断の結果を示すテーブル111が含まれている。テーブル111には、検査項目を示すラベルと、その検査項目の検査結果である値との組み合わせが含まれている。テーブル111では、罫線の有無に拘わらず、セルが2次元的に配列され、セルに、ラベルや、ラベルに対応する値(数値や、数値以外の文字列)が記載されているが、両者(ラベルと値)間の距離が短くても、両者が関連しない場合や、両者間の距離が長くても、両者が関連する場合がある。
【0008】
本発明は、上記の問題に鑑みてなされたものであり、テンプレートデータを使用せずに、テーブル内のセルの属性を正確に特定する書類画像処理システム、書類画像処理方法、および書類画像処理プログラムを得ることを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る書類画像処理システムは、書類画像内のテーブルを検出し、少なくともテーブル内のセルを検出し、そのセルの位置およびサイズを示すセル幾何学データを生成するテーブル検出部と、書類画像内のテキストオブジェクトを検出し、そのテキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成するテキストオブジェクト検出部と、そのテキストオブジェクトに対して文字認識処理を実行してテキストオブジェクトに対応するテキストデータを生成する文字認識処理部と、(a)セル幾何学データおよびテキストオブジェクト幾何学データに基づいて、セル内のテキストオブジェクトを特定し、(b)セルごとに、セル幾何学データ、セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、およびセル内のテキストオブジェクトのテキストデータを含むノードデータを生成し、テーブルに対応するノードデータを含むノードデータセットを生成し、(c)ノードデータセットに対して所定の分類処理を実行して、セルごとに、セルの属性を特定するセル属性特定部とを備える。
【0010】
本発明に係る書類画像処理方法は、書類画像内のテーブルを検出し、少なくともテーブル内のセルを検出し、セルの位置およびサイズを示すセル幾何学データを生成するステップと、書類画像内のテキストオブジェクトを検出し、テキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成するステップと、テキストオブジェクトに対して文字認識処理を実行してテキストオブジェクトに対応するテキストデータを生成するステップと、(a)セル幾何学データおよびテキストオブジェクト幾何学データに基づいて、セル内のテキストオブジェクトを特定し、(b)セルごとに、セル幾何学データ、セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、およびセル内のテキストオブジェクトのテキストデータを含むノードデータを生成し、テーブルに対応するノードデータを含むノードデータセットを生成し、(c)ノードデータセットに対して所定の分類処理を実行して、セルごとに、セルの属性を特定するステップとを備える。
【0011】
本発明に係る書類画像処理プログラムは、コンピューターを、上述のテーブル検出部、上述のテキストオブジェクト検出部、上述の文字認識処理部、並びに、上述のセル属性特定部として機能させる。
【発明の効果】
【0012】
本発明によれば、書類画像内である属性についての記述位置を指定するテンプレートデータを使用せずに、テーブル内のセルの属性を正確に特定する書類画像処理システム、書類画像処理方法、および書類画像処理プログラムが得られる。
【0013】
本発明の上記又は他の目的、特徴および優位性は、添付の図面とともに以下の詳細な説明から更に明らかになる。
【図面の簡単な説明】
【0014】
【
図1】
図1は、本発明の実施の形態に係る書類画像処理システムの構成を示すブロック図である。
【
図2】
図2は、本発明の実施の形態に係る書類画像処理システムにおいて生成されるノードデータについて説明する図である。
【
図3】
図3は、本発明の実施の形態に係る書類画像処理システムにおける分類処理について説明する図である。
【
図4】
図4は、
図1に示す書類画像処理システムの動作を説明するフローチャートである。
【
図5】
図5は、テーブルを含む書類画像の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、図に基づいて本発明の実施の形態を説明する。
【0016】
図1は、本発明の実施の形態に係る書類画像処理システムの構成を示すブロック図である。
図1に示す書類画像処理システムは、1台の情報処理装置(パーソナルコンピューター、サーバなど)で構成されているが、後述の処理部を、互いにデータ通信可能な複数の情報処理装置に分散させてもよい。また、そのような複数の情報処理装置には、特定の演算を並列処理するGPU(Graphics Processing Unit)が含まれていてもよい。
【0017】
図1に示す書類画像処理システムは、記憶装置1、通信装置2、画像読取装置3、および演算処理装置4を備える。
【0018】
記憶装置1は、フラッシュメモリー、ハードディスクなどの不揮発性の記憶装置であって、各種データやプログラムを格納する。
【0019】
ここでは、記憶装置1には、画像処理プログラム11が格納されており、また、システム設定データ(後述の各処理部に使用されるニューラルネットワークの係数設定値など)が必要に応じて格納される。なお、画像処理プログラム11は、CD(Compact Disk)などの可搬性のあるコンピューター読み取り可能な記録媒体に格納されていてもよい。その場合、例えば、その記録媒体から記憶装置1へ画像処理プログラム11がインストールされる。また、画像処理プログラム11は、1つのプログラムでも、複数のプログラムの集合体でもよい。
【0020】
通信装置2は、ネットワークインターフェイス、周辺機器インターフェイス、モデムなどのデータ通信可能な装置であって、必要に応じて、他の装置とデータ通信を行う。画像読取装置3は、書類から書類画像を光学的に読み取り、書類画像の画像データ(ラスタイメージデータなど)を生成する。なお、通信装置2および画像読取装置3は、必要に応じて設けられる。
【0021】
演算処理装置4は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピューターであって、プログラムを、ROM、記憶装置1などからRAMにロードしCPUで実行することで、各種処理部として動作する。
【0022】
ここでは、画像処理プログラム11を実行することで、演算処理装置4は、書類画像取得部21、テーブル検出部22、テキストオブジェクト検出部23、文字認識処理部24、セル属性特定部25、データ出力部26、および機械学習処理部27として動作する。
【0023】
書類画像取得部21は、ラスターイメージデータなどの画像データとして書類画像を取得する。書類画像は、領収書(レシートを含む)、請求書、納品書などの帳票類、宣伝広告や告知などのチラシ、回答済みアンケート用紙、健康診断報告書などといった、1または複数の属性(記載項目など)についての属性ラベル(見出しなどのテキスト)と属性値(数値、その他の文字列などのテキスト)とをテーブル内に含む書類の画像である。例えば、書類画像取得部21は、記憶装置1に格納されている画像データとしての書類画像を読み出したり、ネットワークなどの通信路を介して通信装置2により受信された画像データとしての書類画像を取得したり、画像読取装置3により生成された画像データとしての書類画像を取得したりする。
【0024】
テーブル検出部22は、テンプレートデータを使用せずに、取得された書類画像内のテーブルを検出し、そのテーブルの位置およびサイズを示すテーブル幾何学データを生成するとともに、少なくともテーブル内のセルを検出し、そのセルの位置およびサイズを示すセル幾何学データを生成する。
【0025】
この実施の形態では、テーブル検出部22は、テーブル内のセルとともにロウおよびカラムの少なくとも一方を検出し、そのロウの位置およびサイズを示すロウ幾何学データ並びにそのカラムの位置およびサイズを示すカラム幾何学データの少なくとも一方(ここでは、両方)を生成する。
【0026】
なお、テーブル検出部22は、ニューラルネットワークを使用する既存の手法に従って、書類画像内のテーブル、そのテーブル内のロウ、カラム、およびセルを検出し、それらの幾何学データを生成する。
【0027】
テキストオブジェクト検出部23は、テンプレートデータを使用せずに、取得された書類画像内のテキストオブジェクトを検出し、そのテキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成する。
【0028】
具体的には、テキストオブジェクト検出部23は、(a)書類画像内の文字以外のオブジェクト(写真オブジェクト、図形オブジェクト、罫線オブジェクトなど)を除外して文字オブジェクトを検出し、(b)各文字オブジェクトの位置に基づいて、「単語」単位にグルーピングしてテキストオブジェクトを抽出する。
【0029】
なお、テキストオブジェクト検出部23は、既存の技術(例えば、領域分離処理や、機械学習されたディープニューラルネットワークなど)を使用して、書類画像内の文字オブジェクトを抽出する。
【0030】
文字認識処理部24は、検出されたテキストオブジェクト(ラスターイメージ)に対して文字認識処理を実行してそのテキストオブジェクトに対応するテキストデータ(文字コード列)を生成する。なお、この文字認識処理には、既存の技術が利用される。
【0031】
セル属性特定部25は、(a)上述のセル幾何学データおよびテキストオブジェクト幾何学データに基づいて、セル内のテキストオブジェクトを特定し、(b)セルごとに、セル幾何学データ、セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、およびセル内のテキストオブジェクトのテキストデータを含むノードデータを生成し、テーブルに対応するノードデータを含むノードデータセットを生成し、(c)そのノードデータセットに対して所定の分類処理を実行して、セルごとに、セルの属性を特定する。
【0032】
なお、ノードデータ内のセル、ロウ、カラム、およびテキストオブジェクトの位置は、
2次元座標の座標値であり、それらのサイズは、2次元座標のそれぞれの座標での長さである。また、その位置は、セル、ロウ、カラム、およびテキストオブジェクトの矩形領域の所定部位(四隅のいずれか、中心など)の位置で示され、テーブルの所定部位(四隅のいずれか、中心など)からの相対位置で表されるようにしてもよい。この相対位置は、書類画像内でのテーブルの絶対位置(テーブル幾何学データ内の位置)とセル、ロウ、カラムまたはテキストオブジェクトの絶対位置(当初の幾何学データ内の位置)とから導出される。
【0033】
具体的には、検出された各セルについて、セル属性特定部25は、そのセルのセル幾何学データから特定されるセルの領域内に、テキストオブジェクト幾何学データから特定されるテキストオブジェクト(バウンディングボックス)の領域が含まれる場合、そのテキストオブジェクトが、そのセル内のテキストオブジェクトであると判定する。
【0034】
図2は、本発明の実施の形態に係る書類画像処理システムにおいて生成されるノードデータについて説明する図である。
図3は、本発明の実施の形態に係る書類画像処理システムにおける分類処理について説明する図である。
【0035】
この実施の形態では、
図2に示すように、あるセルのノードデータは、当該セルのセル幾何学データ、当該セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、および当該セル内のテキストオブジェクトのテキストデータの他に、当該セルの属するロウのロウ幾何学データおよび当該セルの属するカラムのカラム幾何学データの少なくとも一方(ここでは両方)をさらに含む。
【0036】
この実施の形態では、
図3に示すように、セル属性特定部25は、上述のノードデータセットを入力データとして機械学習済みのグラフニューラルネットワーク(GNN)に入力し、そのGNNの出力データを上述のセルの属性として特定する。なお、このGNNおよびその機械学習については既存のものが利用できる。
【0037】
また、セルの属性は、セルのセルタイプを少なくとも含み、セルタイプは、ラベルおよび属性値のいずれかである(つまり、この場合、セルは、ラベルのセルおよび属性値のセルのいずれかに分類される)。なお、各ノードデータについての、GNNの出力データは、そのノードデータに対応するセルのセルタイプの取り得る値(ここではラベルおよび属性値)のそれぞれについての確率(0~1の範囲内の数値)であり、その確率の値に基づいて、例えば閾値による分類などによって、セルタイプが、セルタイプの取り得る値(ここではラベルおよび属性値)のいずれかに決定される。
【0038】
なお、セル属性特定部25は、ノードデータの示す特徴量に基づいて、ノードデータに対するクラスタリングを行ってノードデータをクラスターに分類し、そのクラスターに基づいてセルの属性を特定するようにしてもよい。例えば、セル属性特定部25は、GNNの代わりに上述のクラスタリングでセルの属性を特定するようにしてもよいし、GNNで上述のセルの属性を特定する際の信頼性が低い場合に、GNNの代わりに上述のクラスタリングでセルの属性を特定するようにしてもよい。
【0039】
例えば、この特徴量としては、例えばWord2vec(Skip-Gramモデル)などの既存の手法に従って生成される、ノードデータ(全部または特定部分)に対応する特徴ベクトルが使用される。また、ノードデータと、そのノードデータに対するセルタイプの値との組み合わせを大量に収集し、セルタイプの各値(ここでは、ラベルまたは属性値)についての中心値(特徴ベクトルの平均)を(各クラスターの中心として)特定しておき、分類対象のノードデータの特徴ベクトルの示す位置から、最も近い中心値を有するセルタイプの値(ここでは、ラベルまたは属性値)が、そのノードデータに対応するセルタイプの値として選択される。
【0040】
データ出力部26は、各ノードデータに、そのノードデータに対応するセル属性を追加して、そのノードデータセットを所定のデータ形式で記憶装置1に記憶したり、通信装置2で送信したりする。
【0041】
この出力データ(ノードデータセット)によって、例えば、カラム内のラベルのセルおよび属性値のセルを特定したり、ロウ内のラベルのセルおよび属性値のセルを特定したりすることができる。
【0042】
機械学習処理部27は、上述のセル属性特定部25におけるGNNの機械学習を行う機械学習処理を実行する。なお、上述の機械学習処理部27は、必須のものではなく、必要に応じて設ければよい。また、セル属性特定部25(GNN)の機械学習が完了している場合には、機械学習処理部27は、設けられていなくてもよい。
【0043】
次に、本実施の形態に係る書類画像処理システムの動作について説明する。
図4は、
図1に示す書類画像処理システムの動作を説明するフローチャートである。
【0044】
まず、書類画像取得部21は、書類画像を取得する(ステップS1)。
【0045】
次に、テーブル検出部22は、テンプレートデータを使用せずに、書類画像内のテーブルを検出するとともに、テーブル内のセル、カラム、およびロウを検出し、セル幾何学データ、カラム幾何学データ、およびロウ幾何学データを生成する(ステップS2)。
【0046】
また、テキストオブジェクト検出部23は、テンプレートデータを使用せずに、書類画像内のテキストオブジェクトを検出し、テキストオブジェクト幾何学データを生成する(ステップS2)。文字認識処理部24は、検出されたテキストオブジェクトに対して文字認識処理を実行し、そのテキストオブジェクトのテキストデータを生成する。
【0047】
なお、テーブル検出部22による上述の処理およびテキストオブジェクト検出部23による上述の処理は、並列に実行してもよいし、それらの処理を順番に行う場合には、どちらを先に実行してもよい。
【0048】
そして、検出された各セルについて、セル属性特定部25は、上述のセル幾何学データおよびテキストオブジェクト幾何学データに基づいて、セル内のテキストオブジェクトを特定し、セル幾何学データ、セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、およびセル内のテキストオブジェクトのテキストデータなどを含むノードデータを生成する(ステップS3)。
【0049】
次に、セル属性特定部25は、テーブルごとに、そのテーブル内で検出された全セルに対応するノードデータでノードデータセットを生成し、そのノードデータセットに対して所定の分類処理を実行して、各セルの属性を分類して、各セルの属性(ここでは、ラベルまたは属性値というセルタイプ)を特定する(ステップS4)。
【0050】
そして、データ出力部26は、例えば、各セルの属性を、そのセルに対応するノードデータに追加し、テーブルごとに、ノードデータセットを出力データとして所定のデータ形式で記憶装置1に記憶したり、通信装置2で送信したりする(ステップS5)。
【0051】
このようにして、書類画像内の各テーブルについて、セル単位の属性データが生成される。
【0052】
また、データ出力部26は、所定形式の検索要求を受け付け、その検索要求に従って、上述のように生成されたノードデータセットにおいて、検索要求により指定されたラベルに対応する属性値を検索し、そのラベルと属性値との組み合わせを出力するようにしてもよい。例えば、まず、生成されたノードデータセットにおいて、検索対象のラベルを含む、セル、ロウ、およびカラムが特定され、そのロウまたはカラムにおいて属性値のセルが含まれているロウまたはカラムが特定され、そのロウまたはカラムにおいて、属性値のセルが1つであれば、その属性値がそのラベルに対応する属性値として特定され、属性値のセルが複数であれば、それらの属性値がそのラベルに対応する属性値として特定されるとともに、それらの属性値のセルのロウまたはカラム(検索対象のラベルを含むロウ内で属性値のセルが特定された場合にはカラム、検索対象のラベルを含むカラム内で属性値のセルが特定された場合にはロウ)のラベルをそれらの属性値にそれぞれ関連付けて付してもよい。
【0053】
例えば
図5におけるテーブル111のノードデータセットにおいて、検索対象として「身長」が指定された場合、属性値として、「身長」の含まれるロウ内の「161.0」、「161.2」、および「161.1」の3つが検出され、「161.0」には「今回」というラベルが、「161.2」には「前回」というラベルが、「161.1」には「前々回」というラベルが付される。
【0054】
また、検索要求において2つのラベルを検索対象のラベルとして指定可能としてもよい。その場合、その2つのラベルのうちの一方のラベルで上述と同様に属性値が検出され、検出された属性値のうち、その属性値のセルの属するロウまたはカラムのラベルが他方のラベルに一致するものが、その2つのラベルに対応する属性値であると判定され検出される。
【0055】
以上のように、上記実施の形態によれば、テーブル検出部22は、書類画像内のテーブルを検出し、少なくともテーブル内のセルを検出し、そのセルの位置およびサイズを示すセル幾何学データを生成する。テキストオブジェクト検出部23は、書類画像内のテキストオブジェクトを検出し、そのテキストオブジェクトの位置およびサイズを示すテキストオブジェクト幾何学データを生成する。文字認識処理部24は、そのテキストオブジェクトに対して文字認識処理を実行してテキストオブジェクトに対応するテキストデータを生成する。セル属性特定部25は、(a)セル幾何学データおよびテキストオブジェクト幾何学データに基づいて、セル内のテキストオブジェクトを特定し、(b)セルごとに、セル幾何学データ、セル内のテキストオブジェクトのテキストオブジェクト幾何学データ、およびセル内のテキストオブジェクトのテキストデータを含むノードデータを生成し、テーブルに対応するノードデータを含むノードデータセットを生成し、(c)ノードデータセットに対して所定の分類処理を実行して、セルごとに、セルの属性を特定する。
【0056】
これにより、テンプレートデータを使用せずに、テーブル内のセルの属性が正確に特定される。また、ラベルと属性値との距離(ユークリッド距離)を考慮せずに、ラベルに対応する属性値を検出しているため、ラベルと属性値との距離(ユークリッド距離)に拘わらず、テーブル内のラベルと属性値の組み合わせが正確に特定される。
【0057】
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
【0058】
例えば、上記実施の形態において、上述の処理が完了した後、ただちに、書類画像の画像データを当該システムから消去するようにしてもよい。
【0059】
また、上記実施の形態において、上述のGNNの入力データのノード数は、ノードデータセットのノードデータ数(つまり、テーブルのセル数)の最大値以上の所定値に設定され、GNNの入力データのノード数よりノードデータ数が少ない場合には、不足分のノードデータとして固定値が使用され、それに対応する出力データは破棄される。
【0060】
また、上記実施の形態において、セルの属性としてはセルタイプとしており、セルタイプはラベルおよび属性値のいずれかであるが、セルタイプが、ラベルおよび属性値の他、ヘッダー(テーブルのタイトルなど)、その他、などを取るようにしてもよい。
【0061】
また、上記実施の形態において、ロウおよびカラムを検出せず、ノードデータに、ロウ幾何学データおよびカラム幾何学データを含まないようにしてもよい。その場合でも、セル幾何学データのセルの位置に基づいて、ラベルのセルの位置から、横方向および縦方向に沿って、属性値のセルを探索し検出することで、ラベルに対応する属性値を検出することができる。
【産業上の利用可能性】
【0062】
本発明は、例えば、帳票などの書類画像の認識処理に適用可能である。
【符号の説明】
【0063】
4 演算処理装置(コンピューターの一例)
11 画像処理プログラム(書類画像処理プログラムの一例)
22 テーブル検出部
23 テキストオブジェクト検出部
24 文字認識処理部
25 セル属性特定部