特許7563655 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特許7563655表認識装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-30

(45)【発行日】2024-10-08

(54)【発明の名称】表認識装置及び方法

(51)【国際特許分類】

G06V 30/412 20220101AFI20241001BHJP

G06V 30/00 20220101ALI20241001BHJP

【ＦＩ】

G06V30/412

G06V30/00 P

【請求項の数】 5

(21)【出願番号】P 2024523957

(86)(22)【出願日】2022-10-17

(86)【国際出願番号】 JP2022038526

(87)【国際公開番号】W WO2024084539

(87)【国際公開日】2024-04-25

【審査請求日】2024-04-22

【早期審査対象出願】

(73)【特許権者】

【識別番号】000006013

【氏名又は名称】三菱電機株式会社

(74)【代理人】

【識別番号】100109612

【弁理士】

【氏名又は名称】倉谷泰孝

(74)【代理人】

【識別番号】100116643

【弁理士】

【氏名又は名称】伊達研郎

(74)【代理人】

【識別番号】100184022

【弁理士】

【氏名又は名称】前田美保

(72)【発明者】

【氏名】金井美岬

【審査官】小池正彦

(56)【参考文献】

【文献】国際公開第２０１４／０６８７７０（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／４１２

Ｇ０６Ｖ３０／００

(57)【特許請求の範囲】

【請求項1】

表形式文書の画像情報から当該表形式文書に記述された文字列を認識する表認識装置であって、
前記表形式文書に設けられた複数の罫線枠内にそれぞれ記述された文字列を認識する文字認識部と、
前記複数の罫線枠のうちの対象となる罫線枠である対象罫線枠について認識された文字列である単独文字列と、前記対象罫線枠とは異なる前記罫線枠について認識された文字列と前記単独文字列とを連結した連結文字列のうち、
前記表形式文書に記述されるべき適合文字列との一致度が高い方の前記単独文字列もしくは前記連結文字列を、前記対象罫線枠に属する文字列である統合文字列として判別する罫線枠統合判定部と、を備えること
を特徴とする表認識装置。

【請求項2】

前記罫線枠統合判定部が、前記統合文字列とした前記単独文字列もしくは前記連結文字列の前記一致度が予め定められた閾値以上の場合、前記統合文字列を前記一致度を算出するのに用いた前記適合文字列に置換すること
を特徴とする請求項１に記載の表認識装置。

【請求項3】

前記罫線枠統合判定部が、罫線枠毎に定められた複数の適合文字列の中から、前記罫線枠内に記述可能な適合文字列を制約する情報によって限定された１以上の適合文字列について前記一致度を算出し、前記統合文字列を判別すること
を特徴とする請求項１又は２に記載の表認識装置。

【請求項4】

前記罫線枠統合判定部が、前記複数の罫線枠の罫線に近接する文字の文字変換にかかるコストの値を小さくするように重み付けして前記一致度を算出すること
を特徴とする請求項１又は２に記載の表認識装置。

【請求項5】

表形式文書の画像情報から当該表形式文書に記述された文字列を認識する表認識方法であって、
文字認識部が、前記表形式文書に設けられた複数の罫線枠内にそれぞれ記述された文字列を認識し、
罫線枠統合判定部が、前記複数の罫線枠のうちの対象となる罫線枠である対象罫線枠について認識された文字列である単独文字列と、前記対象罫線枠とは異なる前記罫線枠について認識された文字列と前記単独文字列とを連結した連結文字列のうち、
前記表形式文書に記述されるべき適合文字列との一致度が高い方の文字列もしくは連結文字列を、前記対象罫線枠に属する文字列である統合文字列として判別すること
を特徴とする表認識方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、表形式文書の画像情報から文字認識を行うための、表認識装置及び方法に関する。

【背景技術】

【0002】

画像化した表形式文書の文字認識では、表の罫線を抽出し、表の行と列とを罫線で区切った複数の領域（複数の罫線枠）に分離する。そして、罫線枠ごとに文字認識を行い、その文字認識結果を個別に保持する。そのため、項目名又は項目値となる罫線枠内の文字列が罫線枠を超過し、隣接する罫線枠にはみ出すなど、一つの項目名又は項目値が複数の罫線枠にまたがって記載されている場合、項目名又は項目値（文字列）を認識できない場合がある。

【0003】

そこで、隣接する罫線枠の罫線枠情報が予め設定された条件を満たす場合、例えば、隣接する罫線枠が共に同じ太さの実線で描かれている場合に罫線枠を統合することで、項目名又は項目値（文字列）を認識する技術が開示されている（例えば、特許文献１）。
この従来技術によれば、複数の罫線枠にまたがって記載された文字列を認識することができる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１７－０９７８０５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では以下のような問題がある。例えば、隣接する罫線枠の罫線の種類が相互に異なるなど、隣接する罫線枠の罫線枠情報が異なる場合があり、このような場合、予め設定された条件を満たさない。よって、当該条件を満たさない複数の罫線枠にまたがって記載された文字列を認識することができない。

【0006】

本開示は、上記のような課題を解決するためになされたものであり、罫線枠情報に依存せずに、複数の罫線枠にまたがって記載された文字列を正確に認識できるようにすることを目的とする。

【課題を解決するための手段】

【0007】

本開示の表認識装置は、
表形式文書の画像情報から当該表形式文書に記述された文字列を認識する表認識装置であって、
前記表形式文書に設けられた複数の罫線枠内にそれぞれ記述された文字列を認識する文字認識部と、
前記複数の罫線枠のうちの対象となる罫線枠である対象罫線枠について認識された文字列である単独文字列と、前記対象罫線枠とは異なる前記罫線枠について認識された文字列と前記単独文字列とを連結した連結文字列のうち、
前記表形式文書に記述されるべき適合文字列との一致度が高い方の前記単独文字列もしくは前記連結文字列を、前記対象罫線枠に属する文字列である統合文字列として判別する罫線枠統合判定部とを備える。

【0008】

本開示の表認識方法は、
表形式文書の画像情報から当該表形式文書に記述された文字列を認識する表認識方法であって、
文字認識部が、前記表形式文書に設けられた複数の罫線枠内にそれぞれ記述された文字列を認識し、
罫線枠統合判定部が、前記複数の罫線枠のうちの対象となる罫線枠である対象罫線枠について認識された文字列である単独文字列と、前記対象罫線枠とは異なる前記罫線枠について認識された文字列と前記単独文字列とを連結した連結文字列のうち、
前記表形式文書に記述されるべき適合文字列との一致度が高い方の文字列もしくは連結文字列を、前記対象罫線枠に属する文字列である統合文字列として判別する。

【発明の効果】

【0009】

本開示によれば、罫線枠情報に依存せずに、複数の罫線枠にまたがって記載された文字列を正確に認識する効果を有する。

【図面の簡単な説明】

【0010】

【図1】実施の形態１における表認識装置の構成を表す機能構成図である。

【図2】実施の形態１における表認識装置の認識対象となる表形式文書の一例を表す図である。

【図3】実施の形態１における知識データベースの一例を表す図である。

【図4】実施の形態１における表認識装置のハードウェア構成図である。

【図5】実施の形態１における表認識装置の動作順序を表すフローチャートである。

【図6】実施の形態１における罫線枠統合判定部の動作順序を表すフローチャートである。

【図7】実施の形態１における表認識装置の動作例を説明する図である。

【図8】実施の形態２における表認識装置の構成を表す機能構成図である。

【図9】実施の形態２における表構造知識データベースの例を表す図である。

【図10】実施の形態２における罫線統合判定部の動作順序を表すフローチャートである。

【図11】実施の形態３における表認識装置の動作例を説明する図である。

【発明を実施するための形態】

【0011】

実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。以下の実施の形態では、「部」を「回路」、「工程」、「手順」又は「処理」に適宜読み替えてもよい。

【0012】

実施の形態１．
＜構成＞
実施の形態１における表認識装置について、図１～図７を用いて説明する。図１は、実施の形態１における表認識装置１００の構成を表す機能構成図である。図１において、表認識装置１００は、表構造認識部１、文字認識部２、罫線枠総合判定部３、知識データベース４で構成されている。

【0013】

図２は、実施の形態１における、表認識装置１００の認識対象である表形式文書の一例を表す図である。図２に示される表の１行目の１列目には項目名「ＩｔｅｍＡ」、２列目には「ＩｔｅｍＢ」、３列目には「ＩｔｅｍＣ」がそれぞれ記載されている。表の２行目以降には、それぞれの項目名に属する項目値が記載されている。図２に示されるように、表形式文書は、印刷の影響、あるいは文字数超過等により、文字が罫線枠からはみ出る場合が生じたり、あるいは文字が罫線枠に接触したりする場合がある。具体的には、図２に示される表の場合では、項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」は、文字「ａｔ」が項目名「ＩｔｅｍＢ」の罫線枠にはみ出ている状態である。また、項目名「Ｉｔｅｍ B」に属する項目値「ＳａｔｕｒａｔｅｄＦａｔ」は、語頭の文字「Ｓ」が罫線枠に接触している状態である。

【0014】

表構造認識部１は、表形式文書の画像情報から罫線を抽出し、表構造を認識する。表構造は、表の行と列とを罫線で区切った複数の領域（すなわち、複数の罫線枠）から構成されている。

【0015】

表構造を認識する方法は、例えば、エッジヒストグラムに基づく方法を用いることができる。具体的には、表形式文書の画像情報から、表の領域（表領域）内部の白画素塊の境界近傍において２方向のエッジを求める。ここで、白画素塊は、白色以外の他色の罫線枠で囲まれた白地の領域である。そして、得られた２方向のエッジのそれぞれから求めたエッジヒストグラムに基づいて、罫線の一部分情報を取得する。さらに取得した罫線の一部分情報に基づいて、表領域の罫線情報を取得し、表構造を認識する。なお、表構造を認識する方法はこれに限らない。例えば、表の行と列の構造の情報が得られるものであれば、様々な方法を用いることができる。

【0016】

文字認識部２は、例えば、光学文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）の技術を用いて、罫線枠内の文字列を認識する。なお、罫線枠内の文字列を認識する方法はＯＣＲに限られず、これ以外の方法であってもよい。

【0017】

罫線枠統合判定部３は、文字認識部２が認識した文字列と、知識データベース４に登録されている適合文字列との一致度の高さに応じて、どの罫線枠を統合すべきかを判定する。言い換えれば、各罫線枠内の文字列が、隣接する左右の罫線枠内の文字列と連結されるべきか判定する。例えば、一致度として、尤度を用いることができる。尤度は、任意の文字列が、ある文字列群に属すると推定される「尤もらしさ」を表す値である。例えば、尤度は、２つの文字列の間の標準化編集距離を用いることができる。ここで、標準化編集距離は、編集距離を長い方の文字列の長さで除算した値である。ただし、編集距離は、一文字の挿入、削除、置換によって、一方の文字列を他方の文字列に変形するのに必要な操作の最小回数である。尤度は、２つの文字列の間の一致度と読み替えてもよい。
そして、判定結果に基づいて罫線枠内の文字列を連結し、連結した文字列である連結文字列、もしくは連結しない単独の文字列である単独文字列を、最終的な統合判断結果である統合文字列として出力する。

【0018】

知識データベース４は、項目名、及び項目名に属する項目値として記述されるべき文字列である適合文字列を定める。図３に、知識データベース４の適合文字列の内容の一例を示す。知識データベース４には、項目名毎に適合文字列が一又は複数個登録されている。言い換えれば、知識データベース４に定められている項目値の適合文字列のいずれかが、表形式文書の項目名毎に項目値の罫線枠内に記述され得る。なお、適合文字列は、１つの単語に限らず、複数の単語から構成される熟語、もしくは文章であってもよい。図３中のＩＤＸは、適合文字列のそれぞれに対し、個別に付与されるインデックス番号である。このＩＤＸは、知識データベース４中の適合文字列を参照する際に、適合文字列を指定するために用いられる。具体的には、図３において、例えば、項目名「ＩｔｅｍＡ」に属する項目値のそれぞれについて、順にＡ１、Ａ２、・・・、Ａ９のインデックス番号が付与されている。なお、適合文字列については、図３に示された文字列に限らず、任意に設定できる。
また、知識データベース４の項目値に関して、任意の文字又は数値を表す、いわゆるワイルドカードを設定することができる。具体的には、図３の項目名「ＩｔｅｍＣ」に属する適合文字列において、［＊ＮＵＭ＊］はワイルドカードを意味しており、ワイルドカードには任意の数値を当てはめることができる。知識データベース４の項目値にワイルドカードを設定することで、文字又は数値毎に適合文字列を設定する必要が無くなり、知識データベース４の記憶容量を削減することができる。また、文字又は数値毎に適合文字列を参照するための計算量も削減することができる。
また、表認識の結果、認識された文字列に誤りがあって所定の条件を満たす場合、知識データベース４に登録されている項目名、もしくは項目値の文字列へ置換されてもよい。あるいは、登録されていない項目名、もしくは項目値の文字列は、誤認識結果として認識対象から除外されてもよい。置換のための具体的な条件については、後述する。

【0019】

＜ハードウェア＞
次に、実施の形態１における表認識装置１００が有するハードウェアを説明する。図４は、表認識装置１００のハードウェア構成図である。表認識装置１００は、プロセッサ１０１、メモリ１０２、外部記憶装置１０３及び入出力インタフェース１０４を有する。

【0020】

プロセッサ１０１は、表認識装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、表認識装置１００は、処理回路を有してもよい。

【0021】

メモリ１０２は、表認識装置１００の主記憶装置である。例えば、メモリ１０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などである。外部記憶装置１０３は、表認識装置１００の補助記憶装置である。例えば、外部記憶装置１０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などである。入出力インタフェース１０４は、表認識装置１００に接続される外部装置とデータの送受を行うインタフェースである。例えば、入出力インタフェース１０４は、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣｏｎｔｒｏｌｌｅｒ）などである。例えば、外部装置は、イメージスキャナ、ディスプレイなどである。なお、外部装置の図示は省略されている。

【0022】

プロセッサ１０１は、外部記憶装置１０３に記憶されている表認識プログラムを、メモリ１０２に読み出し、プロセッサ１０１が、そのプログラムを実行することで、表認識方法の各処理を実現することができる。外部記憶装置１０３は、実施の形態１の表認識方法を実現するためのプログラム及びデータを保持する。なお、表認識プログラムは、ネットワークを通じて提供されてもよく、また、コンピュータで読み込み可能な記録媒体に記録されて提供されてもよい。即ち、表認識プログラムは、例えば、プログラムプロダクトとして提供されてもよい。

【0023】

入出力インタフェース１０４は、表形式文書の画像情報をイメージスキャナなどの外部装置より受信すると共に、表認識結果をディスプレイなどの外部装置に出力する。

【0024】

＜フローチャート＞
次に、実施の形態１における表認識装置１００の動作について説明する。図５は、実施の形態１の表認識装置１００の動作順序を表すフローチャートである。説明を簡単にするため、表の１行目（すなわち、項目名が記載されている行）の内容は既知であるとし、２行目以降の項目値の罫線枠のみの統合方法について説明する。また、項目名の行（１行目）の処理を省略するので、項目値の先頭行である２行目を新たな１行目と見なして説明する。

【0025】

まず、ステップＳ１において、表構造認識部１が、表形式文書の画像情報から罫線を抽出し、複数の罫線枠から構成される表構造を認識する。更に、表構造認識部１が、認識された表構造から、表形式文書の表の行数及びそれぞれの行の列数を取得する（ステップＳ１）。

【0026】

ステップＳ２において、文字認識部２が、表構造認識部１がステップＳ１で認識した罫線枠内の文字を認識する（ステップＳ２）。

【0027】

次に、ステップＳ３において、罫線枠統合判定部３が、知識データベース４を参照し、ステップＳ２で得られた文字認識結果に基づいて、どの罫線枠を統合するか判定する。そして、判定結果に基づいて、隣接する罫線枠内の文字列を連結し、連結した文字列である連結文字列、もしくは連結しない単独の文字列である単独文字列を出力する（ステップＳ３）。

【0028】

図６は、ステップＳ３の罫線枠統合判定部３の動作順序を表すフローチャートである。図中の「←」は、右辺の数値又は要素を、左辺の変数へ代入する処理を表している。また説明を簡略化するため、変数が保持する値を変数の記号名で示す場合がある。また、左上を原点とした表についての動作である。

【0029】

まず、ステップＳ３０１において、表の行の位置を表す変数ｉに１を代入する（ステップＳ３０１）。

【0030】

ステップＳ３０２において、変数ｉが表の行数以下であるか確認する。変数ｉが表の行数以下の場合（ステップＳ３０２のＹｅｓ）、処理をステップＳ３０３に進める。変数ｉが表の行数を超える場合（ステップＳ３０２のＮｏ）、全ての行の判定が完了したため、処理を終了する（ＥＮＤ）。

【0031】

ステップＳ３０３において、表の列の位置を表す変数ｊに１を代入する（ステップＳ３０３）。

【0032】

ステップＳ３０４において、変数ｊが、ｉ行に属する項目値の罫線枠の合計数（以下、項目数）以下であるか確認する（ステップＳ３０４）。変数ｊが項目数以下の場合（ステップＳ３０４のＹｅｓ）、処理をステップＳ３０５に進める。変数ｊが項目数を超える場合（ステップＳ３０４のＮｏ）、処理をステップＳ３１６に進める。

【0033】

ステップＳ３０５において、ｉ行のｊ列目の罫線枠内に文字認識結果があるか確認する（ステップＳ３０５）。ｉ行のｊ列目の罫線枠内に文字認識結果がある場合（ステップＳ３０５のＹｅｓ）、処理をステップＳ３０６に進める。ｉ行のｊ列目の罫線枠内に文字認識結果がない場合（ステップＳ３０５のＮｏ）、処理をステップＳ３１５に進める。

【0034】

ステップＳ３０６において、変数ｋに０を代入する（ステップＳ３０６）。ｋは、ｉ行のｊ列目の罫線枠に対して、統合する他の罫線枠の列の個数を表す。具体的には、ｋ＝０の場合、ｉ行のｊ列目の罫線枠は統合せず単独の罫線枠として取り扱われ、ｋ＝１の場合、ｉ行のｊ列目の罫線枠に対して、隣接する１個の他の罫線枠が統合される。

【0035】

ステップＳ３０７において、変数ｋの値が、項目数から変数ｊの値と１とを減算した値以下であるか確認する（ステップＳ３０７）。変数ｋの値が、項目数から変数ｊの値と１とを減算した値以下である場合（ステップＳ３０７のＹｅｓ）、処理をステップＳ３０８に進める。変数ｋの値が、項目数から変数ｊの値と１とを減算した値より大きい場合（ステップＳ３０７のＮｏ）は、処理をステップＳ３１３に進める。

【0036】

ステップＳ３０８において、ｉ行の（ｊ＋ｋ）列目の罫線枠内に文字認識結果があるか確認する（ステップＳ３０８）。ｉ行の（ｊ＋ｋ）列目の罫線枠内に文字認識結果がある場合（ステップＳ３０８のＹｅｓ）、処理をステップＳ３０９に進める。ｉ行の（ｊ＋ｋ）列目の罫線枠内に文字認識結果がない場合（ステップＳ３０８のＮｏ）、処理をステップＳ３１３に進める。

【0037】

ステップＳ３０９において、ｊ列目から（ｊ＋ｋ）列目までの罫線枠を統合し、罫線枠内の文字列を連結し、連結文字列を得る。そして、知識データベース４を参照し、知識データベース４中のｊ番目（すなわち、ｊ列目）の項目名に属する適合文字列を順次読み出して、連結文字列がｊ列目の項目名に属する尤度［ｊ＋ｋ，ｊ］を算出し、尤度Ｌ［ｊ＋ｋ，ｊ］を変数Ｌ１に代入する（ステップＳ３０９）。本実施の形態における知識データベース４の参照方法の具体例として、例えば、ｊ＝１（すなわち、表の１列目）の場合は、知識データベース４の項目名「ＩｔｅｍＡ」の項目に属する適合文字列を順次読み出し、ｊ＝２（すなわち、表の２列目）の場合は、知識データベース４の項目名「ＩｔｅｍＢ」の項目に属する適合文字列を順次読み出す。なお、知識データベース４から適合文字列を読み出すため、インデックス番号ＩＤＸを検索キーとして使用することができる。具体的には、尤度［ｊ＋ｋ，ｊ］は、例えば、次のように算出される。まず、ｊ番目（すなわち、ｊ列目）の項目名に属する項目値として、知識データベース４に登録されている一又は複数の適合文字列から、インデックス番号ＩＤＸをキーとして１つの適合文字列を読み出す。次に、ｊ列目から（ｊ＋ｋ）列目までの罫線枠内の文字列を連結して得られた連結文字列と、インデックス番号ＩＤＸをキーとして読み出された適合文字列との標準化編集距離ＮＥＤを算出する。標準化編集距離ＮＥＤは、知識データベース４に登録されている適合文字列毎に算出される。なお、標準化編集距離ＮＥＤは、知識データベース４に登録されている全ての適合文字列について算出されてもよいし、一部の適合文字列について算出されてもよい。続いて、算出された一又は複数の標準化編集距離ＮＥＤの中からその最小値ＮＥＤ_ＭＩＮを求める。そして、１から最小値ＮＥＤ_ＭＩＮを減算した値を、尤度［ｊ＋ｋ，ｊ］として求めることができる。つまり、尤度は、連結文字列に対し、知識データベース４に登録されている適合文字列の中で最も類似している文字列を選択した時の、２つの文字列の間の一致度を表す。２つの文字列の間の一致度が高い場合、文字列の変形回数は少なくなるので標準化編集距離は小さくなる。よって、ｊ列目から（ｊ＋ｋ）列目までの罫線枠内の文字列を連結することで得られた連結文字列と、ｊ番目（すなわち、ｊ列目）の項目名に属する項目値として知識データベース４に登録されている適合文字列との一致度が高い場合、尤度［ｊ＋ｋ，ｊ］は高い値（すなわち、１に近い値）を示し、一致度が低い場合、尤度［ｊ＋ｋ，ｊ］は低い値（すなわち、０に近い値）を示す。

【0038】

また、尤度は、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）など公知の機械学習方法を用いて、知識データベース４で学習した学習済みモデルの出力に基づいて算出されるものでもよい。なお、学習済みモデルは、大量の表形式文書から得られた文字列データから作成することができる。具体的には、大量の文字列データを用い、大量の文字列データから複数の文字列を無作為に抽出し、それら文字列を連結して連結文字列を生成する。次に、生成された連結文字列である入力文字列データと、知識データベース４に登録されている適合文字列との尤度（例えば、標準化編集距離）を計算する。続いて、各入力文字列データに対応する尤度を、正解ラベル（又はランキング）として付与し教師データとする。そして、入力文字列データと、教師データを用いて、学習済みモデルの出力である推定尤度が正解ラベルに一致するように機械学習することで、学習済みモデルを作成することができる。連結文字列を学習済みモデルに入力することで推定尤度が出力されるので、知識データベース４を参照すること無く、もしくは知識データベース４を用いなくとも、尤度を直接算出することができる。このことは、知識データベース４に登録されている適合文字列が大量にある場合に特に有効であり、知識データベース４を参照するための計算量と、知識データベース４の適合文字列を記憶するためのメモリ量とを削減することができる。

【0039】

ステップＳ３１０において、ステップＳ３０９で得られた連結文字列と、当該連結文字列に隣接する罫線枠内の文字列をもう１つ連結した場合の連結文字列とを比較するため、ｊ列目から（ｊ＋ｋ＋１）列目までの罫線枠を統合し、罫線枠内の文字列を連結し、連結文字列を得る。そして、ステップＳ３０９の処理と同様に知識データベース４を参照し、連結文字列がｊ番目の項目名に属する尤度［ｊ＋ｋ＋１，ｊ］を算出し、尤度Ｌ［ｊ＋ｋ＋１，ｊ］を変数Ｌ２に代入する（ステップＳ３１０）。

【0040】

ステップＳ３１１において、変数Ｌ１の値が変数Ｌ２の値以下であるか確認する（ステップＳ３１１）。変数Ｌ１の値が変数Ｌ２の値以下である場合（ステップＳ３１１のＹｅｓ）、ステップＳ３０９で得られた連結文字列の尤度よりも、当該連結文字列にもう一つの文字列を連結する場合の尤度の方が高いため、処理をステップＳ３１２に進める。Ｌ１の値がＬ２の値より大きい場合（ステップＳ３１１のＮｏ）、処理をステップＳ３１３に進める。

【0041】

ステップＳ３１２において、変数ｋに１を加算し（ステップＳ３１２）、処理をステップＳ３０７に進める。

【0042】

ステップＳ３１３において、ステップＳ３０９で算出された尤度Ｌ［ｊ＋ｋ，ｊ］が、所定の閾値Ｔ１以上であるか確認する（ステップＳ３１３）。
尤度Ｌ［ｊ＋ｋ．ｊ］が所定の閾値Ｔ１以上である場合（ステップＳ３１３のＹｅｓ）、処理をステップＳ３１４に進める。尤度［ｊ＋ｋ，ｊ］が所定の閾値Ｔ１未満の場合（ステップＳ３１３のＮｏ）、処理をステップＳ３１５に進める。ここで、所定の閾値Ｔ１は、罫線枠の統合候補Ｃ[ｊ]が増え過ぎるのを抑制（カットオフ）するための閾値である。例えば、所定の閾値Ｔ１は、０．５に予め設定することができるが、この値に限ることは無い。

【0043】

ステップＳ３１４において、罫線枠の統合候補Ｃ[ｊ]として、ｊ列目から（ｊ＋ｋ）列目までの罫線枠内の文字列を連結して得られた連結文字列と、各罫線枠の行番号と列番号とを、例えば、図示しないメモリＭＥＭに格納する（ステップＳ３１４）。

【0044】

ステップＳ３１５において、変数ｊに１を加算し（ステップＳ３１５）、処理をステップＳ３０４に進める。

【0045】

ステップＳ３１６において、メモリＭＥＭを参照し、罫線枠の統合候補Ｃ[ｊ]について、統合する罫線枠に重複があるか否かを確認する。例えば、ｊ＝１で１列目と２列目の罫線枠が、罫線枠の統合候補Ｃ[ｊ]となり、かつ、ｊ＝２で２列目と３列目の罫線枠が、罫線枠の統合候補Ｃ[ｊ]となったときは、２列目の罫線枠が重複しているため、統合する罫線枠に重複があると判定する。統合する罫線枠に重複がある場合（ステップＳ３１６のＹｅｓ）、処理をステップＳ３１７に進める。統合する罫線枠に重複がない場合（ステップＳ３１６のＮｏ）、処理をステップＳ３１８に進める。なお、ステップＳ３１６では、連結する対象となる文字列に文字認識誤りが無いかどうか判定し、文字認識誤りがあると判定された場合、連結する対象となる文字列を、表知識データベース４に登録されている項目値の中から、最も一致度が高かった適合文字列で置き換えてもよい。

【0046】

ステップＳ３１７において、罫線枠が重複した罫線枠の統合候補Ｃ[ｊ]のうち、重複した統合候補の項目名に属する尤度が、所定の閾値Ｔ１より小さい候補をメモリＭＥＭから棄却する（ステップＳ３１７）。棄却方法として、例えば、尤度が高い順に所定の候補数を残すことでもよい。

【0047】

ステップＳ３１８において、変数ｉに１を加算し（ステップＳ３１８）、処理をステップＳ３０２に進める。なお、ステップＳ３０２からステップＳ３１８までの一連の処理について、表形式文書のすべての罫線枠に対して行う必要はない。例えば、処理の途中で、以降の罫線枠の内容がすべて空欄であることが明らかな場合、ユーザが罫線枠の統合が必要ではないと判断した場合などについては、上記した一連の処理を中止してもよい。

【0048】

図７は、本実施の形態１の表認識装置の動作例を説明する図である。図７（ａ）は、認識対象である表形式文書の例である。図７（ａ）に示した表形式文書には、項目名「ＩｔｅｍＡ」に属する項目値として「ＴｏｔａｌＦａｔ」、項目名「ＩｔｅｍＢ」に属する項目値として「ＳａｔｕｒａｔｅｄＦａｔ」、項目名「ＩｔｅｍＣ」に属する項目値として「２５ｇ」と「９ｇ」とが記載されている。図７（ｂ）は、図７（ａ）に対する表構造認識結果の例である。図７（ｃ）は、図７（ｂ）に対する文字認識結果の例である。図７（ｄ）は、図７（ｃ）を罫線枠の統合判定により得られた文字列認識結果の例である。なお、説明を簡単にするため、項目名「ＩｔｅｍＡ」、「ＩｔｅｍＢ」、及び「ＩｔｅｍＣ」のそれぞれの表の位置は既知とし、また、それぞれの項目名は正しく文字認識されていることとする。以下、図７の項目名の行（１行目）に関する罫線枠統合判定部３の処理の説明は省略し、項目値の先頭行である２行目を新たな１行目と見なして説明する。

【0049】

図７の例では、まず表構造認識部１で、罫線枠５０１から罫線枠５０９がそれぞれ認識される。

【0050】

次に文字認識部２で、罫線枠５０１から罫線枠５０９までのそれぞれの領域内の文字列を認識する。そして、文字認識結果として、文字列５１０から文字列５１７が得られる。

【0051】

ここで、項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」は、２行１列目の罫線枠を超過し、隣接する２行２列目の罫線枠にはみ出している。そのため、この時点における文字認識結果は、文字列５１３（「ＴｏｔａｌＦ」）と、文字列５１４（「ａｔ」）とに分かれている。すなわち、文字列５１３（「ＴｏｔａｌＦ」）は、項目名「ＩｔｅｍＡ」に属する罫線枠５０４の文字列として認識されている。また、文字列５１４（「ａｔ」）は、項目名「ＩｔｅｍＢ」に属する罫線枠５０５の文字列として誤って認識されている。
また、項目名「ＩｔｅｍＢ」に属する項目値「ＳａｔｕｒａｔｅｄＦａｔ」は、罫線枠５０８内ではあるが、語頭の「Ｓ」が縦の罫線に接触している。そのため、縦の罫線の影響により文字認識誤りが生じ、「Ｓ」が「６」に変化している。よって、この時点における文字認識結果は、文字列５１６（「６ｏｔｕｒａｔｅｄＦａｔ」）のように誤って認識されている。更に、項目名「ＩｔｅｍＣ」に属する項目値「９ｇ」が、左詰めにて記入されているため、項目値「６ａｔｕｒａｔｅｄＦａｔ」と「９ｇ」とを連続した文字列とするか否かの判断も必要となっている。

【0052】

続いて、罫線枠統合判定部３で、知識データベース４に登録されている適合文字列（すなわち、項目値として記述されるべき文字列）を参照し、各罫線枠内の項目値（すなわち、文字認識により得られた文字列）が、項目名に属する尤度（すなわち、標準化編集距離の最小値を１から減算した値）に基づいて、どの罫線枠を統合すべきか判定する。言い換えれば、各罫線枠内の文字列が、隣接する左右の罫線枠内の文字列と連結されるべきか判定する。そして、判定結果に基づいて罫線枠内の文字列を連結し、連結した文字列である連結文字列、もしくは連結しない単独の文字列である単独文字列を、最終的な統合判断結果であり認識結果でもある統合文字列として出力する。

【0053】

図６のフローチャートに示した処理を適宜参照しながら、罫線枠統合判定部３の具体的な動作を説明する。まず、表の項目値の１行目（ｉ＝１）において、罫線枠５０４（すなわち、文字列５１３（「ＴｏｔａｌＦ」））と、罫線枠５０５（すなわち、文字列５１４（「ａｔ」））と、罫線枠５０６（すなわち、文字列５１５「２５ｇ」）と、知識データベース４に登録されている適合文字列とを評価する場合を考える。
説明を簡単にするため、知識データベース４の項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」、項目「Ｂ」に属する項目値「ＴｒａｎｓＦａｔ」、及び、項目名「ＩｔｅｍＣ」に属する「［＊ＮＵＭ＊］ｇ」の場合についてのみ述べる。

【0054】

まず、変数ｉ＝１、変数ｊ＝１のとき、ｊが項目数以下であるか判定する（ステップＳ３０４）。２行目の項目数は３のため、ｊは項目数以下であり（ステップＳ３０４のＹｅｓ）、ｊ列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０５）。変数ｉ＝１、変数ｊ＝１のとき、ｊ列目の罫線枠（すなわち、罫線枠５０４）に文字列５１３が存在するので（ステップＳ３０５のＹｅｓ）、変数ｋに０が代入される（ステップＳ３０６）。ステップＳ３０７において、２行目の項目数は３のため、項目数から（ｊ＋１）を減算した値はｋ（＝０）より大きいので（ステップＳ３０７のＹｅｓ）、ステップＳ３０８に進む。
次に、（ｊ＋ｋ）列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０８）。（ｊ＋ｋ）列目の罫線枠（ｋ＝０であり、すなわち、罫線枠５０４）には文字列５１３が存在するので（ステップＳ３０８のＹｅｓ）、変数Ｌ１が計算され（ステップＳ３０９）、変数Ｌ２が計算される（ステップＳ３１０）。ここで、変数Ｌ１は、罫線枠５０４内の文字列５１３「ＴｏｔａｌＦ」と、知識データベース４の項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」との尤度であり、文字列５１３「ＴｏｔａｌＦ」と、適合文字列「ＴｏｔａｌＦａｔ」との標準化編集距離ＮＥＤから算出することができる。また、変数Ｌ２は、罫線枠５０４と罫線枠５０５とを連結して得られた連結文字列である「ＴｏｔａｌＦａｔ」と、知識データベース４の項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」との尤度であり、連結文字列「ＴｏｔａｌＦａｔ」と、適合文字列「ＴｏｔａｌＦａｔ」との標準化編集距離ＮＥＤから算出することができる。続いて、変数Ｌ１と変数Ｌ２とが比較される（ステップＳ３１１）。
ここで、標準化編集距離ＮＥＤの算出において、文字列「ＴｏｔａｌＦ」を、項目値「ＴｏｔａｌＦａｔ」に変換する場合、２文字の置換が必要である。「ＴｏｔａｌＦａｔ」の文字列の長さは、空白文字を含み、９となる。よって、変数Ｌ１は、１－（２／９）＝０．７８８である。一方、連結文字列「ＴｏｔａｌＦａｔ」を、項目値「ＴｏｔａｌＦａｔ」に変換する場合、置換無し（すなわち、０文字の置換）である。よって、変数Ｌ２は、１－（０／９）＝１．０となる。変数Ｌ１と変数Ｌ２を比較した結果、Ｌ１＜Ｌ２であり（ステップＳ３１１のＹｅｓ）、変数ｋに１が加えられる（ステップＳ３１２）。そして、ステップＳ３０７に戻る。

【0055】

ステップＳ３０７において、２行目の項目数は３のため、項目数から（ｊ＋１）を減算した値はｋ（＝１）と等しいので（ステップＳ３０７のＹｅｓ）、ステップＳ３０８に進む。
上記と同様に、（ｊ＋ｋ）列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０８）。（ｊ＋ｋ）列目の罫線枠（すなわち、罫線枠５０５）には文字列５１４「ａｔ」が存在するので（ステップＳ３０５のＹｅｓ）、変数Ｌ１が計算され（ステップＳ３０９）、変数Ｌ２が計算される（ステップＳ３１０）。ここで、変数Ｌ１は、罫線枠５０４と罫線枠５０５とを連結して得られた連結文字列である「ＴｏｔａｌＦａｔ」と、知識データベース４の項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。また、変数Ｌ２は、罫線枠５０４と罫線枠５０５、及び罫線枠５０６とを連結して得られた連結文字列である「ＴｏｔａｌＦａｔ２５ｇ」と、知識データベース４の項目名「ＩｔｅｍＢ」に属する項目値「ＴｏｔａｌＦａｔ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。続いて、変数Ｌ１と変数Ｌ２とが比較される（ステップＳ３１１）。
ここで、標準化編集距離ＮＥＤの算出において、連結文字列「ＴｏｔａｌＦａｔ」を、項目値「ＴｏｔａｌＦａｔ」に変換する場合、置換無し（すなわち、０文字の置換）である。よって、変数Ｌ１は、１－（０／９）＝１．０となる。一方、連結文字列「ＴｏｔａｌＦａｔ２５ｇ」を、項目値「ＴｏｔａｌＦａｔ」に変換する場合、４文字の置換が必要である。よって、変数Ｌ２は、１－４／９＝０．５５６となる。変数Ｌ１と変数Ｌ２を比較した結果、Ｌ１＞Ｌ２であり（ステップＳ３１１のＮｏ）、ステップＳ３１３に進む。
ステップＳ３１３において、直前で計算された変数Ｌ１は、所定の閾値Ｔ１＝０．５よりも大きいので（ステップＳ３１３のＹｅｓ）、罫線枠５０４と罫線枠５０５とが、罫線枠の統合候補Ｃ[ｊ]となる（ステップＳ３１４）。そして、変数ｊに１が加えられ（ステップＳ３１５）、ステップＳ３０４の先頭に戻る。

【0056】

続いて、変数ｉ＝１、変数ｊ＝２のとき、ｊが項目数以下であるか判定する（ステップＳ３０４）。２行目の項目数は３のため、ｊは項目数以下であり（ステップＳ３０４のＹｅｓ）、ｊ列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０５）。変数ｉ＝１、変数ｊ＝２のとき、ｊ列目の罫線枠（すなわち、罫線枠５０５）に文字列５１４が存在するので（ステップＳ３０５のＹｅｓ）、変数ｋに０が代入される（ステップＳ３０６）。ステップＳ３０７において、２行目の項目数は３のため、項目数から（ｊ＋１）を減算した値はｋ（＝０）より大きいので（ステップＳ３０７のＹｅｓ）、ステップＳ３０８に進む。
次に、（ｊ＋ｋ）列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０８）。（ｊ＋ｋ）列目の罫線枠（ｋ＝０であり、すなわち、罫線枠５０５）には文字列４１３が存在するので（ステップＳ３０８のＹｅｓ）、変数Ｌ１が計算され（ステップＳ３０９）、変数Ｌ２が計算される（ステップＳ３１０）。ここで、変数Ｌ１は、罫線枠５０５内の文字列５１４「ａｔ」と、知識データベース４の項目名「ＩｔｅｍＢ」に属する「ＴｒａｎｓＦａｔ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。また、変数Ｌ２は、罫線枠５０５内の文字列と罫線枠５０６内の文字列とを連結して得られた連結文字列である「ａｔ２５ｇ」と、知識データベース４の項目名「ＩｔｅｍＢ」に属する項目値「ＴｒａｎｓＦａｔ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。続いて、変数Ｌ１と変数Ｌ２とが比較される（ステップＳ３１１）。
ここで、標準化編集距離ＮＥＤの算出において、文字列「ａｔ」を、項目値「ＴｒａｎｓＦａｔ」に変換する場合、７文字の置換が必要である。「ＴｒａｎｓＦａｔ」の文字列の長さは、空白文字を含み、９である。よって、変数Ｌ１は、１－（７／９）＝０．２２２となる。一方、連結文字列「ａｔ２５ｇ」を、項目値「ＴｒａｎｓＦａｔ」に変換する場合、１１文字の置換が必要である。よって、変数Ｌ２は、１－１１／９＝０．０（０以下の場合は、０に制限する）となる。変数Ｌ１と変数Ｌ２を比較した結果、Ｌ１＞Ｌ２であり（ステップＳ３１１のＮｏ）、ステップＳ３１３に進む。
ステップＳ３１３において、直前で計算された変数Ｌ１は、所定の閾値Ｔ１＝０．５よりも小さいので（ステップＳ３１３のＮｏ）、罫線枠の統合候補Ｃ[ｊ]とはならず、ステップＳ３１５へ進み、そして、変数ｊに１が加えられ（ステップＳ３１５）、ステップＳ３０４の先頭に戻る。

【0057】

最後に、変数ｉ＝１、変数ｊ＝３のとき、ｊが項目数以下であるか判定する（ステップＳ３０４）。２行目の項目数は３のため、ｊは項目数以下であり（ステップＳ３０４のＹｅｓ）、ｊ列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０５）。変数ｉ＝１、変数ｊ＝３のとき、ｊ列目の罫線枠（すなわち、罫線枠５０６）に文字列５１４が存在するので（ステップＳ３０５のＹｅｓ）、変数ｋに０が代入される（ステップＳ３０６）。ステップＳ３０７において、２行目の項目数は３のため、項目数から（ｊ＋１）を減算した値はｋ（＝０）より小さいので（ステップＳ３０７のＮｏ）、ステップＳ３１３に進む。
ステップＳ３１３において、変数Ｌ１が計算される。ここで、変数Ｌ１は、罫線枠５０６内の文字列５１５「２５ｇ」と、知識データベース４の項目名「ＩｔｅｍＣ」に属する項目名「［＊ＮＵＭ＊］ｇ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。
ここで、標準化編集距離ＮＥＤの算出において、文字列「２５ｇ」を、項目値「［＊ＮＵＭ＊］ｇ」に変換する場合、［＊ＮＵＭ＊］はワイルドカードであり任意の数値が入るので、置換無しである。よって、変数Ｌ１は、１．０であり、所定の閾値Ｔ１＝０．５よりも大きいので（ステップＳ３１３のＹｅｓ）、統合されていない単独の罫線枠５０６が、罫線枠の統合候補Ｃ[ｊ]となる（ステップＳ３１４）。

【0058】

以上、表の項目名の１行目（変数ｉ＝１）に属する全ての罫線枠を評価し、罫線枠５０４と罫線枠５０５の組と、単独の罫線枠５０５が罫線枠の統合候補Ｃ[ｊ]として得られた。そして、ステップＳ３１６において、統合する罫線枠に重複が有るか否かを判定する。統合する罫線枠に重複が無いので（ステップＳ３１６のＮｏ）、文字列５１３「ＴｏｔａｌＦ」と文字列５１４「ａｔ」とに分割されて認識された文字列が、連結文字列「ＴｏｔａｌＦａｔ」として一つの文字列に連結される。

【0059】

続いて、ステップＳ３１６において、連結文字列もしくは単独文字列に文字認識誤りが無いかどうか、尤度を用いて判定する。文字列５１３「ＴｏｔａｌＦ」と文字列５１４「ａｔ」とを連結した連結文字列の尤度は１．０（すなわち、項目値に記載されるべき文字列と完全一致）であるので、連結文字列は正しく認識されたと判断され、文字列５２１（「ＴｏｔａｌＦａｔ」）が、最終的な統合判断結果であり認識結果でもある統合文字列として出力される。また、文字列５１５は、連結しない単独の文字列である単独文字列として取り扱われる。この時の尤度は１．０であるので、文字列５１３と文字列５１４と同様、文字列５１５は正しく認識されたと判断され、文字列５２２（「２５ｇ」）が、最終的な統合判断結果であり認識結果でもある統合文字列として出力される。

【0060】

次に、表の項目値の２行目（ｉ＝２）において、罫線枠５０８（すなわち、文字列５１６（「６ａｔｕｒａｔｅｄＦａｔ」））と、罫線枠５０９（すなわち、文字列５１７（「９ｇ」））と、知識データベース４に登録されている適合文字列とを評価する場合について考える。
説明を簡単にするため、知識データベース４の項目「ＩｔｅｍＢ」に属する項目値「ＳａｔｕｒａｔｅｄＦａｔ」、項目名「ＩｔｅｍＣ」に属する「［＊ＮＵＭ＊］ｇ」の場合についてのみ述べる。

【0061】

まず、変数ｉ＝２、変数ｊ＝１のとき、ｊが項目数以下であるか判定する（ステップＳ３０４）。３行目の項目数は３のため、ｊは項目数以下であり（ステップＳ３０４のＹｅｓ）、ｊ列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０５）。変数ｉ＝２、変数ｊ＝１のとき、ｊ列目の罫線枠（すなわち、罫線枠５０７）に文字列は存在しないので（ステップＳ３０５のＮｏ）、変数ｊに１が加えられ（ステップＳ３１５）、ステップＳ３０４の先頭に戻る。
続いて、変数ｉ＝２、変数ｊ＝２のとき、ｊが項目数以下であるか判定する（ステップＳ３０４）。３行目の項目数は３のため、ｊは項目数以下であり（ステップＳ３０４のＹｅｓ）、ｊ列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０５）。変数ｉ＝２、変数ｊ＝２のとき、ｊ列目の罫線枠（すなわち、罫線枠５０８）に文字列５１６が存在するので（ステップＳ３０５のＹｅｓ）、変数ｋに０が代入される（ステップＳ３０６）。ステップＳ３０７において、３行目の項目数は３のため、項目数から（ｊ＋１）を減算した値はｋ（＝０）と等しいので（ステップＳ３０７のＹｅｓ）、ステップＳ３０８に進む。
次に、（ｊ＋ｋ）列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０８）。（ｊ＋ｋ）列目の罫線枠（ｋ＝０であり、すなわち、罫線枠５０８）には文字列５１６が存在するので（ステップＳ３０８のＹｅｓ）、変数Ｌ１が計算され（ステップＳ３０９）、変数Ｌ２が計算される（ステップＳ３１０）。ここで、変数Ｌ１は、罫線枠５０８内の文字列５１６「６ａｔｕｒａｔｅｄＦａｔ」と、知識データベース４の項目名「ＩｔｅｍＢ」に属する項目値「ＳａｔｕｒａｔｅｄＦａｔ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。また、変数Ｌ２は、罫線枠５０８内の文字列と罫線枠５０９内の文字列とを連結して得られた連結文字列である「６ａｔｕｒａｔｅｄＦａｔ９ｇ」と、知識データベース４の項目名「ＩｔｅｍＢ」に属する項目値「ＳａｔｕｒａｔｅｄＦａｔ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。続いて、変数Ｌ１と変数Ｌ２とが比較される（ステップＳ３１１）。
ここで、標準化編集距離ＮＥＤの算出において、文字列「６ａｔｕｒａｔｅｄＦａｔ」を、項目値「ＳａｔｕｒａｔｅｄＦａｔ」に変換する場合、１文字の置換が必要である。「ＳａｔｕｒａｔｅｄＦａｔ」の文字列の長さは、空白文字を含み、１３である。よって、変数Ｌ１は、１－（１／１３）＝０．９２３となる。一方、連結文字列「６ａｔｕｒａｔｅｄＦａｔ９ｇ」を、項目値「ＳａｔｕｒａｔｅｄＦａｔ」に変換する場合、３文字の置換が必要である。「６ａｔｕｒａｔｅｄＦａｔ９ｇ」の文字列の長さは、空白文字を含み、１５である。よって、変数Ｌ２は、１－３／１５＝０．８となる。変数Ｌ１と変数Ｌ２を比較した結果、Ｌ１＞Ｌ２であり（ステップＳ３１１のＮｏ）、ステップＳ３１３に進む。
ステップＳ３１３において、直前で計算された変数Ｌ１は、所定の閾値Ｔ１＝０．５よりも大きいので（ステップＳ３１３のＹｅｓ）、統合されていない単独の罫線枠５０８が、罫線枠の統合候補Ｃ[ｊ]となる（ステップＳ３１４）。
そして、変数ｊに１が加えられ（ステップＳ３１５）、ステップＳ３０４の先頭に戻る。

【0062】

最後に、変数ｉ＝２、変数ｊ＝３のとき、ｊが項目数以下であるか判定する（ステップＳ３０４）。３行目の項目数は３のため、ｊは項目数以下であり（ステップＳ３０４のＹｅｓ）、ｊ列目の罫線枠内に文字認識結果があるか判定する（ステップＳ３０５）。変数ｉ＝２、変数ｊ＝３のとき、ｊ列目の罫線枠（すなわち、罫線枠５０９）に文字列５１７が存在するので（ステップＳ３０５のＹｅｓ）、変数ｋに０が代入される（ステップＳ３０６）。ステップＳ３０７において、３行目の項目数は３のため、項目数から（ｊ＋１）を減算した値はｋ（＝０）より小さいので（ステップＳ３０７のＮｏ）、ステップＳ３１３に進む。
ステップＳ３１３において、変数Ｌ１が計算される。ここで、変数Ｌ１は、罫線枠５０９内の文字列５１７「９ｇ」と、知識データベース４の項目名「ＩｔｅｍＣ」に属する項目名「［＊ＮＵＭ＊］ｇ」との尤度であり、標準化編集距離ＮＥＤから算出することができる。
ここで、標準化編集距離ＮＥＤの算出において、文字列「９ｇ」を、項目値「［＊ＮＵＭ＊］ｇ」に変換する場合、［＊ＮＵＭ＊］はワイルドカードであり、任意の数値を入れることが可能なので、置換無しである。よって、変数Ｌ１は、１．０であり、所定の閾値Ｔ１＝０．５よりも大きいので（ステップＳ３１３のＹｅｓ）、統合されていない単独の罫線枠５０９が、罫線枠の統合候補Ｃ[ｊ]となる（ステップＳ３１４）。

【0063】

以上、表の項目値の２行目（変数ｉ＝２）に属する全ての罫線枠を評価し、単独の罫線枠５０８と、単独の罫線枠５０９とが罫線枠の統合候補Ｃ[ｊ]として得られた。そして、ステップＳ３１６において、統合する罫線枠に重複が有るか否かを判定する。統合する罫線枠に重複が無いので（ステップＳ３１６のＮｏ）、罫線枠５０８内の文字列５１６と、罫線枠５０９内の文字列５１７とは、それぞれ連結しない単独の文字列として取り扱われる。

【0064】

続いて、ステップＳ３１３において、連結文字列もしくは単独文字列に文字認識誤りが無いかどうか、尤度を用いて判定する。文字列５１６の尤度は０．９２３、すなわち、項目値に記載されるべき文字列と完全一致ではないので、尤度の値と誤り判定のための所定の閾値Ｔ２とを比較する。このとき、誤り判定のための所定の閾値Ｔ２として、例えば０．７が好適であり予め設定することができる。文字列５１６の尤度（０．９２３）の値は、誤り判定のための所定の閾値Ｔ２（０．７）以上であるため、この文字列には誤りがあると推測される。そこで、文字列５１６の代わりとして、文字列５２３の文字列を、知識データベース４に登録されている適合文字列の中で最も尤度の高かった文字列「ＳａｔｕｒａｔｅｄＦａｔ」に置き換える。そして、文字列５２３は、最終的な統合判断結果であり認識結果でもある統合文字列として出力される。
一方、文字列５１７の尤度は１．０であるので、文字列５１７は正しく認識されたと判断され、文字列５２４（「９ｇ」）が、最終的な統合判断結果であり認識結果でもある統合文字列として出力される。
なお、連結文字列もしくは単独文字列の尤度が１．０（すなわち、完全一致）の場合であっても、連結文字列もしくは単独文字列の代わりに、知識データベース４に登録されている適合文字列の中で最も尤度が高かった文字列に置き換えても構わない。これは、置換しても同じ文字列になるからである。つまり、尤度が、１．０の場合を含めて誤り判定のための所定の閾値Ｔ２以上の場合、知識データベース４に登録されている適合文字列の中で最も尤度の高かった文字列に置き換えてもよい。言い換えれば、尤度が、誤り判定のための所定の閾値Ｔ２以上の場合、当該尤度を算出するのに用いた知識データベース４に登録されている適合文字列に置き換えてもよい。

【0065】

なお、連結文字列の尤度が、誤り判定のための所定の閾値Ｔ２（例えば、０．７）未満の場合、例えば、文字列自体は正しく認識されているが、知識データベース４に登録されている適合文字列との一致度が低い場合が考えられる。その場合、連結文字列もしくは単独文字列を知識データベース４に登録されている適合文字列に置換せず、そのまま出力してもよい。

【0066】

以上の処理を全ての罫線枠について行い、罫線枠の最終的な統合判断から得られる統合文字列として、文字列５１８から文字列５２４がそれぞれ得られる。

【0067】

この実施の形態１では、表認識装置の具体的な動作例について、表形式文書の項目値に属する罫線枠についてのみ説明したがこれに限らない。例えば、項目名に関しても項目値と同様に認識することが可能である。この場合、例えば、知識データベース４に項目名に関する適合文字列を登録しておき、項目名に属する罫線枠に対し、項目値に属する罫線枠の場合と同様な処理を行うことができる。

【0068】

上記したように、罫線枠統合判定部３は、罫線枠の統合判定において、隣接する罫線枠の罫線枠情報を用いない。よって、罫線枠情報に依存せずに、罫線枠を正しく統合することが可能である。

【0069】

また、罫線枠統合判定部３は、知識データベース４に登録されている適合文字列を参照し、連結文字列が無意味な文字列の羅列では無く、意味を成す可能性が高い場合（すなわち、尤度が高く、項目名又は項目値に近いと判断される場合）、連結すべきと判定する。よって、項目名又は項目値の一部に間違いがある状態（例えば、文字認識誤り、誤記、記載内容の一部省略、など）でも、罫線枠を統合させることが可能である。更に、知識データベース４に登録されている適合文字列に近い文字列に置換することができるので、正しい文字列を出力することができる。

【0070】

以上、実施の形態１にて詳述した表認識装置は、各枠線内の文字認識結果の項目に属する一致度として尤度を算出し、算出された尤度に基づいてどの文字列を連結すべきか判定するようにした。
よって、罫線枠情報に依存せずに、複数の罫線枠にまたがって記載された文字列を正確に認識することができる。

【0071】

また、実施の形態１にて詳述した表認識装置は、知識データベースに登録されている適合文字列を参照し、連結文字列が意味を成す可能性が高い場合に連結すべきと判定するようにした。更に、連結文字列を、知識データベースに登録されている適合文字列に近い文字列に置換するようにした。
よって、項目名又は項目名に文字認識誤りがあっても、正確に文字列を連結させることが可能となるだけでなく、同時に文字認識結果の誤り訂正も可能となる相乗効果を得ることができる。

【0072】

実施の形態２．
上述した実施の形態１では、罫線枠の統合判定に知識データベースを用いているが、これに限らない。例えば、罫線枠の統合判定において、統合文字列として記述可能な適合文字列に制約する情報である表構造の制約の情報を利用することもできる。この構成を実施の形態２として説明する。

【0073】

図８は、実施の形態２における表認識装置１００の構成を表す機能構成図である。図１と比較して新たな構成は、表構造知識データベース５である。その他の構成と動作については図１と同様であり、説明を省略する。

【0074】

表構造知識データベース５は、統合文字列として罫線枠内に記述可能な適合文字列を制約する情報である表構造の制約の情報を記憶する。例えば、表構造の制約の情報は、周辺の罫線枠内の文字列情報に基づき、知識データベース４内に定められている複数の適合文字列の中から、統合文字列として罫線枠内に記述可能な適合文字列を制約する情報である。より具体的に言えば、例えば、表構造の制約の情報は、表の項目が大項目、中項目、小項目のように分類を表す場合、それら項目と項目の間にある関係性を示す情報である。例えば、表構造知識データベース５は、知識データベース４と同様な方法で、項目名に属する項目値として記述可能な適合文字列が登録されていてもよい。図９は、表構造知識データベース５の一例である。図９に示した表構造の制約の情報として、左側の列に、項目名「ＩｔｅｍＡ」に属する適合文字列（制約文字列と称する）が登録されている。また、右側の列に、項目名「ＩｔｅｍＡ」の適合文字列（すなわち、制約文字列）が記述された場合に、隣接する項目名「ＩｔｅｍＢ」に記述可能な適合文字列（記述可能文字列と称する）が登録されている。なお、表構造知識データベース５は、適合文字列の文字列は１つの単語に限らず、複数の単語、文節もしくは文章であってもよい。

【0075】

罫線枠統合判定部３は、知識データベース４と表構造知識データベース５と、図示しないメモリＭＥＭに記憶されている罫線枠の統合候補Ｃ[ｊ]とを参照して、表構造の制約の情報を用いて複数の適合文字列の中から１以上の適合文字列に限定する。そして、限定された１以上の適合文字列と文字認識部２が認識した文字列との一致度を算出し、一致度の高さに応じてどの罫線枠を統合すべきかを判定する。
本実施の形態２では、例えば、罫線枠統合判定部３は、表構造知識データベース５を参照して、罫線枠の統合候補Ｃ[ｊ]が所定の項目名に属する項目値（制約文字列）に該当する場合、知識データベース４に対し、当該所定の項目名に隣接する他の項目名に属する項目値の候補（すなわち、統合文字列）を、記述可能文字列に制約することで１以上の適合文字列に限定する。

【0076】

図１０は、実施の形態２における罫線統合判定部３の動作順序を表すフローチャートである。図１０において、図６と比較して異なるステップは、ステップＳ３０９ＡとステップＳ３１０Ａである。図６と同じ番号を付与したステップは、実施の形態１にて示した処理と同様の処理を行うため、説明を省略する。

【0077】

ステップＳ３０９Ａにおいて、ｊ列目から（ｊ＋ｋ）列目までの罫線枠を統合し、罫線枠内の文字列を連結し、連結文字列を得る。そして、表制約情報データベース５と、メモリＭＥＭ内に記憶されている罫線枠の統合候補Ｃ[ｊ－１]とを参照し、得られた連結文字列に隣接する連結文字列である罫線枠の統合候補Ｃ[ｊ－１]が、得られた連結文字列に対する制約文字列か否かを判定する（ステップＳ３０９Ａ）。
罫線枠の統合候補Ｃ[ｊ－１]が制約文字列に該当する場合、知識データベース４中のｊ番目（すなわち、ｊ列目）の項目名に属する適合文字列を、表構造知識データベース５に記載された記述可能文字列に制約する。そして、連結文字列がｊ列目の項目名に属する尤度［ｊ＋ｋ，ｊ］を算出し、尤度Ｌ［ｊ＋ｋ，ｊ］を変数Ｌ１に代入する。罫線枠の統合候補Ｃ[ｊ－１]が制約文字列に該当しない場合、表構造知識データベース５による制約は行わず、連結文字列がｊ列目の項目名に属する尤度［ｊ＋ｋ，ｊ］を算出し、尤度Ｌ［ｊ＋ｋ，ｊ］を変数Ｌ１に代入する（ステップＳ３０９Ａ）。

【0078】

ステップＳ３１０Ａにおいて、ｊ列目から（ｊ＋ｋ＋１）列目までの罫線枠を統合し、罫線枠内の文字列を連結し、連結文字列を得る。そして、ステップＳ３０９Ａの処理と同様に、表制約情報データベース５と、メモリＭＥＭ内に記憶されている罫線枠の統合候補Ｃ[ｊ－１]とを参照し、得られた連結文字列に隣接する連結文字列である罫線枠の統合候補Ｃ[ｊ－１]が、得られた連結文字列に対する制約文字列か否かを判定する（ステップＳ３１０Ａ）。
罫線枠の統合候補Ｃ[ｊ－１]が制約文字列に該当する場合、知識データベース４中のｊ番目（すなわち、ｊ列目）の項目名に属する適合文字列を、表構造知識データベース５に記載された記述可能文字列に制約する。そして、連結文字列がｊ番目の項目名に属する尤度［ｊ＋ｋ＋１，ｊ］を算出し、尤度Ｌ［ｊ＋ｋ＋１，ｊ］を変数Ｌ２に代入する。罫線枠の統合候補Ｃ[ｊ－１]が制約文字列に該当しない場合、表構造知識データベース５による制約は行わず、連結文字列がｊ番目の項目名に属する尤度［ｊ＋ｋ＋１，ｊ］を算出し、尤度Ｌ［ｊ＋ｋ＋１，ｊ］を変数Ｌ２に代入する（ステップＳ３１０Ａ）。

【0079】

前出の図７に示した表を対象に、図９に示した表構造知識データベース５を用いて、本実施の形態２の表認識装置の動作の具体的な一例を説明する。

【0080】

罫線枠統合判定部３は、表構造知識データベース５を参照し、各罫線枠内の文字認識結果が項目に属する尤度を算出する際に用いる知識データベース４に制約を加える。
具体的には、図７（ｄ）において、項目名「ＩｔｅｍＡ」に属する項目値として、文字列５２１（「ＴｏｔａｌＦａｔ」）が得られると、図９の表構造知識データベース５を参照して、隣接する項目名「ＩｔｅｍＢ」に属する項目値の記述可能文字列の候補は、「ＳａｔｕｒａｔｅｄＦａｔ」又は「ＴｒａｎｓＦａｔ」に制約される。

【0081】

隣接する項目名に属する項目値の候補である統合文字列を、記述可能な適合文字列に制約することで、罫線枠の統合のための候補をより正確な文字列に限定することができ、罫線枠の統合判定の精度を向上させることができる。更に、罫線枠の統合のための候補数を削減することができるので、尤度計算のための処理量を少なくすることができる。

【0082】

以上、実施の形態２にて詳述した表認識装置は、罫線枠の統合判定において、統合文字列として記述可能な適合文字列に制約する情報である表構造の制約の情報を用いて１以上の適合文字列に限定しているので、罫線枠の統合判定の精度を向上させることができる。

【0083】

実施の形態３．
罫線枠の統合判定において、罫線に近接する文字が誤って認識されている可能性を考慮して判定することもできる。この構成を実施の形態３として説明する。

【0084】

罫線枠統合判定３は、認識結果の文字列がある項目に属する尤度を算出する際、文字単位で「重み付け」することで、罫線に近接する文字の誤認識の影響を小さくするようにする。
例えば、尤度として標準化編集距離を用いる場合、標準化編集距離算出時の挿入、削除、置換などの文字変換のコスト計算において、罫線に近接する文字の文字変換にかかるコストの値を小さく重み付けすることができる。コストの値の重み付けの値は、通常の１に対し、例えば、０．５が好適であるが、これに限らない。例えば、罫線の種類などに応じて、コストの値の重み付けの値は適宜変更することができる。
罫線に近接する文字の文字変換にかかるコストの値を小さくするように重み付けすることで、罫線に近接する文字の誤認識の影響を抑制することができる。言い換えれば、罫線に近接する文字の誤認識を許容することができる。

【0085】

なお、罫線に文字が近接しているか否については、例えば、罫線に文字が接触する場合、罫線に文字が近接していると判断される。また、罫線に文字が接触していない場合であっても、例えば、罫線から文字までの距離で判断されてもよい。この場合、罫線から文字までの距離が所定の閾値より近い場合、罫線に文字が近接していると判断される。なお、罫線から文字までの距離の閾値は、例えば、罫線の太さ、文字の大きさ等に応じた値を予め設定することができる。具体的には、罫線の太さの３倍の距離を、罫線から文字までの距離の閾値とすることができる。また、一つの罫線枠内の文字列において、近接と判断される文字の数は１文字に限らない。例えば、「ＡＢＣ」という３文字の文字列で、「Ｂ」及び「Ｃ」の罫線から文字までの距離が所定の閾値より近い場合、文字「Ｂ」と文字「Ｃ」は、罫線と近接していると判断される。つまり、文字「Ｂ」と文字「Ｃ」は、共にコストの値の重み付けの対象とすることができる。

【0086】

図１１は、本実施の形態３の表認識装置の動作の具体的な一例である。図１１（ａ）は、認識対象の表の例である。図１１（ａ）に示した表は、項目名「ＩｔｅｍＡ」に属する項目値として「ＴｏｔａｌＦａｔ」、項目名「ＩｔｅｍＣ」に属する項目値として「２５ｇ」を持つ。図１１（ｂ）は、図１１（ａ）に対する表構造認識結果の例である。図１１（ｃ）は、図１１（ｂ）に対する文字認識結果の例である。図１１（ｄ）は、図１１（ｃ）を罫線枠の統合判定により得られた文字列認識結果の例である。

【0087】

図１１の例では、まず表構造認識部１で、罫線枠６０１から罫線枠６０６がそれぞれ認識される。

【0088】

次に、文字認識部２で、各罫線枠内の文字列６０７から文字列６１２がそれぞれ認識される。ここで、図１１（ｃ）に示すように、文字列６１０は、縦の二重罫線と近接する文字「Ｆ」が、文字「Ｐ」に誤って認識されている。また、文字列６１１は、縦の二重罫線と近接する文字「ａ」が、文字「ｐ」に誤って認識されている。

【0089】

続いて、罫線枠統合判定部３の具体的な動作を説明する。
罫線枠６０４（すなわち、文字列６１０（「ＴｏｔａｌＰ」））と、罫線枠６０５（すなわち、文字列６１１（「ｐｔ」））とを連結して得られた連結文字列（すなわち、「ＴｏｔａｌＰｐｔ」）と、知識データベース４に登録されている適合文字列とを評価する場合を考える。説明を簡単にするため、知識データベース４の項目名「ＩｔｅｍＡ」に属する項目値「ＴｏｔａｌＦａｔ」の場合についてのみ述べる。

【0090】

まず、罫線枠に近接する文字のコストの値の重み付けを行わない場合について説明する。連結して得られた連結文字列「ＴｏｔａｌＰｐｔ」を「ＴｏｔａｌＦａｔ」に変換する場合、「Ｐｐ」の２文字の置換が必要である。また、「ＴｏｔａｌＦａｔ」の文字列の長さは、空白文字を含み、９である。よって、尤度は、１－（２／９）＝０．７７８となる。

【0091】

次に、尤度の計算において、罫線に近接する文字の文字変換にかかるコストの値の重みを０．５に設定する場合を説明する。この場合、文字「Ｐ」及び文字「ｐ」が、コストの値の重み付けの対象となる。連結して得られた連結文字列「ＴｏｔａｌＰｐｔ」を「ＴｏｔａｌＦａｔ」に変換する場合、尤度は、１－（０．５×２／９）＝０．８８９となる。

【0092】

上記のように、コストの値の重み付けを行わない場合の尤度０．７７８に対して、コストの値の重み付けを行う場合は尤度０．８８９となる。つまり、コストの値の重み付けを行わない場合と比較して尤度は高くなり、他の項目名の文字列が、（正しい文字列と）誤って採用される可能性を低減することができる。よって、罫線枠の統合判定の精度を更に向上させることができる。

【0093】

なお、上記した具体例では、縦の罫線に近接する文字について、コストの値を小さく重み付けしたが、これに限らない。例えば、横の罫線に近接する文字についても、同様の処理を行うことが可能であり、上記したのと同様の効果を奏功する。

【0094】

以上、実施の形態３にて詳述した表認識装置は、罫線枠統合判定部の尤度の計算において、罫線に近接する文字の文字変換にかかるコストの値を小さく重み付けした。
よって、他の文字と比較して誤認識されている可能性の高い文字の影響が抑制されるので、罫線枠統合判定の精度を更に向上させることができる。

【0095】

上述した実施の形態のそれぞれにおいて、２つの文字列の間の一致度の一例として、尤度について示したが、これに限定されるものではない。例えば、文字列をベクトル表現し、２つの文字列ベクトルの間のコサイン類似度を一致度として用いてもよい。例えば、コサイン類似度が１に近い場合は、２つの文字ベクトルは類似していることとなり、一致度が高くなる、一方、コサイン類似度が０に近い場合は、２つの文字ベクトルは類似しておらず、一致度が低くなる。

【0096】

なお、上述した実施の形態のそれぞれにおいて、罫線枠統合判定の処理は、横書き又は左横書き言語に限定されることは無い。例えば、上述した実施の形態による表認識装置は、縦書き文書のような行と列が入れ替わった表でも適用可能である。例えば、上述した実施の形態による表認識装置は、アラビア語のように右から記述が開始される言語でも適用可能である。

【0097】

上記以外にも、同様の機能・効果が得られる構成であれば、それを用いた形態としてもよい。更に、本開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

【符号の説明】

【0098】

１表構造認識部、２文字認識部、３罫線枠統合判定部、４知識データベース、５表構造知識データベース、
１００表認識装置、１０１プロセッサ、１０２メモリ、１０３外部記憶装置、１０４入出力インタフェース。

【図1】