特許7487532 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7487532画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-05-13

(45)【発行日】2024-05-21

(54)【発明の名称】画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体

(51)【国際特許分類】

G06V 30/148 20220101AFI20240514BHJP

G06T 7/00 20170101ALI20240514BHJP

G06V 30/24 20220101ALI20240514BHJP

【ＦＩ】

G06V30/148

G06T7/00 350Z

G06V30/24

【請求項の数】 7

(21)【出願番号】P 2020066804

(22)【出願日】2020-04-02

(65)【公開番号】P2020173802

(43)【公開日】2020-10-22

【審査請求日】2023-01-12

(31)【優先権主張番号】201910288895.6

(32)【優先日】2019-04-11

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】シア・シアオジエ

(72)【発明者】

【氏名】孫俊

(72)【発明者】

【氏名】ユィ・シアオイ

【審査官】長谷川素直

(56)【参考文献】

【文献】特開２００１－２８３１５６（ＪＰ，Ａ）

【文献】特開２０１８－１０１２４４（ＪＰ，Ａ）

【文献】特開平０１－０６５６８０（ＪＰ，Ａ）

【文献】特開平０２－１０９１８７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００

Ｇ０６Ｔ７／００

(57)【特許請求の範囲】

【請求項1】

画像ブロックの認識結果の補正方法であって、
前記認識結果の候補行列を取得するステップであって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、ステップと、
各ノードに真値テキストを記憶するように木を構築し、前記木における探索すべきノードの範囲を決定するステップであって、前記木は、Ｂｕｒｋｈａｒｄ－Ｋｅｌｌｅｒ木であり、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、ステップと、
決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正するステップと、を含み、
前記木は、ＬＣＳ（最長共通部分列）に基づいて構築され、
前記差のメトリックは、ＬＣＳ長さであり、
前記木における探索すべきノードの範囲を決定するステップは、
前記木における根ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さと、所定閾値との差分値を計算するステップと、
前記差分値以上のＬＣＳ長さを有する子ノードを前記範囲に含ませるステップと、を含む、方法。

【請求項2】

前記候補行列の各列における各候補は、信頼度の高い順にランク付けされる、請求項１に記載の方法。

【請求項3】

前記重み付けＬＣＳ長さを計算する際に、
マッチングが取れた場合、前記重み付けＬＣＳ長さの重みは、対応する画像ブロックについて選択された候補の数、及び前記候補行列におけるマッチングすべき候補の選択された候補の数のうちのランクに基づくものであり、
マッチングが取れていない場合、前記重みは、負の無限大である、請求項１に記載の方法。

【請求項4】

前記決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うステップは、
前記範囲内の各ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さを計算するステップ、を含む、請求項３に記載の方法。

【請求項5】

前記認識結果を補正するステップは、
算出された前記範囲内の各ノードに含まれる内容と前記候補行列との１つ又は複数の重み付けＬＣＳ長さに基づいて、前記認識結果を補正するステップ、を含む、請求項４に記載の方法。

【請求項6】

画像ブロックの認識結果の補正装置であって、
前記認識結果の候補行列を取得する取得部であって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、取得部と、
各ノードに真値テキストを記憶するように木を構築し、前記木における探索すべきノードの範囲を決定する決定部であって、前記木は、Ｂｕｒｋｈａｒｄ－Ｋｅｌｌｅｒ木であり、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、決定部と、
決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正する補正部と、を含み、
前記木は、ＬＣＳ（最長共通部分列）に基づいて構築され、
前記差のメトリックは、ＬＣＳ長さであり、
前記決定部は、
前記木における根ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さと、所定閾値との差分値を計算し、
前記差分値以上のＬＣＳ長さを有する子ノードを前記範囲に含ませる、装置。

【請求項7】

プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、
画像ブロックの認識結果の候補行列を取得するステップであって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、ステップと、
各ノードに真値テキストを記憶するように木を構築し、前記木における探索すべきノードの範囲を決定するステップであって、前記木は、Ｂｕｒｋｈａｒｄ－Ｋｅｌｌｅｒ木であり、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、ステップと、
決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正するステップと、を実行させ、
前記木は、ＬＣＳ（最長共通部分列）に基づいて構築され、
前記差のメトリックは、ＬＣＳ長さであり、
前記木における探索すべきノードの範囲を決定するステップは、
前記木における根ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さと、所定閾値との差分値を計算するステップと、
前記差分値以上のＬＣＳ長さを有する子ノードを前記範囲に含ませるステップと、を含む、記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、画像補正の分野に関し、具体的には、画像ブロックの認識結果の補正方法に関する。

【背景技術】

【0002】

ＯＣＲ（光学文字認識）技術は、例えば郵便サービス、金融、保険、課税などの産業で広く使用されており、産業及び生活の効率を改善するための利便性をもたらしている。自動的に生成された正確なテキスト認識結果は、より多くの情報を提供し、労力を節約することができる。一般的なＯＣＲエンジンを用いて、前処理後の元のテキスト画像を認識し、概略的な認識結果を取得することができる。

【発明の概要】

【発明が解決しようとする課題】

【0003】

以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。

【0004】

本発明は、画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体を提供する。

【課題を解決するための手段】

【0005】

本発明の１つの態様では、画像ブロックの認識結果の補正方法であって、前記認識結果の候補行列を取得するステップであって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、ステップと、木における探索すべきノードの範囲を決定するステップであって、前記木は、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、ステップと、決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正するステップと、を含む、方法を提供する。

【0006】

本発明のもう１つの態様では、画像ブロックの認識結果の補正装置であって、前記認識結果の候補行列を取得する取得部であって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、取得部と、木における探索すべきノードの範囲を決定する決定部であって、前記木は、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、決定部と、決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正する補正部と、を含む、装置を提供する。

【0007】

本発明の他の態様では、対応するコンピュータプログラムコード、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラムプロダクトをさらに提供する。

【0008】

本発明に係る画像ブロックの認識結果の補正方法及び装置によれば、画像認識結果の補正を改善し、補正速度を向上させることができるため、画像認識精度を改善することができる。

【0009】

以下は図面を参照しながら本発明の好ましい実施形態を詳細に説明することにより、本発明の上記及び他の利点はより明確になる。

【図面の簡単な説明】

【0010】

本開示の上記及び他の利点及び特徴を理解させるために、以下は図面を参照しながら本開示の具体的な実施形態を詳細に説明する。図面及び以下の詳細な説明は本明細書に含まれ、本明細書の一部を構成する。同一の機能及び構造を有する素子は同一の符号で示される。なお、これらの図面は単なる本開示の典型的な例を説明するためのものであり、本開示の範囲を限定するものではない。

【図1A】オーバーセグメンテーション法を用いて得られた住所画像における各文字の部分の一例を示す図である。

【図1B】ビームサーチアルゴリズムを用いて得られた概略的な認識結果の一例を示す図である。

【図2】ＯＣＲエンジンにより得られた複数の候補を有する認識結果行列の一例を示す図である。

【図3】本発明の１つの実施形態に係る画像ブロックの認識結果の補正方法のフローチャートである。

【図4】ＢＫ木の構造を示す模式図である。

【図5】ＢＫ木における特定の探索範囲の決定方法を示す模式図である。

【図6】本発明の１つの実施形態に係る画像ブロックの認識結果の補正装置を示すブロック図である。

【図7】本発明の実施形態に係る方法及び／又は装置を実現可能な汎用パーソナルコンピュータの例示的な構成を示すブロック図である。

【発明を実施するための形態】

【0011】

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。

【0012】

なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件及び／又は処理のステップのみが示され、本発明と関係のない細部が省略されている。

【0013】

上述したように、ＯＣＲエンジンを用いることで、画像の概略的な認識結果を取得することができる。しかし、ＯＣＲエンジンの性能により、認識結果は通常正確ではない。従って、より正確な認識結果を取得し、労力を節約し、認識結果を自動的に補正することが望ましい。

【0014】

本発明は、画像認識精度を改善できる画像における例えばテキストのＯＣＲ認識結果の補正方法を提供する。特に、本発明に係る方法は、距離メトリックを用いて認識結果と既存テキストとの類似性を比較するとともに、補正プロセスにおいて大きなテキストライブラリにおける探索プロセスを加速させる。

【0015】

簡単に言えば、本発明に係る補正方法は、次の３つの段階を含む。（１）ＯＣＲエンジンにより例えば住所の画像の認識結果を取得し、該住所画像を複数の画像ブロックに分割し、各画像ブロックについて複数の文字候補を提供する。（２）既存の正確なテキストライブラリを記憶するための木（木構造）を構築する。（３）構築された木から最適なマッチした認識テキストを探索し、最終的な補正結果を取得する。

【0016】

以下は、図３を参照しながら、本発明の１つの実施形態に係る方法３００を詳細に説明する。

【0017】

方法３００はステップ３０１で開始し、画像ブロックの認識結果の候補行列を取得する。ここで、該候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す。

【0018】

具体的には、この実施形態では、一般的なＯＣＲエンジンを用いて画像の概略的な認識結果を取得してもよい。ＯＣＲエンジンは、オーバーセグメンテーション法及びビームサーチ（ｂｅａｍ－Ｓｅａｒｃｈ）法に基づいて設計される。本発明を容易に理解させるために、以下はこの２つの方法の基本的な原理を簡単に説明する。

【0019】

（オーバーセグメンテーション法）
オーバーセグメンテーションとは、文字列を原始言語フラグメントに分割し、原始言語フラグメントを結合文字認識及びコンテキストの文字に組み合わせることを意味する。オーバーセグメンテーションは、通常、連結成分ラベリング及びマージ文字分割（ｍｅｒｇｅｄｃｈａｒａｃｔｅｒｓｓｅｇｍｅｎｔａｔｉｏｎ）の２つのステップを含む。まず、住所画像に対してノイズ低減、正規化、２値化などの全処理を行う。次に、該住所画像の連結成分を取得してもよい。図１Ａに示すように、これらの連結成分及び輪郭線を分析することで、オーバーセグメンテーション法を用いて住所画像における各文字の部分を取得することができる。各セグメントは、例えば訓練された畳み込みニューラルネットワーク（ＣＮＮ）モデルにより認識されてもよい。

【0020】

（ビームサーチアルゴリズム）
住所画像の全てのセグメント及びＣＮＮモデルの対応する認識結果が取得された後に、ビームサーチアルゴリズムにより、組み合わせ結果及び最終的な結果を取得してもよい。ビームサーチアルゴリズムは、経路評価及び探索のアルゴリズムである。経路評価関数は、ベイズ決定に基づくものであり、文字分類、幾何学的コンテキスト及び言語コンテキストを含む複数のコンテキストを統合する。様々な組み合わせは、異なる経路に対応する。改良されたビームサーチアルゴリズムは、最大の経路評価スコアを有する経路を効率的に見つけるように、プルーニング（ｐｒｕｎｉｎｇ）判定を２つの段階に分ける。図１Ｂに示すように、最後に最大のスコアを有する経路により最終的な認識結果を取得する。

【0021】

図２は以上の方法により得られたステップ３０１における候補行列の一例を示している。各画像ブロックについて、図２に示す行列における各列に対応する複数の文字候補を提供する。

【0022】

好ましくは、候補行列の各列における各候補は、信頼度の高い順にランク付けされている。

【0023】

次に、ステップ３０２において、木における探索すべきノードの範囲を決定する。ここで、木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて、該木を構築する。

【0024】

具体的には、本実施形態では、既存の正確な真値テキストを記憶するために、例えばＢＫ木構造に基づいて木を構築してもよい。

【0025】

なお、様々なＯＣＲ応用シナリオでは、通常、既存のドメイン知識又は真値テキスト候補の収集は簡単である。例えば、タスクが請求書、領収書における会社名の認識である場合、税務機関から全ての登録された合法的会社名を取得することができる。タスクが宅配便伝票、封筒における住所の認識である場合、官庁の郵政システムから全ての正確な住所項目を取得することができる。

【0026】

本実施形態では、取得されたドメイン知識を用いて、好ましくは、最長共通部分列（ＬｏｎｇｅｓｔＣｏｍｍｏｎＳｕｂｓｅｑｕｅｎｃｅ：ＬＣＳ）に基づいてＢＫ木構造を構築するとともに、ＢＫ木に基づく探索速度を加速させてもよい。本発明を容易に理解させるために、以下はＢ木の基本原理を簡単に説明する。

【0027】

（ＢＫ木）
ＢＫ木は、ＷａｌｔｅｒＡｕｓｔｉｎＢｕｒｋｈａｒｄ及びＲｏｂｅｒｔＭ．Ｋｅｌｌｅｒにより提案されたため、Ｂｕｒｋｈａｒｄ－ＫｅｌｌｅｒＴｒｅｅとも称される。ＢＫ木は、主にスペル訂正、ファジイ（ｆｕｚｚｙ）マッチング、及び辞書における文字列の類似性の比較などに使用される。通常、距離メトリックｄ（ｘ、ｙ）を用いて、ＢＫ木の隣接ノード間の距離を計算する。ＢＫ木で最も一般的に使用される距離メトリックは、レーベンシュタイン（ｌｅｖｅｎｓｈｔｅｉｎ）距離である。該距離は、編集距離とも称され、即ち２つの文字シーケンスを比較するための文字列距離メトリックである。編集距離は、単一文字により構成された２つの文字列を挿入、削除又は置換により相互に変換する最小のステップ数を表す。

【0028】

２つの文字列ａ、ｂ（文字の長さはそれぞれ｜ａ｜及び｜ｂ｜である）間の編集距離ＥＤ_ａ，ｂ（｜ａ｜，｜ｂ｜）は下記の式で示されてもよい。

【数1】

【0029】

ＢＫ木を構築する際に、まず、１つの根ノードを選択する。該根ノードは任意の要素ａであってもよい。次に、挿入すべきノードと該根ノードとの間の距離を計算する。ノードの下のｋ層目の部分木（ｓｕｂｔｒｅｅ）の全ての要素と該ノード要素との間の距離はｋである。図４は簡単なＢＫ木の構造を示している。

【0030】

好ましい態様では、例えば最長共通部分列を用いてＢＫ木を構築してもよい。本発明を容易に理解させるために、以下は最長共通部分列を簡単に説明する。

【0031】

（最長共通部分列）
ＬＣＳ（最長共通部分列）は、列の集合（通常は２つの列からなる集合）の最長共通部分列を見つけ出すためのものである。最長共通文字列（ＬｏｎｇｅｓｔＣｏｍｍｏｎＳｕｂｓｔｒｉｎｇ）とは異なり、連続した部分列の元の列における位置は必ずしも同一ではない。この態様では、ＬＣＳは、ＢＫ木構造における任意のノード要素と特定の文字列とを比較するために用いられる。

【0032】

例えば、２つの列は、Ｘ＝（ｘ_１，ｘ_２，…，ｘ_ｍ）及びＹ＝（ｙ_１，ｙ_２，…，ｙ_ｎ）と定義される。Ｘのプレフィックスは、Ｘ_{１，２，…，ｍ}と示されてもよく、Ｙのプレフィックスは、Ｙ_{１，２，…，ｎ}と示されてもよい。ＬＣＳ（Ｘ_ｉ，Ｙ_ｊ）は、プレフィックスがＸ_ｉ及びＹ_ｊの得られた最長共通部分列の集合を表す。該集合は、下記の式により計算されてもよい。

【数2】

【0033】

Ｘ_ｉ及びＹ_ｊの最長共通部分列を見つけ出すために、まず要素ｘ_ｉとｙ_ｊとを比較する。両者が等しい場合、ＬＣＳ（Ｘ_ｉ，Ｙ_ｊ）はＬＣＳ（Ｘ_ｉ－１，Ｙ_ｊ－１）＋ｘ_ｉと示されてもよい。両者が等しくない場合、ＬＣＳ（Ｘ_ｉ，Ｙ_ｊ）はＬＣＳ（Ｘ_ｉ，Ｙ_ｊ－１）とＬＣＳ（Ｘ_ｉ－１，Ｙ_ｊ）のうち大きい方である。

【0034】

２次元の数列Ｃ［ｉ］［ｊ］でＬＣＳ（Ｘ_ｉ，Ｙ_ｊ）を記録する。Ｃ［ｉ］［ｊ］の再帰式は次のように示されてもよい。

【数3】

【0035】

上述したように、既存の知識ドメインのＯＣＲ応用シナリオを収集してもよい。日本の住所の手書きの認識の例では、まず、日本官庁の郵便局の全ての主要住所を真値テキストの住所ライブラリとして収集する。これらの住所は、例えば「北海道札幌市中央区円山西町」、「埼玉県所沢市金山町」、「熊本県玉名郡玉東町原倉」などの様々な住所項目である。次に、任意の１つの住所列を根ノードとして選択する。次に、次の挿入された住所列と根ノードとの間のＬＣＳ距離を計算する。このように、住所ライブラリにおける全ての住所項目を順次挿入して最終的なＢＫ木を構成する。

【0036】

以下は、ステップ３０２のＢＫ木における探索範囲の決定方法を詳細に説明する。

【0037】

上述したように、元のＯＣＲエンジンは、認識されたテキスト画像を複数のブロックに分割し、各ブロックは複数の認識候補を有する。ｋは認識候補の数を表す。ｋ個の候補のうち、候補文字のランク（ｒａｎｋ）が高いほど、正確である可能性が大きくなる。

【0038】

２次元の数列Ｃ［ｉ］［ｊ］を用いて、複数の候補を有する認識結果行列ＡとＢＫ木における特定の文字列ｂとの間の重み付けＬＣＳ距離を記録する。再帰式は次のようになる。

【数4】

【数5】

【0039】

ここで、ｆ（ｉ，ｊ）はＬＣＳ長さの重みである。式（４）及び（５）により、認識結果行列Ａにマッチングの取れた文字があり、且つ該文字の可能性が高い場合、ＬＣＳ長さの重みは１に近くなる。一方、マッチングの取れた文字がない場合、ＬＣＳ長さの重みは非常に低くなり、一例として、－９９９９９９という値であってもよい。

【0040】

元のＯＣＲエンジンの各認識ブロックの複数の文字候補認識結果が取得された後に、ＢＫ木の特定範囲内のノードにおいて最適なマッチした文字列を、補正結果として探索してもよい。図５は、ＢＫ木における特定の探索範囲の決定方法を示している。

【0041】

具体的には、この態様では、探索範囲の決定は以下のステップを含む。（１）探索距離閾値ｎを設定し、ここで、ｎは正整数、例えば５である。（２）候補認識結果行列ＡとＢＫ木の根ノードとの間のＬＣＳ長さを計算する。（３）該根ノードの全ての子ノードの親ノードとその子ノードとの間のＬＣＳ長さｄ（Ａ，Ｂ）≧ｎ－ｄのノードを探索範囲に追加する。

【0042】

なお、ｎを設定することで、探索プロセスにおいて多くのノード及び部分木が除去され、検索プロセス全体の走査範囲は全てのノードの５％～８％を超えていないため、その効率は力まかせ探査（Ｂｒｕｔｅ－ｆｏｒｃｅｓｅａｒｃｈ）よりも遥かに高い。

【0043】

最後に、ステップ３０３において、決定された範囲内の全てのノードに含まれる内容と該候補行列とのマッチングを行うことで、該認識結果を補正する。

【0044】

具体的には、この実施形態では、ＢＫ木が終了するまで、上記の探索範囲の決定ステップ（２）、（３）を繰り返す。次に、探索結果の候補を並び替え、ＬＣＳ長さが大きいほど、対応するマッチ度が高くなる。このように、補正結果である最適なマッチしたテキストを見つけることができる。

【0045】

上記の方法は、コンピュータ実行可能なプログラムにより完全に実現されてもよいし、ハードウェア及び／又はファームウェアを用いて部分的又は完全に実現されてもよい。ハードウェア及び／又はファームウェアにより実現される場合、又はコンピュータ実行可能なプログラムがプログラムを実行可能なハードウェア装置にロードされる場合、後述する画像ブロックの認識結果の補正装置が実現される。以下は、上述した詳細な内容を省略し、これらの装置の概要を説明する。なお、これらの装置は上記の方法を実行することができるが、上記方法は後述する装置の構成部を採用し、或いは構成部により実行されるものに限定されない。

【0046】

図６は本発明の１つの実施形態に係る画像ブロックの認識結果の補正装置を示している。装置６００は、取得部６０１、決定部６０２及び補正部６０３を含む。取得部６０１は、画像ブロックの認識結果の候補行列を取得する。ここで、該候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す。決定部６０２は、木における探索すべきノードの範囲を決定する。ここで、該木は、該木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される。補正部６０３は、決定された範囲内の全てのノードに含まれる内容と該候補行列とのマッチングを行うことで、該認識結果を補正する。

【0047】

図６に示す画像ブロックの認識結果の補正装置６００は図３に示す方法３００に対応する。よって、画像ブロックの認識結果の補正装置６００における各部の詳細は、図３における画像ブロックの認識結果の補正方法３００について説明において既に詳細に説明され、ここでその説明を省略する。

【0048】

上記処理及び装置はソフトウェア及び／又はファームウェアにより実現されてもよい。ソフトウェア及び／又はファームウェアにより実施されている場合、記憶媒体又はネットワークから専用のハードウェア構成を有するコンピュータ（例えば図７示されている汎用パーソナルコンピュータ７００）に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。

【0049】

図７は本発明の実施形態に係る方法及び／又は装置を実現可能な汎用パーソナルコンピュータの例示的な構成を示すブロック図である。図７において、中央処理部（ＣＰＵ）７０１は、読み出し専用メモリ（ＲＯＭ）７０２に記憶されているプログラム、又は記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ７０３には、必要に応じて、ＣＰＵ７０１が各種の処理を実行するに必要なデータが記憶されている。ＣＰＵ７０１、ＲＯＭ７０２、及びＲＡＭ７０３は、バス７０４を介して互いに接続されている。入力／出力インターフェース７０５もバス６０４に接続されている。

【0050】

入力部７０６（キーボード、マウスなどを含む）、出力部７０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部７０８（例えばハードディスクなどを含む）、通信部７０９（例えばネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース７０５に接続されている。通信部７０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライバ７１０は、入力／出力インターフェース７０５に接続されてもよい。取り外し可能な媒体７１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライバ７１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部７０８にインストールされている。

【0051】

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体７１１を介してソフトウェアを構成するプログラムをインストールする。

【0052】

なお、これらの記憶媒体は、図７に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体７１１に限定されない。取り外し可能な媒体７１１は、例えば磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（光ディスク－読み出し専用メモリ（ＣＤ－ＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ７０２、記憶部７０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

【0053】

本発明は、対応するコンピュータプログラムコード、機器が読み取り可能な命令コードが記憶されているコンピュータプログラムプロダクトをさらに提供する。該命令コードは、機器により読み取られ、実行される際に、上記の本発明の実施形態に係る方法を実行することができる。

【0054】

それに応じて、本発明は、機器が読み取り可能な命令コードを含むプログラムプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティック等を含むが、これらに限定されない。

【0055】

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
画像ブロックの認識結果の補正方法であって、
前記認識結果の候補行列を取得するステップであって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、ステップと、
木における探索すべきノードの範囲を決定するステップであって、前記木は、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、ステップと、
決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正するステップと、を含む、方法。
（付記２）
前記候補行列の各列における各候補は、信頼度の高い順にランク付けされる、付記１に記載の方法。
（付記３）
前記木は、ＬＣＳ（最長共通部分列）に基づいて構築され、
前記差のメトリックは、ＬＣＳ長さである、付記１又は２に記載の方法。
（付記４）
前記木における探索すべきノードの範囲を決定するステップは、
前記木における根ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さと、所定閾値との差分値を計算するステップと、
前記差分値以上のＬＣＳ長さを有する子ノードを前記範囲に含ませるステップと、を含む、付記３に記載の方法。
（付記５）
マッチングが取れた場合、前記重み付けＬＣＳ長さの重みは、対応する画像ブロックについて選択された候補の数、及び前記候補行列におけるマッチングすべき候補の選択された候補の数のうちのランクに基づくものである、付記４に記載の方法。
（付記６）
マッチングが取れていない場合、前記重みは、負の無限大である、付記４に記載の方法。
（付記７）
前記決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うステップは、
前記範囲内の各ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さを計算するステップ、を含む、付記５又は６に記載の方法。
（付記８）
前記認識結果を補正するステップは、
算出された前記範囲内の各ノードに含まれる内容と前記候補行列との１つ又は複数の重み付けＬＣＳ長さに基づいて、前記認識結果を補正するステップ、を含む、付記７に記載の方法。
（付記９）
前記木は、Ｂｕｒｋｈａｒｄ－Ｋｅｌｌｅｒ木である、付記１又は２に記載の方法。
（付記１０）
認識結果は、光学文字認識（ＯＣＲ）エンジンにより取得される、付記１又は２に記載の方法。
（付記１１）
ＯＣＲエンジンは、オーバーセグメンテーション法及びビームサーチアルゴリズムを用いる、付記１０に記載の方法。
（付記１２）
画像ブロックの認識結果の補正装置であって、
前記認識結果の候補行列を取得する取得部であって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、取得部と、
木における探索すべきノードの範囲を決定する決定部であって、前記木は、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、決定部と、
決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正する補正部と、を含む、装置。
（付記１３）
前記候補行列の各列における各候補は、信頼度の高い順にランク付けされる、付記１２に記載の装置。
（付記１４）
前記木は、ＬＣＳ（最長共通部分列）に基づいて構築され、
前記差のメトリックは、ＬＣＳ長さである、付記１２又は１３に記載の装置。
（付記１５）
前記決定部は、
前記木における根ノードに含まれる内容と前記候補行列との重み付けＬＣＳ長さと、所定閾値との差分値を計算し、
前記差分値以上のＬＣＳ長さを有する子ノードを前記範囲に含ませる、付記１４に記載の装置。
（付記１６）
マッチングが取れた場合、前記重み付けＬＣＳ長さの重みは、対応する画像ブロックについて選択された候補の数、及び前記候補行列におけるマッチングすべき候補の選択された候補の数のうちのランクに基づくものである、付記１５に記載の装置。
（付記１７）
マッチングが取れていない場合、前記重みは、負の無限大である、付記１５に記載の装置。
（付記１８）
前記補正部は、算出された前記範囲内の各ノードに含まれる内容と前記候補行列との１つ又は複数の重み付けＬＣＳ長さに基づいて、前記認識結果を補正する、付記１６又は１７に記載の装置。
（付記１９）
前記木は、Ｂｕｒｋｈａｒｄ－Ｋｅｌｌｅｒ木である、付記１２又は１３に記載の装置。
（付記２０）
プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、
画像ブロックの認識結果の候補行列を取得するステップであって、前記候補行列の各列は、対応する画像ブロックの認識結果の複数の候補を表す、ステップと、
木における探索すべきノードの範囲を決定するステップであって、前記木は、前記木におけるノードの各ペアに含まれる内容間の差のメトリックに基づいて構築される、ステップと、
決定された範囲内の全てのノードに含まれる内容と前記候補行列とのマッチングを行うことで、前記認識結果を補正するステップと、を実行させる、記憶媒体。

【0056】

なお、用語「含む」、「有する」又は他の任意の変形は、排他的に含むことに限定されず、一連の要素を含むプロセス、方法、物又は装置は、これらの要素を含むことだけではなく、明示的に列挙されていない他の要素、又はこのプロセス、方法、物若しくは装置の固有の要素を含む。また、さらなる制限がない限り、用語「１つの…を含む」より限定された要素は、該要素を含むプロセス、方法、物又は装置に他の同一の要素が存在することを排除しない。

【0057】

以上は図面を参照しながら本発明の好ましい実施例を説明しているが、上記実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。

【図1A】