特許7315420 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカ　ミノルタ　ラボラトリー　ユー．エス．エー．，インコーポレイテッドの特許一覧

特許7315420テキストの適合および修正の方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
4C
5
6A
6B
6C
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-07-18

(45)【発行日】2023-07-26

(54)【発明の名称】テキストの適合および修正の方法

(51)【国際特許分類】

G06V 30/26 20220101AFI20230719BHJP

G06V 30/00 20220101ALI20230719BHJP

G06F 40/216 20200101ALI20230719BHJP

G06F 40/232 20200101ALI20230719BHJP

【ＦＩ】

G06V30/26

G06V30/00 Z

G06F40/216

G06F40/232

【請求項の数】 20

【外国語出願】

(21)【出願番号】P 2019166366

(22)【出願日】2019-09-12

(65)【公開番号】P2020166810

(43)【公開日】2020-10-08

【審査請求日】2022-05-27

(31)【優先権主張番号】16/368,312

(32)【優先日】2019-03-28

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】507031918

【氏名又は名称】コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド

(74)【代理人】

【識別番号】110000671

【氏名又は名称】ＩＢＣ一番町弁理士法人

(72)【発明者】

【氏名】シュバーンアガワル

(72)【発明者】

【氏名】ヨンミャンチャン

【審査官】新井則和

(56)【参考文献】

【文献】米国特許出願公開第２０１６／０２７５０７０（ＵＳ，Ａ１）

【文献】特開平１１－３２８３１８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／２６

Ｇ０６Ｖ３０／００

Ｇ０６Ｆ４０／２３２

Ｇ０６Ｆ４０／２１６

(57)【特許請求の範囲】

【請求項1】

コンピューターシステムによって実行されるテキスト認識方法であって、
複数のＮグラムによって定義された入力テキストに対して、各々が複数のＮグラムによって定義された複数の出力候補テキストを取得するステップと、
各々の前記出力候補テキストについてテキスト適合スコアを計算するステップと、
前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの１つを選択するステップとを含み、
各々の前記出力候補テキストについての前記計算は、
前記入力テキストの各Ｎグラムおよび前記出力候補テキストの各Ｎグラムを含む複数のＮグラムペア各々のＮグラムスコアを決定するため、前記入力テキストのＮグラムと、前記出力候補テキストのＮグラムと、文字間混同可能性の一式とを使用し、
前記出力候補テキストの前記テキスト適合スコアを計算するため、１つ以上の前記Ｎグラムペアの前記Ｎグラムスコアを使用することを含む、テキスト認識方法。

【請求項2】

前記入力テキストは、複数の文字を含む一単語により構成されている、請求項１に記載のテキスト認識方法。

【請求項3】

前記入力テキストはスペースで区切られた複数の単語を含み、入力テキストのＮグラムの少なくとも１つは前記スペースを含む、請求項１に記載のテキスト認識方法。

【請求項4】

前記出力テキストを、前記入力テキストを得た画像と関連付けるステップを更に含む、請求項１～３のいずれかに記載のテキスト認識方法。

【請求項5】

前記出力テキストを、前記入力テキストを得た画像内の前記入力テキストの位置と関連付けるステップを更に含む、請求項１～４のいずれかに記載のテキスト認識方法。

【請求項6】

前記出力テキストを含む電子書類を生成するステップを更に含む、請求項１～５のいずれかに記載のテキスト認識方法。

【請求項7】

前記複数のＮグラムペアの各々について、前記Ｎグラムペアの前記Ｎグラムスコアを計算するために規則を適用し、前記Ｎグラムペアにおける前記入力テキストの前記Ｎグラムと前記出力候補テキストの前記Ｎグラムとの中身の差が１文字位置以下であるとき、前記規則は、前記Ｎグラムスコアを可能性に基づいた値に設定することを含み、前記可能性に基づいた値は、前記入力テキストにおける前記Ｎグラムの異なる文字と前記出力候補テキストにおける前記Ｎグラムの異なる文字との間の混同可能性に基づいている、請求項１～６のいずれかに記載のテキスト認識方法。

【請求項8】

文字数の合計は、前記入力テキストのＮグラムおよび前記出力候補テキストのＮグラムの各々に等しく、前記可能性に基づいた値は、前記文字数の合計に従って正規化された値である、請求項７に記載のテキスト認識方法。

【請求項9】

前記可能性に基づいた値は最大値を超えず、前記Ｎグラムペアにおける前記入力テキストの前記Ｎグラムと前記出力候補テキストの前記Ｎグラムとが中身の同じ全ての文字位置を有するとき、前記規則は、前記Ｎグラムスコアを前記最大値に設定することを含む、請求項７または８に記載のテキスト認識方法。

【請求項10】

各々の前記出力候補テキストについて、前記テキスト適合スコアが複数の合計のうち最も大きい合計から決定され、各合計は、マトリクスの１つ以上のセルの各対角により得たＮグラムスコアの合計であり、前記セルは第１のマトリクス次元および第２のマトリクス次元に沿って配置され、前記第１のマトリクス次元は順番に配置された前記入力テキストの前記Ｎグラムに対応し、前記第２のマトリクス次元は順番に配置された前記候補テキストの前記Ｎグラムに対応し、各セルは前記第１のマトリクス次元の各Ｎグラムと前記第２のマトリクス次元の各Ｎグラムとの交差部分によって定義されたＮグラムペアの前記Ｎグラムスコアを含む、請求項１～９のいずれかに記載のテキスト認識方法。

【請求項11】

前記複数の合計のうちで最も大きい前記合計を最大合計といい、前記入力テキストの前記Ｎグラムの総数または前記出力候補テキストの前記Ｎグラムの総数に従って、前記最大合計を正規化することにより前記テキスト適合スコアが決定される、請求項１０に記載のテキスト認識方法。

【請求項12】

前記入力テキストを第１の入力テキストといい、前記出力候補テキストを第１の出力候補テキストといい、前記複数のＮグラムペアを第１複数Ｎグラムペアといい、前記出力テキストを第１の出力テキストといい、前記方法は、
画像から前記第１の入力テキストおよび第２の入力テキストを得るために、前記画像を評価するステップと、
複数のＮグラムによって定義された前記第２の入力テキストに対して、各々が複数のＮグラムによって定義された複数の第２の出力候補テキストを取得するステップと、
各々の前記第２の出力候補テキストについてテキスト適合スコアを計算するステップと、
前記第２の入力テキストに対する第２の出力テキストとするため、前記第２の出力テキストの前記テキスト適合スコアに従って前記第２の出力候補テキストの１つを選択するステップとを更に含み、
各々の第２の出力候補テキストについての前記計算は、
前記第２の入力テキストの各Ｎグラムおよび前記第２の出力候補テキストの各Ｎグラムを含む第２複数Ｎグラムペア各々のＮグラムスコアを決定するため、前記第２の入力テキストのＮグラムと、前記第２の出力候補テキストのＮグラムと、文字間混同可能性の前記一式とを使用し、
前記第２出力候補テキストの前記テキスト適合スコアを計算するため、１つ以上の前記第２複数Ｎグラムペアの前記Ｎグラムスコアを使用することを含む、請求項１～１１のいずれかに記載のテキスト認識方法。

【請求項13】

前記第２の出力テキストを前記画像に関連付けるステップ、前記第２の出力テキストを前記画像内の前記第２の入力テキストの位置に関連付けるステップおよび前記第２の出力テキストを含む電子書類を生成するステップのいずれか、あるいはこれらのステップの組み合わせを更に含む、請求項１２に記載のテキスト認識方法。

【請求項14】

プロセッサと、
前記プロセッサと通信可能であり、かつ、前記プロセッサにテキスト認識プロセスを実行させるための命令が格納されたメモリとを備え、
前記テキスト認識プロセスは、
複数のＮグラムによって定義された入力テキストに対して、各々が複数のＮグラムによって定義された複数の出力候補テキストを取得することと、
各々の前記出力候補テキストについてテキスト適合スコアを計算すること、
前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの１つを選択することとを含み、
各々の出力候補テキストについての前記計算は、
前記入力テキストの各Ｎグラムおよび前記出力候補テキストの各Ｎグラムを含む複数のＮグラムペア各々のＮグラムスコアを決定するため、前記入力テキストのＮグラムと、前記出力候補テキストのＮグラムと、文字間混同可能性の一式とを使用し、
前記出力候補テキストの前記テキスト適合スコアを計算するため、１つ以上の前記Ｎグラムペアの前記Ｎグラムスコアを使用することを含む、テキスト認識システム。

【請求項15】

【請求項16】

文字数の合計は、前記入力テキストのＮグラムおよび前記出力候補テキストのＮグラムの各々に等しく、前記可能性に基づいた値は、前記文字数の合計に従って正規化された値である、請求項１５に記載のテキスト認識システム。

【請求項17】

前記可能性に基づいた値は最大値を超えず、前記Ｎグラムペアにおける前記入力テキストの前記Ｎグラムと前記出力候補テキストの前記Ｎグラムとが中身の同じ全ての文字位置を有するとき、規則は、前記Ｎグラムスコアを前記最大値に設定することを含む、請求項１５または１６に記載のテキスト認識システム。

【請求項18】

各々の前記出力候補テキストについて、前記テキスト適合スコアが複数の合計のうち最も大きい合計から決定され、各合計は、マトリクスの１つ以上のセルの各対角により得たＮグラムスコアの合計であり、前記セルは第１のマトリクス次元および第２のマトリクス次元に沿って配置され、前記第１のマトリクス次元は順番に配置された前記入力テキストの前記Ｎグラムに対応し、前記第２のマトリクス次元は順番に配置された前記候補テキストの前記Ｎグラムに対応し、各セルは前記第１のマトリクス次元の各Ｎグラムと前記第２のマトリクス次元の各Ｎグラムとの交差部分によって定義されたＮグラムペアの前記Ｎグラムスコアを含む、請求項１４～１７のいずれかに記載のテキスト認識システム。

【請求項19】

前記複数の合計のうちで最も大きい前記合計を最大合計といい、前記入力テキストの前記Ｎグラムの総数または前記出力候補テキストの前記Ｎグラムの総数に従って、前記最大合計を正規化することにより前記テキスト適合スコアが決定される、請求項１８に記載のテキスト認識システム。

【請求項20】

前記入力テキストを第１の入力テキストといい、前記出力候補テキストを第１の出力候補テキストといい、前記複数のＮグラムペアを第１複数Ｎグラムペアといい、前記出力テキストを第１の出力テキストといい、前記テキスト認識プロセスは、
画像から前記第１の入力テキストおよび第２の入力テキストを得るために、前記画像を評価することと、
複数のＮグラムによって定義された前記第２の入力テキストに対して、各々が複数のＮグラムによって定義された複数の第２の出力候補テキストを取得することと、
各々の前記第２の出力候補テキストについてテキスト適合スコアを計算することと、
前記第２入力テキストに対する第２出力テキストとするため、前記第２出力テキストの前記テキスト適合スコアに従って前記第２出力候補テキストの１つを選択することとを更に含み、
各々の第２の出力候補テキストについての前記計算は、
前記第２の入力テキストの各Ｎグラムおよび前記第２の出力候補テキストの各Ｎグラムを含む第２複数Ｎグラムペア各々のＮグラムスコアを決定するため、前記第２の入力テキストのＮグラムと、前記第２の出力候補テキストのＮグラムと、文字間混同可能性の前記一式とを使用することと、
前記第２出力候補テキストの前記テキスト適合スコアを計算するため、１つ以上の前記第２複数Ｎグラムペアの前記Ｎグラムスコアを使用することとを含む、請求項１４～１９のいずれかに記載のテキスト認識システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して、画像処理に関し、より具体的には、画像中の正確なテキスト認識に関する。

【背景技術】

【0002】

コンピューター化されたテキスト認識の方法は、スキャンした画像を編集およびアーカイブするためにテキストに変換するときなど、多くの場面で用いられている。そのようなシステムは、様々なスキャン結果、フォントスタイルおよびテキストサイズの変化に悩まされる。一般的な解決法を開発するうえでの主たる難しさは、テキストの内容を高い正確性で解釈することにある。認識されたテキストは、文字の過不足および／または、文字が視覚的に類似しているとも言われる構造的に類似している場合の文字の誤認（他の文字との混同）（例えば、「ｃ」と認識される「ｅ」）などのエラーを含み得る。この問題に取り組むため、様々なエラー修正および辞書適合の方法が開発されてきた。辞書は、誤ったテキストのための様々な候補を提案し得る。この候補は、レーベンシュタイン距離（Ｌｅｖｅｎｓｈｔｅｉｎｄｉｓｔａｎｃｅ）およびコサイン類似度（Ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ）などの類似定量化にしたがって、ランク付けされる。これらの定量化はどちらもよく知られている。簡潔には、レーベンシュタイン距離は、他と同一のストリングを作るために必要な単独文字の編集（挿入、削除または置換）のカウントと言える。レーベンシュタイン距離が小さいほど、類似性が高いことを示す。コサイン類似度は、ユークリッドコサインルールを類似定量化に適用したベクトルベースのアプローチである。コサイン類似度の値が大きいほど、類似性が高いことを示す。

【0003】

表１は、入力テキストストリング「ｂｃａｒｓ」に対して与えられた２つの候補のテキストストリングを示している。候補「ｂａｒｓ」は、入力「ｂｃａｒｓ」よりも文字数が少ない。候補「ｂｅａｒｓ」は、入力「ｂｃａｒｓ」と文字の数が同じであり、一文字（「ｅ」）のみが同じ場所にある似た文字（「ｃ」）に置換されている。文字「ｅ」と「ｃ」は、どちらも短く、かつ、右側に開口を伴う湾曲部分があるため、構造的に類似している。したがって、候補「ｂｅａｒｓ」は明らかに「ｂｃａｒｓ」と構造的類似性が高い。しかし、レーベンシュタイン距離は、候補「ｂｅａｒｓ」および「ｂａｒｓ」の両方が入力「ｂｃａｒｓ」と同じレベルで類似していることを示し、コサイン類似度は候補「ｂｅａｒｓ」をより低い類似度にランク付けする。

【0004】

【表1】

【0005】

表２では、入力テキストストリングは「ｆｉｓｔｅｎ」である。同じ場所で、似た文字（「ｆ」）に代えて、一文字（「ｌ」）のみが存在するので、候補「ｌｉｓｔｅｎ」は、明らかに入力「ｆｉｓｔｅｎ」に構造的に高い類似性を有する。文字「ｌ」および「ｆ」は、どちらも、高く、かつ、垂直な単独要素を有しているので、構造的に類似している。しかし、コサイン類似度は、両方の候補「ｌｉｓｔｅｎ」および「ｓｉｌｅｎｔ」が、入力「ｆｉｓｔｅｎ」と同じレベルの類似性であることを示す。

【0006】

【表2】

【0007】

したがって、従来の類似定量化の矛盾に対処できるテキスト認識方法およびシステムが必要である。

【発明の概要】

【発明が解決しようとする課題】

【0008】

簡単にかつ一般的に言えば、本発明はテキスト認識方法およびシステムを対象とする。

【課題を解決するための手段】

【0009】

本発明の一態様では、方法は、複数のＮグラムによって定義された入力テキストに対して、各々が複数のＮグラムによって定義された複数の出力候補テキストを取得するステップを含む。この方法は、各々の前記出力候補テキストについてテキスト適合スコアを計算するステップを含む。各々の前記出力候補テキストについての前記計算は、前記入力テキストのＮグラムと、前記出力候補テキストのＮグラムと、前記入力テキストの各Ｎグラムおよび前記出力テキストの各Ｎグラムを含む複数のＮグラムペア各々のＮグラムスコアを決定するための文字間混同可能性の一式とを使用することを含む。各々の前記出力候補テキストについての前記計算は、前記出力候補テキストの前記テキスト適合スコアを計算するために、１つ以上の前記Ｎグラムペアの前記Ｎグラムスコアを使用することを含む。この方法は、前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの１つを選択することを含む。

【0010】

本発明の一態様では、システムは、プロセッサと、前記プロセッサと通信可能なメモリとを備えている。前記メモリは命令を格納している。前記プロセッサは、格納された命令に従ってテキスト認識プロセスを実行するように構成されている。前記テキスト認識プロセスは、複数のＮグラムによって定義された入力テキストに対して、各々が複数のＮグラムによって定義された複数の出力候補テキストを取得することを含む。テキスト認識プロセスは、各々の前記出力候補テキストについてテキスト適合スコアを計算することを含む。各々の出力候補テキストについての前記計算は、前記入力テキストのＮグラムと、前記出力候補テキストのＮグラムと、前記入力テキストの各Ｎグラムおよび前記出力テキストの各Ｎグラムを含む複数のＮグラムペア各々のＮグラムスコアを決定するための文字間混同可能性の一式とを使用することを含む。各々の出力候補テキストについての前記計算は、前記出力候補テキストの前記テキスト適合スコアを計算するために、１つ以上の前記Ｎグラムペアの前記Ｎグラムスコアを使用することを含む。テキスト認識プロセスは、前記入力テキストに対する出力テキストとするため、前記出力テキストの前記テキスト適合スコアに従って前記出力候補テキストの１つを選択することとを含む。

【0011】

本発明の特徴および利点は、添付の図面と併せて読まれる以下の詳細な説明からより容易に理解されるであろう。

【図面の簡単な説明】

【0012】

【図1】図１は、テキスト認識方法の一例を示すフロー図である。

【図2】図２は、文字間の混同可能性の一式の表の一例である。

【図3】図３は、文字間の混同可能性の一式の表の他の例である。

【図4A】図４Ａは、最初の入力テキスト「ｆｉｓｔｅｎ」に対する３つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図4B】図４Ｂは、最初の入力テキスト「ｆｉｓｔｅｎ」に対する３つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図4C】図４Ｃは、最初の入力テキスト「ｆｉｓｔｅｎ」に対する３つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図5】図５は、Ｎ－グラムスコアを決定するための規則の一例を表すフロー図である。

【図6A】図６Ａは、２番目の入力テキスト「ｂｃａｒｓ」に対する３つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図6B】図６Ｂは、２番目の入力テキスト「ｂｃａｒｓ」に対する３つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図6C】図６Ｃは、２番目の入力テキスト「ｂｃａｒｓ」に対する３つの出力候補テキスト各々のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図7】図７は、入力テキスト「Ｐｌａｎｓ＆ｆｒａｉｎｓ」に対する出力候補テキスト「Ｐｌａｎｅｓ＆ｔｒａｉｎｓ」のテキスト適合スコアの計算に用いられるＮ－グラムスコアマトリクスの例を表す図である。

【図8】図８は、テキスト認識システムの一例を示す概略図であり、このシステムは、装置およびこの装置にネットワークを介して接続された外部デバイスを含んでいる。

【発明を実施するための形態】

【0013】

「テキスト（ｔｅｘｔ）」、「ストリング（ｓｔｒｉｎｇ）」および「テキストストリング（ｔｅｘｔｓｔｒｉｎｇ）」という用語は同じ意味で使用され、文字のグループを指す。文字のグループは、単一の単語のみで構成されていてもよく、あるいは、スペースおよび句読点を伴う単語のグループで構成されていてもよい。文字のグループでは、文字は任意の記載アルファベット（例えば、英語、ギリシャ語、キリル文字およびヘブライ語）、表音文字および音節文字（例えば、日本および中国で使用される文字）、スクリプト文字（例えば、ヒンディー語およびアラビア語で使用されている）、数学文字、および／または他の文字タイプ用のグループであってもよい。

【0014】

「Ｎグラム」という用語は、合計Ｎ文字で構成される文字のグループを指す。Ｎグラムという用語は、３グラム（合計Ｎ＝３文字で構成される文字のグループ）および４グラム（合計Ｎ＝４文字で構成される文字のグループ）を含む。Ｎグラムという用語は、任意のＮの値を含み、Ｎは２より大きく、３より大きく、４より大きく、あるいは５より大きくてもよい。

【0015】

ここで、非限定的な例を示す目的で図面をより詳細に参照するが、いくつかの図の中で同様の参照番号は対応するまたは同様の要素を示す。図１には、テキスト認識方法の一例が示されている。文書をスキャンするなどして、画像が取得される。この画像は電子画像である。電子画像は、ｔｉｆｆ、ｊｐｇ、ｂｍｐ、ｐｄｆ、またはその他のデータ形式を有していてもよい。

【0016】

ブロック１０で、画像はコンピューターにより評価され、１つ以上の入力テキストを認識する。コンピューターは、文字認識アルゴリズムを使用して、１つ以上の入力テキストを認識してもよい。例えば、文書が、元の単語「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」を含むかもしれないが、コンピューターはこれらの元の単語をそれぞれ「ｆｉｓｔｅｎ」および「ｂｃａｒｓ」と認識する。認識された単語は、入力テキストの例である。この例では、コンピューターによって認識されたＪ＝２の入力テキストがあり、各入力テキストは単一の単語で構成されている。認識された各単語はＴ（ｊ）として表され、ｊは１からＪまで変化する。入力テキストＴ（１）＝ｆｉｓｔｅｎおよび入力テキストＴ（２）＝ｂｃａｒｓである。この方法は、入力テキストＴ（１）＝ｆｉｓｔｅｎで進める。

【0017】

ブロック１１で、現在の入力テキスト、すなわちＴ（１）＝ｆｉｓｔｅｎに対して出力候補テキストが取得される。コンピューターは、辞書または他の単語のリストを参照して、出力候補テキストを取得してもよい。例えば、辞書は「ｆｉｓｔｅｎ」に対する修正案として合計Ｋ個の単語を有していてもよい。各々の修正案は、辞書単語と呼ばれてもよい。各々の修正案は、出力候補テキストの一例である。例えば、表３に示すように、出力候補テキストは「ｓｉｌｅｎｔ」、「ｌｉｓｔｅｎ」および「ｔｉｎｓｅｌ」である。Ｔ（１）＝ｆｉｓｔｅｎの出力候補テキストのそれぞれは、ｋが１からＫまで変化するＣ（１、ｋ）で表わされてもよい。この例では、入力テキストＴ（１）＝ｆｉｓｔｅｎに対してＫ＝３の出力候補テキストがある。出力候補テキストは、Ｃ（１，１）＝ｓｉｌｅｎｔ、Ｃ（１，２）＝ｌｉｓｔｅｎ、およびＣ（１，３）＝ｔｉｎｓｅｌである。

【0018】

【表3】

【0019】

ブロック１２では、各出力候補テキストＣ（１,１）=ｓｉｌｅｎｔ、Ｃ（１,２）=ｌｉｓｔｅｎおよびＣ（１,３）=ｔｉｎｓｅｌについて、テキスト適合スコアが計算される。なお、この方法ではこの時点でｊ=１である。例えば、ブロック１３で、各計算は、入力テキスト、即ち、Ｔ（１）=ｆｉｓｔｅｎのＮグラム、現在の出力候補テキスト（ｓｉｌｅｎｔ、ｌｉｓｔｅｎまたはｔｉｎｓｅｌ）のＮグラムおよび文字間の混同可能性の一式を使用することを含む。これらの要素は、複数のＮグラムペアのそれぞれに対してＮグラムスコアを決定するために使用される。各Ｎグラムペアは、入力テキスト（ｆｉｓｔｅｎ）のＮグラムのそれぞれおよび出力候補テキストのＮグラムのそれぞれ（ｓｉｌｅｎｔ、ｌｉｓｔｅｎまたはｔｉｎｓｅｌ）を含む。

【0020】

任意のテキストのＮグラムは、位置および内容の点で当該テキストに対応するＮ個の連続した文字一式である。つまり、Ｎグラムは、当該テキストに、文字として同じ文字値および文字位置を持つ文字を含む。最初のＮグラムは、当該テキストの最初にあるＮ個の連続した文字一式である。２番目のＮグラムは、当該テキストの最初の文字に続くＮ個の連続した文字一式であり、３番目のＮグラムは、当該テキストの２番目の文字に続くＮ個の連続した文字一式であり、等々である。そのＮグラムを重ねることで再構築できるという意味では、テキストは、そのＮグラムによって定義される。

【0021】

Ｎグラムは、同じ総数の文字を有する。Ｎグラムの文字の総数Ｎは、３、３より大きい、４より大きい、あるいは、５より大きくてもよい。Ｎ＝３の文字を有するＮグラムは、トライグラムと呼ばれる。例えば、テキスト「ａｂｃｄｅｆｇ」のトライグラムは、ａｂｃ、ｂｃｄ、ｃｄｅ、ｄｅｆおよびｅｆｇである。テキスト「ａｂｃｄｅｆｇ」は、「ａｂｃｄｅｆｇ」がトライグラムを重ね合わせることによって再構築できるという意味では、そのトライグラムによって定義される。

【0022】

例えば、入力テキストＴ（１）＝ｆｉｓｔｅｎは、トライグラムｆｉｓ、ｉｓｔ、ｓｔｅおよびｔｅｎによって定義される。候補テキストＣ（１，１）＝ｓｉｌｅｎｔは、トライグラムｓｉｌ、ｉｌｅ、ｌｅｎおよびｅｎｔによって定義される。これらのＮグラムは、入力候補Ｎグラムペアとなる。例えば、ｆｉｓ（入力テキストの開始トライグラム）は、ｓｉｌ、ｉｌｅ、ｌｅｎおよびｅｎｔ（出力候補テキスト「ｓｉｌｅｎｔ」のトライグラム）のいずれかとペアとなり得る。また、ｉｓｔ（入力テキストの次のトライグラム）は、ｓｉｌ、ｉｌｅ、ｌｅｎおよびｅｎｔ（出力候補テキストの「ｓｉｌｅｎｔ」のトライグラム）のいずれかとペアとなり得る。文字間の混同可能性の一式とともにこれらのＮグラムは、各々のＮグラムペアのＮグラムスコアを決定するために使用される。

【0023】

ここで、文字間の混同可能性の一式を説明する。入力テキストを認識する方法には、各文字（ａ、ｂ、ｃなど）が誤って別の文字として認識される可能性があるという固有の不確実性がある。例えば、元のテキストの文字ａ（つまり、元の文字「ａ」）が文字ａ、ｂ、およびｃとして認識される確率は、それぞれ０．８６６、０．００、および０．０６７である。したがって、この方法は、元の文字「ａ」が文字「ａ」として正しく認識される確率８６．６％であり、文字「ｂ」として誤認識される確率０％であり、文字「ｃ」として誤認識される確率６．７％であることを前提とする。混同可能性の一式の例は、可能性０．８６６、０．００および０．０６７を含む。

【0024】

図２は、英語のアルファベットの文字に対する混同可能性の一式の他の例を示している。可能性の一式は、列が認識された文字に対応する表形式で示される。この表は混同マトリックスの一例である。この表では、認識された文字「ｈ」から「ｙ」および元の文字「ｆ」から「ｘ」を省略しており、表には大文字用の追加のセルが含まれてもよいことを理解されたい。

【0025】

図３は、別の、英語のアルファベットの文字に対する混同可能性の一式を示す。図３の表は、混同マトリックスの別の例である。前の例とは異なり、列は元の文字に対応する。したがって、各列の可能性の合計は１．０または１００％である。

【0026】

一般に、可能性の一式は画像に含まれるテキストの種類に依存する。ヘブライ語のテキストでは、可能性の一式はヘブライ文字に対するものとなる。可能性の一式は、他のアルファベットの文字（ギリシャ文字、キリル文字、ヘブライ文字など）、表音文字および音節文字（日本および中国で使用される文字など）、スクリプト文字（ヒンディー文字およびアラビア文字など）、数学記号および/または他の種類の文字に対するものであるかもしれないことが考慮される。

【0027】

図４Ａは、入力テキストＴ（１）＝ｆｉｓｔｅｎおよび出力候補テキストＣ（１，１）＝ｓｉｌｅｎｔのＮグラムペアと、それらのＮグラムペアについて計算されたＮグラムスコアとを示している。規則を適用することにより、ＮグラムペアごとにＮグラムスコアが計算される。例えば、この規則は、Ｎグラムペアにおける入力テキストＮグラムと出力候補テキストＮグラムとの中身の差が１文字位置以下であるとき、Ｎグラムスコアを可能性に基づいた値に設定することを含んでいてもよい。トライグラムには３つの文字位置があるため、この規則には、中身が同じ２つの文字位置という形の視覚的な類似性を識別する効果がある。

【0028】

図４Ａでは、１のＮグラムペアを除く全てが、複数の文字位置で中身が異なる。例えば、左上隅のＮグラムペアは「ｆｉｓ、ｓｉｌ」である。このＮグラムペアには、両方のトライグラムで中身が同じ２文字（即ち、「ｉ」および「ｓ」）があるが、文字「ｓ」は両方のトライグラムで同じ位置にない。両方のトライグラムで、中央の文字位置のみが同じ中身（即ち「ｉ」）を有する。これは、両方のトライグラムが視覚的に十分類似しているわけではないことを示す。したがって、このＮグラムスコアは可能性に基づいた値に設定されない。例えば、上述の規則は、Ｎグラムペアの中身が複数の文字位置で異なるとき、Ｎグラムスコアを最小値Ｖｍｉｎに設定することをさらに含んでいてもよい。

【0029】

図４Ａでは、Ｎグラムペア「ｔｅｎ、ｌｅｎ」のみ、１文字位置以下の中身が異なる。このＮグラムペアでは、開始文字のみ中身が異なる（ｔとｌ）。残りの２つの文字位置は同じ中身である。つまり、文字「ｅ」および「ｎ」は両方のトライグラムで同じ位置を占める。これは、トライグラムが視覚的に類似していることを示す。したがって、上述の規則に従って、Ｎグラムスコアは可能性に基づいた値に設定される。可能性に基づいた値は、入力テキスト（「ｆｉｓｔｅｎ」）のＮグラム（「ｔｅｎ」）で異なる文字（文字「ｔ」）と出力候補テキスト（「ｓｉｌｅｎｔ」）のＮグラム（「ｌｅｎ」）で異なる文字（文字「ｌ」）との間の混同可能性に基づく。例えば、可能性に基づいた値（Ｖｐ）は、トライグラム（つまり、３文字を有する３グラム）が使用されるとき、式１Ａに従って計算されてもよい。

【0030】

【数1】

【0031】

式１Ａでは、Ｖｐは、トライグラムペアの３つの文字位置に対応する３つの値の正規化された合計である。この合計は、各Ｎグラムの合計文字数（３など）に従って正規化される。完全値（１など）は、中身が同じ文字位置に用いられる。部分値は、中身が同じではない文字位置に用いられる。この部分値は、認識された文字（文字「ｔ」）が実際に候補文字（文字「ｌ」）であるとしたときの可能性Ｐである。この可能性は、文字の混同可能性の一式から取得される。例えば、図３は、元の文字「ｌ」が文字「ｔ」として認識される可能性が０．１２または１２％であることを示している。同じ確率が、トライグラム「ｔｅｎ」の候補文字「ｔ」に適用される。つまり、画像内の文字「ｌ」に対して文字「ｔ」が誤認識される確率は０．１２または１２％である。したがって、図４Ａに示されるように、Ｎグラムペア「ｔｅｎ、ｌｅｎ」のＮグラムスコアは、０．７０７である。

【0032】

他の例では、４グラム（４文字を有する）が使用されるとき、可能性に基づいた値（Ｖｐ）は、式１Ｂに従って計算され得る。

【0033】

【数2】

【0034】

式１Ｂでは、Ｖｐは４グラムの４つの文字位置に対応する４つの値の正規化された合計である。この合計は、各４グラムの文字の合計数（４など）によって正規化される。完全値（１など）は、中身が同じ文字位置に用いられる。Ｎグラムペアの入力テキストのＮグラムおよび出力候補テキストのＮグラムで、１文字位置以下の中身が異なるという規則のため、式１Ｂには３つの完全値が存在する。このことは、３つの文字位置の中身が同じであることを意味する。式１Ｂにおける部分値は可能性Ｐであり、式１Ａと同様の方法で決定される。

【0035】

図４Ｂは、入力テキストＴ（１）＝ｆｉｓｔｅｎおよび出力候補テキストＣ（１，２）＝ｌｉｓｔｅｎのＮグラムペアと、それらのＮグラムペアに対して計算されたＮグラムスコアとを示している。各Ｎグラムペアでは、Ｎグラムスコアが、Ｃ（１，１）に適用されたのと同じ規則を適用して計算される。上記の例に引き続き、この規則は、Ｎグラムペアの入力テキストＮグラムおよび出力候補テキストＮグラムの中身の差が１文字位置以下であるとき、Ｎグラムスコアを可能性に基づいた値Ｖｐに設定することを含む。更に、Ｎグラムペアの中身が複数の文字位置で異なるとき、Ｎグラムスコアを最小値Ｖｍｉｎに設定することを規則は含んでいる。更に、Ｎグラムペアの入力テキストのＮグラムおよび出力候補テキストのＮグラムが全ての文字位置で同じ中身であるとき、規則はＮグラムスコアを最大値Ｖｍａｘに設定することを含んでいる。例えば、トライグラム（つまり、３文字を有する３グラム）が使用されるとき、最大値Ｖｍａｘは式２Ａに従って計算されてもよい。この例では、Ｖｍａｘ＝１である。

【0036】

【数3】

【0037】

式２Ａでは、Ｖｍａｘは、トライグラムの３つの文字位置に対応する３つの値の正規化された合計である。完全値（１など）は、中身が同じ文字位置に用いられる。内容が同じ３つの文字位置があるため、３つの完全値が存在する。

【0038】

他の例では、４グラム（４文字を有する）が使用されるとき、最大値（Ｖｍａｘ）は式２Ｂに従って計算されてもよい。

【0039】

【数4】

【0040】

式２Ｂでは、Ｖｍａｘは４グラムの４つの文字位置に対応する４つの値の正規化された合計である。完全値（１など）は、中身が同じ文字位置に用いられる。中身が同じ４つの文字位置があるため、４つの完全値が存在する。

【0041】

図５は、各ＮグラムペアのＮグラムスコアを計算するために適用され得る規則の一例を示す。以下の式３で示される関係は、Ｖｍｉｎ、ＶｐおよびＶｍａｘについて、常に当てはまる。Ｖｍｉｎは常にＶｐより小さく、Ｖｐは常にＶｍａｘより小さくなる。

【0042】

【数5】

【0043】

図４Ｂでは、入力テキストのＮグラムおよび出力候補テキストのＮグラムについて、全ての文字位置の中身が同じである２つのＮグラムペアが存在している。したがって、ブロック５０（図５）によれば、これらのＮグラムペアに対するＮグラムスコアはＶｍａｘに設定される（例えば、Ｎグラムスコア＝１）。図４Ｂでは、Ｎグラムペアの入力テキストのＮグラムおよび出力候補テキストのＮグラムの差が１文字位置以下である１のＮグラムペア（「ｆｉｓ、ｌｉｓ」）が存在する。したがって、ブロック５１（図５）によれば、Ｎグラムペア「ｆｉｓ、ｌｉｓ」のＮグラムスコアはＶｐに設定される。この例ではＮグラムがトライグラムであるため、Ｎグラムスコアは式１Ａを用いて決定されてもよい。これにより、Ｎグラムスコア＝Ｖｐ＝０．６８７となる。残りのＮグラムペアはすべて、複数の文字位置で中身が異なる。したがって、ブロック５２（図５）によれば、残りのすべてのＮグラムペアのＮグラムスコアはＶｍｉｎに設定される（例えば、Ｎグラムスコア＝０）。

【0044】

図４Ｃは、入力テキストＴ（１）＝ｆｉｓｔｅｎおよび出力候補テキストＣ（１，３）＝ｔｉｎｓｅｌに対するＮグラムペアと、それらのＮグラムペアについて計算されたＮグラムスコアとを示す。Ｎグラムペアの入力テキストおよび出力候補テキストで、全ての文字位置の中身が同じであるＮグラムペアは存在しない。１文字位置以下で、Ｎグラムペアの入力テキストおよび出力候補テキストの中身の異なるＮグラムペアは存在しない。したがって、ブロック５２（図５）によれば、すべてのＮグラムペアのＮグラムスコアはＶｍｉｎに設定される（例えば、Ｎグラムスコア＝０）。

【0045】

再び図１を参照すると、テキスト適合スコアＳ（ｊ、ｋ）は、ブロック１４で、現在の出力候補テキストＣ（ｊ、ｋ）に対し、Ｃ（ｊ、ｋ）および入力テキストＴ（ｊ）のＮグラムペアのうちの１つ以上のＮグラムスコアを用いることにより計算される。例えば、テキスト適合スコアＳ（ｊ、ｋ）は、Ｎグラムスコアのマトリクスを用いて決定されてもよい。

【0046】

図４Ａは、Ｎグラムスコアのマトリクスの一例を示す。マトリクスは、２次元の表として示される。マトリクスの各セルは、第１のマトリクス次元および第２のマトリクス次元に沿って配置される。第１のマトリクス次元は、順番に配置された入力テキスト（「ｆｉｓｔｅｎ」）のＮグラム（ｆｉｓ、ｉｓｔ、ｓｔｅおよびｔｅｎ）に対応する。第２のマトリクス次元は、順番に配置された候補テキスト（「ｓｉｌｉｅｎｔ」）のＮグラム（ｓｉｌ、ｉｌｅ、ｌｅｎ、ｅｎｔ）に対応する。マトリクスの各セルには、第１のマトリクス次元の各Ｎグラムと第２のマトリクス次元の各Ｎグラムとの交差部分によって定義されるＮグラムペアのＮグラムスコアが含まれる。例えば、Ｎグラムペア「ｔｅｎ、ｌｅｎ」のＮグラムスコア＝０．７０７は、「ｔｅｎ」と「ｌｅｎ」とのマトリクス交差部分によって定義されるマトリクスセルに含まれる。

【0047】

テキスト適合スコアは、複数の合計の中で最も大きい合計から決定される。各合計は、マトリクスの１つ以上のセルの各対角線に沿って得られるＮグラムスコアの合計である。以下で明らかになるように、対角線に沿って合計（対角線合計と呼ぶ）を取得すると、入力テキストのＮグラムに視覚的に類似した出力候補テキストのＮグラムが連続して配置されることが強調される。

【0048】

図４Ａでは、合計の一式は｛０、０、０．７０７、０、０、０、０｝である。最も大きい合計は、最大合計ＭａｘＳｕｍと呼ばれる。図４Ａでは、ＭａｘＳｕｍ＝０．７０７である。したがって、テキスト適合スコアＳ（１，１）は０．７０７から決定される。例えば、テキスト適合スコアは、入力テキストのＮグラムの総数（Ａ）または出力候補テキストのＮグラムの総数（Ｂ）に従って、ＭａｘＳｕｍを正規化することにより決定されてもよい。ＡおよびＢの値はそれぞれ、入力テキストおよび出力候補テキストの文字の総数に依存する。入力テキストおよび出力候補テキストの文字の総数が等しくないとき、総数ＡおよびＢは等しくならないであろう。したがって、さらなる例では、テキスト適合スコアは、ＡおよびＢのうちより大きい方のＭａｘＳｕｍを正規化することにより、式４に従って決定されてもよい。

【0049】

【数6】

【0050】

図４Ａでは、ＭａｘＳｕｍ＝０．７０７、Ａ＝４およびＢ＝４である。図１では、ｊ＝１およびｋ＝１であり、ブロック１４でテキスト適合スコアＳ（１，１）が計算される。式４と図３から得られる可能性の値とに従って、テキスト適合スコアＳ（１，１）＝０．７０７／４＝０．１７７となる。

【0051】

図４Ｂでは、ＭａｘＳｕｍ＝２．６８７、Ａ＝４およびＢ＝４である。図１では、ｊ＝１およびｋ＝２であり、テキスト適合スコアＳ（１，２）はブロック１４で計算される。式４と図３から得られる可能性の値とに従って、テキスト適合スコアＳ（１，２）＝２．６８７／４＝０．６７２となる。０．６７２という比較的高いスコアは、連続して配置された、入力テキストのＮグラムと視覚的に類似または同一の出力候補テキストのＮグラム（ｌｉｓｔ、ｓｔｅおよびｔｅｎ）を合計した結果である。

【0052】

図４Ｃでは、ＭａｘＳｕｍ＝０、Ａ＝４およびＢ＝４である。図１では、ｊ＝１およびｋ＝３であり、ブロック１４でテキスト適合スコアＳ（１，３）が計算される。式４に従って、テキスト適合スコアＳ（１，３）＝０／４＝０となる。

【0053】

図１のブロック１５では、出力候補テキストの１つが選択されて、入力テキストに対する出力テキストとされる。この選択は、選択された出力候補テキストのテキスト適合スコアに従って（つまり、出力テキストのテキスト適合スコアに従って）実行される。表３の例では、出力候補テキスト「ｌｉｓｔｅｎ」が選択され、出力テキストとされる。出力候補テキストに対するテキスト適合スコアよりも、０．６７２であるそのテキスト適合スコアが大きいためである。したがって、ブロック１５でＯ（１）＝ｌｉｓｔｅｎとなる。「ｌｉｓｔｅｎ」という単語は、ブロック１０でシステムによって認識された「ｆｉｓｔｅｎ」という単語について、修正された出力の例である。

【0054】

上述のように、行列の対角線の合計を取ると、連続して配置された出力候補テキストのＮグラムに重点が置かれ、この出力候補テキストのＮグラムは入力テキストのＮグラムに視覚的に類似している。いずれも入力テキストのＮグラムと視覚的に類似または同一である３つの連続して配置されたＮグラム（ｌｉｓ、ｓｔｅおよびｔｅｎ）があるため、出力候補テキスト「ｌｉｓｔｅｎ」が選択される。

【0055】

次に、ブロック１６で、この方法は、評価されるべき他の入力テキストが残っているかどうかを判定する。上記例に引き続き、ブロック１０で入力テキスト「ｂｃａｒｓ」も認識された。したがって、ｊが増やされ（ｊ＝ｊ＋１に設定）、ブロック１１～１４に従って次の入力テキスト（「ｂｃａｒｓ」）が評価される。

【0056】

ｊ＝２のブロック１１では、現在の入力テキスト、つまりＴ（２）＝ｂｃａｒｓに対する出力候補テキストが得られる。表４の例に示されるように、出力候補テキストは「ｓｉｌｅｎｔ」、「ｌｉｓｔｅｎ」および「ｔｉｎｓｅｌ」であってもよい。この例では、入力テキストＴ（２）＝ｂｃａｒｓに対するＫ＝３の出力候補テキストがある。出力候補テキストは、Ｃ（２，１）＝ｂａｒｓ、Ｃ（２，２）＝ｂｅａｒｓ、Ｃ（２，３）＝ｂｏａｒｓである。

【0057】

【表4】

【0058】

図６Ａ～６Ｃは、入力テキストＴ（２）＝ｂｃａｒｓおよび表４からの３つの出力候補テキストのＮグラムペアを示す。

【0059】

図６Ａでは、ＭａｘＳｕｍ＝１．６６７、Ａ＝２およびＢ＝３である。図１では、ｊ＝２およびｋ＝１であり、ブロック１４でテキスト適合スコアＳ（２，１）が計算される。式４と図３から取得された可能性の値とに従って、テキスト適合スコアＳ（２，１）＝１．６６７／３＝０．５５６となる。

【0060】

図６Ｂでは、ＭａｘＳｕｍ＝１．６９３、Ａ＝３およびＢ＝３である。図１では、ｊ＝２およびｋ＝２であり、ブロック１４でテキスト適合スコアＳ（２，２）が計算される。式４と図３から取得された可能性の値とに従って、テキスト適合スコアＳ（２，２）＝１．６９３／３＝０．５６４となる。

【0061】

図６Ｃでは、ＭａｘＳｕｍ＝１．６６７、Ａ＝３およびＢ＝３である。図１では、ｊ＝２およびｋ＝３であり、ブロック１４でテキスト適合スコアＳ（２，３）が計算される。式４と図３から取得された可能性の値とに従って、テキスト適合スコアＳ（２，３）＝１．６６７／３＝０．５５６となる。

【0062】

図１のブロック１５では、出力候補テキストの１つが選択されて、入力テキスト「ｂｃａｒｓ」に対する出力テキストとされる。表４の例では、０．５６４のテキスト適合スコアが出力候補テキストのテキストスコアよりも大きいため、出力候補テキスト「ｂｅａｒｓ」が出力テキストとして選択される。したがって、ブロック１５でＯ（２）＝ｂｅａｒｓとなる。上述のように、対角線合計（マトリクスの対角線上の合計）は、入力テキストのＮグラムに視覚的に類似した出力候補テキストのＮグラムが連続して配置されていることを強調する。出力候補テキスト「ｂｅａｒｓ」の選択は、文字「ｃ」が「ｅ」である比較的高い８％の可能性と相まって、出力候補テキスト「ｂｅａｒｓ」が入力テキストのＮグラムと視覚的に同一または類似の２つの連続して配置されたＮグラム（ｅａｒおよびａｒｓ）を持つことに起因している。８％の可能性は、候補文字「ｅ」が候補文字「ｏ」と比較して入力文字「ｃ」に対して比較的高い視覚的類似度を有するという事実を反映している。

【0063】

次に、ブロック１６で、この方法は、評価されるべき他の入力テキストが残っているかどうかを再び決定する。上記の例に引き続き、ブロック１０で認識されたＪ＝２の入力テキストが存在する。ｊ＝Ｊなので、残りの入力テキストはなく、この方法はブロック１７に進む。

【0064】

ブロック１７で、この方法は、選択された出力テキスト「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」を画像に関連付ける。これにより、人が単語「ｌｉｓｔｅｎ」または「ｂｅａｒｓ」を含むすべての画像を検索するときの検索操作が容易になる。出力テキスト「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」が現在の画像に関連付けられていれば、このような検索は、現在の画像を選出するであろう。選択された出力テキスト「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」を画像に関連付けることは、画像を出力テキストに符号化することを含んでいてもよい。

【0065】

追加的または代替的に、この方法は、出力テキスト「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」を画像内のそれぞれの入力テキストの位置に関連付ける。これにより、人が画像内の単語「ｌｉｓｔｅｎ」または「ｂｅａｒｓ」という単語の位置を見つけたいときの検索操作を容易にすることができる。そのような検索は、例えば、単語「ｌｉｓｔｅｎ」が画像の中央に位置することを示してもよい。出力テキスト「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」を画像内のそれぞれの位置に関連付けることは、画像を出力テキストおよびそれらの位置に一緒に符号化することを含んでいてもよい。

【0066】

追加的または代替的に、この方法は、出力テキスト「ｌｉｓｔｅｎ」および「ｂｅａｒｓ」を含む電子書類を生成する。例えば、この電子書類は、ｔｘｔファイル、ＭＳ－Ｗｏｒｄ（登録商標）ファイル、ＰＤＦファイル、またはその他の形式であってもよい。この形式は、ユーザーが電子文書に追加または編集できるような編集可能な形式であってもよい。

【0067】

上記から、上述の方法は、認識システムに固有のまたは認識システムに割り当てられた誤り統計（文字間の混同可能性）を組み込んでおり、それにより、よりシステムの動作に整合した（他のシステムと比較して、当該システムが所定の文字を誤認識する傾向がより少ないまたはより多い）テキスト適合スコアを決定することができることが理解されよう。さらに、この誤り統計は、文字間の視覚的な類似性（たとえば、文字「ｃ」と「ｅ」）をテキスト適合スコアの因子にすることができる。テキスト適合スコアを正規化することにより、文字の総数が異なり得る複数の出力候補文字の間でのランク付けが容易となる。さらに、個々のＮグラムペアのスコアリングおよび対角線合計の使用により、グループレベル（たとえば、Ｎ文字のグループ）での視覚的な類似性をテキスト適合スコアの因子にすることができる。

【0068】

図７は、入力テキスト「Ｐｌａｎｓ＆ｆｒａｉｎｓ」および出力候補テキスト「Ｐｌａｎｅｓ＆ｔｒａｉｎｓ」の例を示している。入力テキストおよび出力候補テキストはともに、文字、スペース（下線で示されている）およびアンパサンド文字（「＆」）を含む。Ｎグラムは、それぞれ４つの合計文字位置を有する４グラムである。一部の４グラムは、スペースおよび／またはアンパサンド文字を含む。Ｎグラムスコアは、図５の規則に従って決定され、Ｖｍａｘは１に設定され、Ｖｍｉｎは０に設定される。Ｖｐは、文字間の混同可能性の一式を使用して計算されてもよく、この一式は、アンパサンド文字に対する可能性を含む。図７で対角線合計の最大値（ＭａｘＳｕｍ）のみがラベル付けされるけれども、対角線合計はＮグラムスコアから計算されるであろう。ＭａｘＳｕｍは、式４に従ってテキスト適合スコアを計算するために使用されてもよい。

【0069】

図８は、本明細書で説明された方法およびプロセスを実行するように構成された装置８０を備える認識システムの例を示す。装置８０は、サーバー、コンピューターワークステーション、パーソナルコンピューター、ラップトップコンピューター、タブレット、スマートフォン、ファクシミリ機、印刷機、プリンターとスキャナーを組み合わせた機能を有する多機能周辺機器（ＭＦＰ：ｍｕｌｔｉ－ｆｕｎｃｔｉｏｎａｌｐｅｒｉｐｈｅｒａｌ）、または１つ以上のコンピュータープロセッサおよびメモリを含む他のタイプの機械であってもよい。

【0070】

装置８０は、１つ以上のコンピュータープロセッサ８１（ＣＰＵｓ）、１つ以上のコンピューターメモリデバイス８２、１つ以上の入力デバイス８３および１つ以上の出力デバイス８４を含む。この１つ以上のコンピュータープロセッサ８１は、プロセッサ８１と総称される。プロセッサ８１は、命令を実行するように構成されている。プロセッサ８１は、命令を実行する集積回路を含んでいてもよい。この命令は、本明細書で説明されるプロセスを実行するための１つ以上のソフトウェアモジュールを具体化してもよい。この１つ以上のソフトウェアモジュールは、テキスト認識プログラム８５と総称される。

【0071】

１つ以上のコンピューターメモリデバイス８２は、メモリ８２と総称される。メモリ８２は、ランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ）モジュール、読み取り専用メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）モジュールおよび他の電子デバイスのいずれかまたはこれらの組み合わせを含む。メモリ８２は、光学ドライブ、磁気ドライブ、ソリッドステートフラッシュドライブおよび他のデータ記憶デバイスなどの大容量記憶デバイスを含んでいてもよい。メモリ８２は、テキスト認識プログラム８５を格納する非一時的コンピューター可読媒体を含む。メモリ８２は、文字間の混同可能性の一式（例えば、図２または図３の可能性）を格納してもよい。

【0072】

１つ以上の入力デバイス８３は、入力デバイス８３と総称される。入力デバイス８３は、カメラおよび光源を有する光学スキャナーを含んでいてもよい。光学スキャナーは、文書ページをスキャンして入力画像を生成するように構成されており、この入力画像は次にブロック１０（図１）で評価される。入力デバイス８３は、人（ユーザー）がデータを入力し、装置８０とやり取りできるようにする。入力デバイス８３は、ボタンを有するキーボード、タッチセンシティブスクリーン、マウス、電子ペンおよび他のタイプのデバイスの１つ以上を含んでいてもよい。これらにより、ユーザーは、コンピュータープロセッサ８１によるテキスト認識プログラム８５の起動が可能となり、および／または、文字間の混同の可能性の一式の識別が可能となり、および／または、上記の検索操作の実行が可能となる。

【0073】

１つ以上の出力デバイス８４は、出力デバイス８４と総称される。出力デバイス８４は、液晶ディスプレイ、プロジェクタ、または他の種類の視覚的ディスプレイデバイスを含んでいてもよい。出力デバイス８４は、入力画像を印刷できるプリンターを含んでいてもよい。出力デバイス８４は、ブロック１５（図１）で選択された出力テキストを表示または印刷するために用いられてもよい。

【0074】

装置８０は、ネットワークインターフェース（Ｉ／Ｆ）８６を含んでいる。ネットワークＩ／Ｆ８６は、ローカルエリアネットワーク（ＬＡＮ：ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ワイドエリアネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、インターネットおよび電話通信キャリアなどのネットワーク８７を介して装置８０と他のマシンとが通信できるように構成されている。ネットワークＩ／Ｆ８６は、ネットワーク８７を通じてデバイス８９へのアナログまたはデジタル通信を可能にする回路を含んでいてもよい。

【0075】

外部デバイス８９は、入力画像を格納していてもよく、ネットワークＩ／Ｆ８６は、外部デバイス８９から入力を受信し、ブロック１０（図１）でプロセッサ８１が入力画像を評価できるように構成されていてもよい。外部デバイス８９は辞書を格納していてもよく、ネットワークＩ／Ｆ８６は、外部デバイス８９と通信し、ブロック１１（図１）でプロセッサ８１がこの辞書を参照できるように構成されていてもよい。外部デバイス８９は、文字間の混同の可能性の一式（例えば、図２または図３の可能性）を格納していてもよく、ネットワークＩ／Ｆ８６は、ブロック１３（図１）で外部デバイス８９から可能性の一式を受信するように構成されてもよい。ネットワークＩ／Ｆ８６は、外部デバイス８９のメモリに、ブロック１５（図１）で選択された出力テキスト、および／または出力テキストを含む電子書類、および／または出力テキストに符号化された後の画像を送信するように構成されていてもよい。

【0076】

本発明のいくつかの形態を図示して説明してきたが、本発明の範囲から逸脱しない範囲で様々な変形を行うことができることも明らかであろう。また、開示された実施形態の特定の特徴および態様の様々なコンビネーションまたはサブコンビネーションは、本発明の様々なモードを形成するために互いに組み合わされ、あるいは、置き換えられ得ることも考えられる。したがって、添付の特許請求の範囲による場合を除き、本発明を限定することは意図されていない。

【図1】