(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-18
(54)【発明の名称】デジタル文書内の文字を認識するための方法、装置、及びコンピュータ可読記憶媒体
(51)【国際特許分類】
G06V 30/41 20220101AFI20240611BHJP
G06V 30/14 20220101ALI20240611BHJP
G06T 7/11 20170101ALI20240611BHJP
【FI】
G06V30/41
G06V30/14 340A
G06T7/11
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023574705
(86)(22)【出願日】2021-06-02
(85)【翻訳文提出日】2024-01-24
(86)【国際出願番号】 US2021035408
(87)【国際公開番号】W WO2022256003
(87)【国際公開日】2022-12-08
(32)【優先日】2021-06-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523453581
【氏名又は名称】リード テクノロジーズ,インコーポレイテッド
(74)【代理人】
【識別番号】100131451
【氏名又は名称】津田 理
(74)【代理人】
【識別番号】100167933
【氏名又は名称】松野 知紘
(74)【代理人】
【識別番号】100184181
【氏名又は名称】野本 裕史
(74)【代理人】
【識別番号】100220423
【氏名又は名称】榊間 城作
(72)【発明者】
【氏名】ダーヘル,モー
(72)【発明者】
【氏名】シャディド,ワシーム
【テーマコード(参考)】
5B029
5L096
【Fターム(参考)】
5B029CC25
5B029EE07
5L096BA17
5L096FA02
5L096FA35
(57)【要約】
デジタル文書内の文字ゾーンを認識する方法、コンピュータ可読媒体、及び装置。一実施形態では、この方法は、デジタル文書のセグメントをテキストを含むものとして分類することと、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、分類することに基づいて、デジタル文書の修正バージョンを生成することと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
デジタル文書内の文字を認識する方法であって、前記方法が、
処理回路によって、前記デジタル文書のセグメントをテキストを含むものとして分類することと、
前記処理回路によって、前記デジタル文書の前記分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、
前記処理回路によって、前記計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、
前記処理回路によって、前記判定されたゾーンパラメータ値及び閾値に基づいて、前記デジタル文書の前記セグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、前記閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、前記手書きテキスト分布プロファイル及び前記印刷テキスト分布プロファイルの各々が、前記判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、
前記処理回路によって、前記分類することに基づいて、前記デジタル文書の修正バージョンを生成することと、を含む、方法。
【請求項2】
前記処理回路によって、前記セグメントが手書きテキストゾーンとして分類されるときに、手書きテキストを認識するために前記セグメントに対して手書き文字認識を実施することと、
前記処理回路によって、前記セグメントが印刷テキストゾーンとして分類されるときに、印刷テキストを認識するために前記セグメントに対して印刷文字認識を実施することと、を更に含む、請求項1に記載の方法。
【請求項3】
前記判定されたゾーンパラメータ値が、
前記処理回路によって、セグメント比にセグメント高さを乗算することによって計算されたオブジェクト密度値であり、前記セグメント比が、セグメント幅に対する前記セグメント内のオブジェクトの数の比である、請求項1に記載の方法。
【請求項4】
前記デジタル文書の前記修正バージョンを前記生成することは、
前記処理回路によって、前記セグメントが手書きテキストゾーンとして分類されるときに、前記セグメントに手書きテキスト識別子を割り当てることと、
前記処理回路によって、前記セグメントが印刷テキストゾーンとして分類されるときに、前記セグメントに印刷テキスト識別子を割り当てることと、を含む、請求項1に記載の方法。
【請求項5】
前記処理回路によって、前記デジタル文書の前記修正バージョンとして、前記デジタル文書の第1の選択可能なバージョンを生成することを更に含み、前記デジタル文書の前記第1の選択可能なバージョンが、前記セグメント内の前記認識された手書きテキストを含む、請求項2に記載の方法。
【請求項6】
前記処理回路によって、前記デジタル文書の前記修正バージョンとして、前記デジタル文書の第2の選択可能なバージョンを生成することを更に含み、前記デジタル文書の前記第2の選択可能なバージョンが、前記セグメント内の前記認識された印刷テキストを含む、請求項2に記載の方法。
【請求項7】
前記処理回路によって、前記ゾーンパラメータ値のタイプに基づいて閾値を含む参照テーブルから前記閾値を取得することを更に含み、前記閾値の各々が、データベースからの対応する手書きテキスト分布プロファイル及び対応する印刷テキスト分布プロファイルに基づいており、
前記対応する手書きテキスト分布プロファイルが、手書きテキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいており、
前記対応する印刷テキスト分布プロファイルが、印刷テキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいている、請求項1に記載の方法。
【請求項8】
前記ヒストグラムの各々が、ラベル付けされたテキストゾーン内のオブジェクトのパラメータ値と、前記オブジェクトの対応するランキングとの比較に基づいており、前記対応するランキングが、前記オブジェクトの前記パラメータ値と、前記ラベル付けされたテキストゾーン内の各他のオブジェクトのパラメータ値と、に基づいている、請求項7に記載の方法。
【請求項9】
前記手書きテキスト分布プロファイルと前記印刷テキスト分布プロファイルとの前記交差の前記選択が、
前記処理回路によって、前記手書きテキスト分布プロファイル及び前記印刷テキスト分布プロファイルの各々について曲線の下方の領域を最大化することを含み、前記閾値は、超えると前記セグメントが手書きテキストである可能性が高い値である、請求項1に記載の方法。
【請求項10】
前記分類することが、
前記処理回路によって、前記判定されたゾーンパラメータ値、及び前記計算された少なくとも1つのパラメータ値の各々に関連付けられたランキング値に基づいて、ゾーンランキング値を計算することと、
前記処理回路によって、前記ゾーンランキング値を前記閾値と比較することであって、前記ゾーンランキング値が前記閾値を満たすときに、前記デジタル文書の前記セグメントが手書きテキストゾーンとして分類される、比較することと、を含む、請求項1に記載の方法。
【請求項11】
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令が、コンピュータによって実行されるときに、前記コンピュータに、デジタル文書内の文字を認識する方法を実施させ、前記方法が、
前記デジタル文書のセグメントをテキストを含むものとして分類することと、
前記デジタル文書の前記分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、
前記計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、
前記判定されたゾーンパラメータ値及び閾値に基づいて、前記デジタル文書の前記セグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、前記閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、前記手書きテキスト分布プロファイル及び前記印刷テキスト分布プロファイルの各々が、前記判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、
前記分類することに基づいて、前記デジタル文書の修正バージョンを生成することと、を含む、非一時的コンピュータ可読媒体。
【請求項12】
前記セグメントが手書きテキストゾーンとして分類されるときに、手書きテキストを認識するために前記セグメントに対して手書き文字認識を実施することと、
前記セグメントが印刷テキストゾーンとして分類されるときに、印刷テキストを認識するために前記セグメントに対して印刷文字認識を実施することと、を更に含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記判定されたゾーンパラメータ値が、
セグメント比にセグメント高さを乗算することによって計算されたオブジェクト密度値であり、前記セグメント比が、セグメント幅に対する前記セグメント内のオブジェクトの数の比である、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記デジタル文書の前記修正バージョンを前記生成することは、
前記セグメントが手書きテキストゾーンとして分類されるときに、前記セグメントに手書きテキスト識別子を割り当てることと、
前記セグメントが印刷テキストゾーンとして分類されるときに、前記セグメントに印刷テキスト識別子を割り当てることと、を含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記デジタル文書の前記修正バージョンとして、前記デジタル文書の第1の選択可能なバージョンを生成することを更に含み、前記デジタル文書の前記第1の選択可能なバージョンが、前記セグメント内の前記認識された手書きテキストと、前記セグメント内の前記認識された印刷テキストと、を含む、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項16】
前記ゾーンパラメータ値のタイプに基づいて閾値を含む参照テーブルから前記閾値を取得することを更に含み、前記閾値の各々が、データベースからの対応する手書きテキスト分布プロファイル及び対応する印刷テキスト分布プロファイルに基づいており、
前記対応する手書きテキスト分布プロファイルが、手書きテキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいており、
前記対応する印刷テキスト分布プロファイルが、印刷テキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいている、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記ヒストグラムの各々が、ラベル付けされたテキストゾーン内のオブジェクトのパラメータ値と、前記オブジェクトの対応するランキングとの比較に基づいており、前記対応するランキングが、前記オブジェクトの前記パラメータ値と、前記ラベル付けされたテキストゾーン内の各他のオブジェクトのパラメータ値と、に基づいている、請求項16に記載の非一時的コンピュータ可読媒体。
【請求項18】
前記手書きテキスト分布プロファイルと前記印刷テキスト分布プロファイルとの前記交差の前記選択が、
前記手書きテキスト分布プロファイル及び前記印刷テキスト分布プロファイルの各々について曲線の下方の領域を最大化することを含み、前記閾値は、超えると前記セグメントが手書きテキストである可能性が高い値である、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記分類することが、
前記判定されたゾーンパラメータ値、及び前記計算された少なくとも1つのパラメータ値の各々に関連付けられたランキング値に基づいて、ゾーンランキング値を計算することと、
前記ゾーンランキング値を前記閾値と比較することであって、前記ゾーンランキング値が前記閾値を満たすときに、前記デジタル文書の前記セグメントが手書きテキストゾーンとして分類される、比較することと、を含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項20】
デジタル文書内の文字を認識するための装置であって、前記装置が、
処理回路を備え、前記処理回路が、
前記デジタル文書のセグメントをテキストを含むものとして分類することと、
前記デジタル文書の前記分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、
前記計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、
前記判定されたゾーンパラメータ値及び閾値に基づいて、前記デジタル文書の前記セグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、前記閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、前記手書きテキスト分布プロファイル及び前記印刷テキスト分布プロファイルの各々が、前記判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、
前記セグメント分類に基づいて、前記デジタル文書の修正バージョンを生成することと、を行うように構成された、装置。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、その全体があらゆる目的のために参照により本明細書に組み込まれる、2021年6月1日に出願された米国特許出願第17/335,547号に対する優先権を主張する。
【0002】
本開示は、概して、文字認識の分野に関する。具体的には、本開示は、手書き文字及び印刷文字を認識することに関する。
【背景技術】
【0003】
典型的に、文字認識は、様々な文字認識アルゴリズムを使用して実施される。手書き文字及び印刷文字を認識するために利用される現在の文字認識方法は、特に文書が処理されるべき大量の文字を含むとき、負担がかかり、遅く、非効率である。
【0004】
前述の「背景」の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者の研究は、この「背景技術」の項に記載する範囲において、出願時に先行技術として認められない可能性がある説明の態様と同様に、本開示に対する先行技術として明示的又は黙示的に認められるものではない。
【発明の概要】
【0005】
本開示は、デジタル文書内の文字の認識に関する。
【0006】
一実施形態によれば、本開示は、デジタル文書内の文字を認識する方法に更に関し、この方法は、処理回路によって、デジタル文書のセグメントをテキストを含むものとして分類することと、処理回路によって、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、処理回路によって、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、処理回路によって、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することとであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、処理回路によって、分類することに基づいて、デジタル文書の修正バージョンを生成することと、を含む。
【0007】
一実施形態によれば、本開示は、命令を記憶する非一時的コンピュータ可読媒体に更に関し、命令は、コンピュータによって実行されるときに、コンピュータに、デジタル文書内の文字を認識する方法を実施させ、この方法は、デジタル文書のセグメントをテキストを含むものとして分類することと、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、分類することに基づいて、デジタル文書の修正バージョンを生成することと、を含む。
【0008】
一実施形態によれば、本開示は、デジタル文書内の文字を認識するための装置に更に関し、この装置は、処理回路を備え、処理回路は、デジタル文書のセグメントをテキストを含むものとして分類することと、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、セグメント分類に基づいて、デジタル文書の修正バージョンを生成することと、を行うように構成される。
【0009】
先の段落は、一般的な序論のつもりで提供されているものであって、以下の特許請求の範囲を限定することを意図しない。記載される実施形態は、更なる利点と共に、添付の図面と併せて以下の詳細な説明を参照することによって最もよく理解されるであろう。
【0010】
本開示及びそれに付随する多くの利点のより完全な理解は、添付の図面に関連して考えたときに以下の詳細な説明を参照することによって、よりよく理解されるように、容易に得られるであろう。
【図面の簡単な説明】
【0011】
【
図1】本開示の一実施形態による文字認識システムのブロック図である。
【
図2A】本開示の一実施形態による文字認識方法を示すフローチャートである。
【
図2B】本開示の一実施形態による文字認識方法を示すフローチャートである。
【
図2C】本開示の一実施形態による文字認識方法のサブプロセスを示すフローチャートである。
【
図3】本開示の一実施形態による、分布関数曲線を示す図である。
【
図4】本開示の一実施形態による、文字認識プロセスに基づいて文書の選択可能なバージョンを生成することを示すフローチャートである。
【
図5】本開示の一実施形態によるオブジェクトの例示的な画像を例示する。
【
図6】本開示の一実施形態による、訓練された機械学習アルゴリズムを使用する文字認識方法を示すフローチャートである。
【
図7】本開示の特定の実施形態による例示的な分類器サーバを示す詳細なブロック図である。
【
図8】本開示の特定の実施形態による例示的なユーザデバイスを示す詳細なブロック図である。
【発明を実施するための形態】
【0012】
本明細書で使用される用語「a」又は「an」は、1つ又は1つを超えると定義される。本明細書で使用される用語「複数」は、2つ又は2つを超えるとして定義される。本明細書で使用される用語「別の(another)」は、少なくとも2番目以降と定義される。本明細書で使用される用語「含む(including)」及び/又は「有する(having)」は、備える(comprising)(すなわち、オープン言語)と定義される。本明細書全体を通して「一実施形態」、「特定の実施形態」、「実施形態」、「実装形態」、「実施例」又は同様の用語の参照は、実施形態に関連して説明する特定の特徴、構造、又は特性が、本開示の少なくとも1つの実施形態に含まれることを意味する。それ故に、このようなフレーズ又は本明細書中の様々な場所での出現は、必ずしも全てが同じ実施形態に言及しているわけではない。更に、特定の特徴、構造、又は特性は、限定されることなく、1つ以上の実施形態において任意の適切な様式で組み合わされ得る。
【0013】
更に、「およそ」、「近位」、「小(minor)」、及び類似の用語は、概して、特定の実施形態では20%、10%、又は好ましくは5%のマージン内の識別された値、及びそれらの間の任意の値を含む範囲を指す。
【0014】
用語「ユーザ」及び他の関連用語は、文字認識回路、文字認識システム、又は文字認識回路/システムに入力を送信するシステムを使用する人を指すために互換的に使用される。
【0015】
図1は、本開示の一実施形態による文字認識システム100のブロック図である。文字認識システム100は、ユーザデバイス102(1)~102(n)、デジタル文書104、ネットワーク106、分類器サーバデバイス108、及びデータベース記憶デバイス110を含む。ユーザデバイス102(1)~102(n)はまた、ユーザデバイス102(1)~102(n)のプールとも称され得る。システム100の構成要素は、データ及び/又はソフトウェア命令(例えば、サーバコード、クライアントコード、データベースなど)を記憶するメモリを有するコンピューティングデバイス(例えば、コンピュータ、サーバなど)を含み得る。いくつかの実施形態では、1つ以上のコンピューティングデバイスは、開示された実施形態と一致する1つ以上の動作を実施するために、1つ以上のメモリデバイス上に記憶されたソフトウェア命令を実行するように構成され得る。
【0016】
ユーザデバイス102(1)~102(n)は、タブレットコンピュータデバイス、携帯電話、ラップトップコンピュータデバイス、及び/又はパーソナルコンピュータデバイスであり得るが、任意の他のユーザ通信デバイスも含まれ得る。特定の実施形態では、ユーザデバイス102(1)~102(n)は、スマートフォンであり得る。しかしながら、当業者は、本明細書に説明される特徴が他のデバイス(例えば、サーバ、電子リーダ、カメラ、ナビゲーションデバイスなど)に実装されるように適合されてもよいことを理解するであろう。
【0017】
デジタル文書104は、ユーザデバイス102(1)~102(n)に記憶又は表示され得る任意の文書のデジタルバージョンであり得る。デジタル文書104は、ポータブル文書フォーマット(PDF)、ジョイント写真エキスパートグループ(JPEG)ファイルフォーマットなどの画像ファイル、Microsoft Word(.doc、.docx)で一般的に使用されるものなどのワードプロセッシング文書、又は当業者に既知の他のデジタルフォーマットなど、任意のフォーマットであり得る。更に、デジタル文書104は、ユーザデバイス102(1)~102(n)によってキャプチャされ、デジタル化された文書に変換され得る物理的文書のデジタルバージョンであり得る。
【0018】
ユーザデバイス102(1)~102(n)は、物理的文書を変換してデジタル文書104を生成するために利用されるスキャナ、ファックス機、カメラ、又は他の同様のデバイスであり得る。本開示は、デジタル文書104を生成するために利用される任意の特定のデバイスに限定されるわけではないことが、当業者によって理解されよう。デジタル文書104は、テキストコンテンツを有する任意の人工物であり得る。デジタル文書104は、印刷テキスト、手書きテキスト、グラフィック、バーコード、QRコード、線、画像、形状、色、構造、フォーマット、レイアウト、又は他の識別子を含み得る。デジタル文書104は、ユーザによって記入され得る入力フィールドを有するフォーム、テキスト、画像又は他の識別子、字、メモなどを含み得る個人識別文書であり得る。
【0019】
ネットワーク106は、システム100の構成要素間で、通信若しくは交換データ、又はその両方を提供するように構成された1つ以上のタイプのコンピュータネットワーキング構成を備え得る。例えば、ネットワーク106は、インターネット、プライベートデータネットワーク、パブリックネットワークを使用する仮想プライベートネットワーク、LAN若しくはWANネットワーク、Wi-Fi(商標)ネットワーク、及び/又はシステム100の様々な構成要素間の情報交換を可能にし得る他の適切な接続など、通信を提供し、情報を交換し、及び/又は情報の交換を容易にする任意のタイプのネットワーク(インフラストラクチャを含む)を含み得る。ネットワーク106はまた、公衆交換電話網(「PSTN」)及び/又は無線セルラネットワークを含み得る。ネットワーク106は、セキュリティで保護されたネットワーク又はセキュリティで保護されていないネットワークであってもよい。いくつかの実施形態では、システム100の1つ以上の構成要素は、専用の通信リンクを介して直接通信し得る。ユーザデバイス102(1)~102(n)、分類器サーバデバイス108、及びデータベース記憶デバイス110は、ネットワーク106を介して互いに通信するように構成され得る。
【0020】
分類器サーバデバイス108は、以下でより完全に説明されるように、開示された実施形態と一致する1つ以上の動作を実施するように構成された1つ以上のネットワークアクセス可能なコンピューティングデバイスであってもよい。以下で考察されるように、分類器サーバデバイス108は、デジタル文書104内のゾーンを手書きテキストゾーン又は印刷テキストゾーンとして分類するための命令を記憶するネットワークデバイスであってもよい。
【0021】
データベース記憶デバイス110は、ネットワーク106を介して、分類器サーバデバイス108及びユーザデバイス102(1)~102(n)に直接的又は間接的に通信可能に結合されてもよい。データベース記憶デバイス110はまた、分類器サーバデバイス108の一部であってもよい(すなわち、別個のデバイスではない)。データベース記憶デバイス110は、情報を記憶し、システム100の1つ以上の構成要素によってアクセス及び/又は管理される1つ以上のメモリデバイスを含み得る。例として、データベース記憶デバイス110は、Oracle(商標)データベース、Sybase(商標)データベース、又はHadoopシーケンスファイル、HBase、若しくはCassandraなどの他のリレーショナルデータベース若しくは非リレーショナルデータベースを含み得る。データベース記憶デバイス110は、データベース記憶デバイス110のメモリデバイスに記憶されたデータに対する要求を受信及び処理し、データベース記憶デバイス110からデータを提供するように構成されたコンピューティング構成要素(例えば、データベースオペレーティングシステム、ネットワークインターフェースなど)を含み得る。データベース記憶デバイス110は、デジタル文書104内のゾーンを手書きテキストゾーン又は印刷テキストゾーンとして分類するための命令を記憶するように構成されてもよい。
【0022】
一実施形態では、この技術は、デジタル文書104内の手書き文字及び/又は印刷文字を認識するために利用される。簡単に要約すると、一実施形態では、本開示の方法は、最初に、デジタル文書をセグメント化することを含む。次に、デジタル文書のセグメントは、テキストゾーン及び非テキストゾーンに分類され得る。次いで、テキストゾーンの各々は、テキストゾーンに関連付けられる1つ以上のパラメータに基づいて、手書きテキスト又は印刷テキストを含むように分類され得る。次いで、テキストゾーンに対して、手書きテキストゾーン又は印刷テキストゾーンのいずれかであるものとしてのそれらの分類に基づいて、文字認識プロセスが適用され得る。例えば、インテリジェント文字認識(ICR)プロセスを手書きテキストゾーンに適用することができ、光学文字認識(OCR)プロセスを印刷テキストゾーンに適用することができる。
【0023】
異なるテキストゾーンをそれぞれのタイプのテキストに分類することによって、デジタル文書の各ゾーンは、2回(すなわち、ICRとOCRの両方によって)処理される必要はない。このアプローチは、文書の内容を知らずに又はそれを考慮せずに文書の全領域にOCRを適用する従来のアプローチとは対照的である。例えば、OCRは、特定の機械生成テキスト部分(すなわち、印刷テキスト部分)では許容可能であり得るが、手書きテキスト部分の処理においては非効率的及び/又は不正確である。したがって、文書全体にOCRを適用すると、テキストを含む文書を処理する際の速度又は精度を提供することに失敗する。
【0024】
一実施形態によれば、本開示の方法は、OCRプロセス及びICRプロセスの各々を実施する単一の認識モジュールを採用することができる。
【0025】
一実施形態では、OCRプロセスは、デジタル文書内の印刷テキストを認識するアルゴリズムを含む。OCRアルゴリズムによって認識される印刷テキストは、アルファベット、数字、及び/又は特殊文字を含み得るが、任意の他のデジタル文字も含まれ得る。
【0026】
一実施形態では、ICRプロセスは、デジタル文書内の手書きテキストを認識するアルゴリズムを含む。ICRプロセスによって認識され得る手書きテキストは、アルファベット、数字、及び/又は特殊文字を含むが、任意の他の手書き文字も含まれ得る。
【0027】
再び図を参照すると、
図2A、
図2B、及び
図2Cは、本開示の例示的な実施形態による、文字認識システム100による文字認識の方法を示す流れ図である。この方法は、デジタル文書104が、複数のユーザデバイス102(1)~102(n)のうちのユーザデバイス102(1)から分類器サーバデバイス108によって受信されるときに開始し得る。ユーザデバイス102(1)~102(n)は、スキャナ、ファックス機、カメラ、又は他の同様のデバイスであり得る。一実施形態では、デジタル文書104は、ユーザデバイス102(1)によって、物理的文書(例えば、手書きテキスト、印刷テキスト、及び/又はグラフィックを含むページ)をデジタル文書104に変換することによって、あるいはpdf、画像、ワード、又は当業者に既知の他のデジタルフォーマットなどの任意のフォーマットのデジタル文書104を作成することによって生成され得る。
【0028】
一実施形態では、デジタル文書104は、ユーザデバイス102(1)~102(n)から受信されてもよい。更に、デジタル文書104は、ユーザデバイス102(1)~102(n)によって生成されてもよい。
【0029】
方法200のステップ202において、分類器サーバデバイス108は、ユーザデバイス102(1)からデジタル文書104の文字認識の要求を受信する。一実施形態では、ユーザは、ユーザデバイス102(1)に表示されたユーザインターフェースを使用して、デジタル文書104を分類器サーバデバイス108にアップロードし得、更に、ユーザデバイス102(1)のユーザインターフェース上のボタンを選択して、要求を分類器サーバデバイス108に送信し、デジタル文書104の文字認識プロセスを開始し得る。分類器サーバデバイス108は、デジタル文書104の文字認識プロセスを開始する命令と共に、デジタル文書104を受信する。したがって、デジタル文書104を受信すると、分類器サーバデバイス108は、方法200のステップ204において以下に説明されるように、デジタル文書104に対してセグメント化を実施することによって、文字認識プロセスを開始する。
【0030】
一実施形態では、分類器サーバデバイス108は、ユーザデバイス102(1)~102(n)のいずれかから、デジタル文書104を選択可能な文書に変換するための文字認識の要求を受信する。
【0031】
一実施形態では、デジタル文書104は、テキストゾーン及び非テキストゾーンを含む文書であってもよい。テキストゾーンは、手書きテキスト及び/又は印刷テキストを含んでもよいが、任意の他のタイプのテキストデータも含まれ得る。非テキストゾーンは、グラフィックゾーン、磁気インク文字認識(MICR)、機械可読ゾーン(MRZ)、光学マーク認識(OMR)、画像、図、図面、及び/又はテーブルを含んでもよいが、任意の他のタイプの非テキストデータも含まれ得る。
【0032】
一実施形態では、デジタル文書104は、手書きテキストを含む文書であってもよい。一実施形態では、デジタル文書104は、印刷テキストを含む文書であってもよい。一実施形態では、デジタル文書104は、手書きテキスト及び印刷テキストを含む文書であってもよい。
【0033】
一実施形態では、及び単純な例として、このデジタル文書104は、ビジネスレターの内容を含む単一のページであってもよい。このようにして、単一のページは、ロゴ、挨拶、本文、及び署名を含む。
【0034】
方法200のステップ204において、分類器サーバデバイス108は、デジタル文書104に1つ以上のセグメント化アルゴリズムを適用することによって、デジタル文書104を複数のゾーンにセグメント化する。1つ以上のセグメント化アルゴリズムは、古典的なコンピュータビジョンベースのアプローチ又は人工知能ベースのアプローチを含むことができる。1つ以上のセグメント化アルゴリズムは、セマンティックセグメント化又はインスタンスセグメント化を展開し得る。更に、1つ以上のセグメント化アルゴリズムは、閾値セグメント化、エッジ検出セグメント化、k平均クラスタリング、及び領域ベースの畳み込みニューラルネットワークを含み得る。方法200は、ステップ202において受信されたデジタル文書104が別のソフトウェアプログラム、デバイス、又は方法によって事前にセグメント化されるように、同様に実装され得ることが理解されよう。
【0035】
一実施形態では、1つ以上のセグメント化アルゴリズムは、領域ベースのセグメント化アルゴリズム、エッジベースのセグメント化アルゴリズム、閾値及び色ベースのセグメント化アルゴリズム、及び/又はオブジェクト分析ベースのセグメント化アルゴリズムを含み得るが、任意の他のセグメント化アルゴリズムも含まれ得る。領域ベースのセグメント化アルゴリズムは、流域及び領域成長セグメント化アルゴリズムを含み得るが、これらに限定されない。エッジベースのセグメント化アルゴリズムには、エッジ検出アルゴリズム及びアクティブ輪郭アルゴリズムが含まれ得るが、これらに限定されない。閾値及び色ベースのセグメント化アルゴリズムは、大津、マルチレベルカラー、固定閾値、適応閾値、動的閾値、及び/又は自動閾値アルゴリズムを含み得るが、これらに限定されない。オブジェクト分析ベースのセグメント化アルゴリズムについて以下に更に説明する。
【0036】
一実施形態では、分類器サーバデバイス108は、オブジェクト分析ベースのセグメント化アルゴリズムを利用して、デジタル文書104から全てのオブジェクトを抽出する。オブジェクト(例えば、水平線、垂直線、テキストオブジェクト、グラフィックオブジェクトなど)は、分類器サーバデバイス108によってデジタル文書104内で最初に検出される。一実施形態では、分類器サーバデバイス108は、検出されたオブジェクトを非テキストオブジェクト及びテキストオブジェクトとして分類する。テキストオブジェクトは、文字(例えば、手書き文字、印刷文字)、数字(例えば、手書きの数字、印刷された数字)、字(例えば、手書きの字、印刷された字)などを含み得る。非テキストオブジェクトは、水平線、垂直線、グラフィックオブジェクトなどを含み得る。
【0037】
この目的のために、テキストオブジェクトは、分類器サーバデバイス108によって複数のブロックに分割されてもよい。ブロックは、例えば、文字の任意のグループ化(例えば、字又は数字、単語、文、段落などの単一文字)であってもよい。ブロックは、別のブロックから、それらの間の距離が所定の距離よりも大きくなり得るかどうかに基づいて区別されてもよい。例えば、2つの段落間の距離は、単語内の2つの文字間の距離よりもはるかに大きくなり得る。したがって、そのような距離は、ブロックのサイズを判定する際に使用され得る。一実施形態では、各ブロックは、異なるサイズであってもよい。一実施形態では、いくつかのブロックは同じサイズであってもよいが、他のブロックは異なるサイズであってもよい。一実施形態では、ブロック間の最小距離は、文字のサイズの2倍であり得、文字間の距離は、文字のサイズの0.2倍以下であり得る。上記で定義された距離は、ピクセルなどの様々な測定法に実装され得る文字間の関係を提供する。一実施形態では、テキストオブジェクトは、分類器サーバデバイス108によって、テキストオブジェクトに対応する高さ及びストローク幅に基づいて、ブロックに分割される。例えば、同じ高さ及びストローク幅を有する文字は、テキストグループを形成するために一緒にグループ化される。例として、テキストグループは、単語、文、段落などを含み得る。したがって、同じ高さ及びストローク幅を有する文字を含む各テキストグループは、一意のテキストゾーンと称される。次いで、非テキストオブジェクトは、テキストオブジェクトと同様の方式で、分類器サーバデバイス108によって処理され得る。例として、分類器サーバデバイス108は、オブジェクト分析ベースのセグメント化アルゴリズムを利用して、デジタル文書104から全ての非テキストオブジェクトを抽出する。非テキストオブジェクト(例えば、水平線、垂直線、グラフィックオブジェクトなど)は、デジタル文書104内で検出される。一実施形態では、分類器サーバデバイス108は、非テキストオブジェクトの各々を非テキストグループにグループ化する。例として、分類器サーバデバイス108は、水平線と垂直線との交差がテーブルを形成するかどうかを判定し、テーブルを一意の非テキストゾーンとして識別する。更に、水平線及び垂直線がテーブルを形成しないと判定される場合、各水平線及び各垂直線は、分類器サーバデバイス108によって一意の非テキストゾーンとして判定される。分類器サーバデバイス108は、オブジェクト分析ベースのセグメント化アルゴリズムを利用し、限定されないが、画像、図面などのグラフィックオブジェクトを各々一意の非テキストゾーンとして識別する。各グラフィックグループは、分類器サーバデバイス108によって一意の非テキストゾーンとして判定され得る。一実施形態では、テキストオブジェクトは、文字(例えば、手書き文字、印刷文字)、数字(例えば、手書きの数字、印刷された数字)、字(例えば、手書きの字、印刷された字)などを含み得る。例えば、テキストブロックは、文字の任意のグループ化(例えば、字又は数字などの単一の文字、単語のグループ、文のグループ、段落のグループなど)であり得る。更に、同じ高さ及びストローク幅を有する文字のグループ化(例えば、字又は数字などの単一の文字、同じ高さ及びストローク幅の文字を含む単語のグループ、同じ高さ及びストローク幅を有する単語を含む文のグループ、同じ高さ及びストローク幅を有する文を含む段落のグループなど)は、テキストグループを一緒に形成する。したがって、各テキストグループは、一意のテキストゾーンとして分類器サーバデバイス108によって判定され得る。
【0038】
上記に加えて、セグメント化アルゴリズムは、文書をセグメント化するように訓練された機械学習アルゴリズムを含み得る。機械学習アルゴリズムは、文書をセグメント化するように訓練されたニューラルネットワークアルゴリズム、文書をセグメント化するように訓練された畳み込みニューラルネットワークアルゴリズム、文書をセグメント化するように訓練された深層学習アルゴリズム、及び文書をセグメント化するように訓練された強化学習アルゴリズムを含み得るが、文書をセグメント化するように訓練された任意の他のニューラルネットワークアルゴリズムも含まれ得る。
【0039】
続いて、方法200のステップ206において、分類器サーバデバイス108は、複数のゾーンの各々をテキストゾーン又は非テキストゾーンとして分類する。分類器サーバデバイス108による分類は、限定されないが、人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン、ランダムフォレスト、ナイーブベイズ、及びk最近傍を含む、既知の画像分類技法によって実施され得る。
【0040】
デジタル文書104がビジネスレターである例では、デジタル文書104は、少なくとも4つのゾーンにセグメント化されてもよく、次いで、これらのセグメント化されたゾーンは分類される。第1のゾーンは、ビジネスレターの挨拶を含むテキストゾーンであり得る。第2のゾーンは、ビジネスレターの本文を含むテキストゾーンであり得る。第3のゾーンは、ビジネスレターの署名を含むテキストゾーンであり得る。第4のゾーンは、ビジネスレターのロゴを含む非テキストゾーンであり得る。第5のゾーンは、ビジネスレターの残りの空白を形成する非テキストゾーンであり得る。
【0041】
方法200のステップ208において、分類器サーバデバイス108は、各テキストゾーンについて少なくとも1つのパラメータ値を計算する。一実施形態では、方法200のステップ208は、各テキストゾーン内のテキストオブジェクトを識別し、識別された各テキストオブジェクトについて少なくとも1つのパラメータ値を計算することを更に含んでもよい。一実施形態では、少なくとも1つのパラメータ値は、とりわけ、テキストオブジェクトの抽出された形状、テキストオブジェクトの抽出された寸法及び外周、テキストオブジェクトのストローク幅、割り当てられた数のテキストオブジェクト、並びに色及び強度に関連するピクセル情報に基づいてもよい。少なくとも1つのパラメータ値はまた、各テキストゾーンについて、曲率、質量中心、画像特性、及び隣接するゾーンの属性を含んでもよい。
【0042】
一実施形態では、少なくとも1つのパラメータ値は、とりわけ、テキストオブジェクトの各々に関連付けられた寸法及び外周値(すなわち、オブジェクト寸法値及びオブジェクト外周値)、テキストオブジェクトの各々に関連付けられた色、テキストオブジェクトの各々に関連付けられた輪郭、テキストオブジェクトの各々に関連付けられたエッジ位置、テキストオブジェクトの各々に関連付けられた領域、テキストオブジェクトの各々に関連付けられた形状、テキストオブジェクトの各々に関連付けられたオブジェクト曲率値、テキストオブジェクトの各々に関連付けられた質量中心値、テキストオブジェクトの各々に関連付けられたオブジェクトフォントストローク幅、テキストオブジェクトの各々に関連付けられたオブジェクト高さ、テキストオブジェクトの各々に関連付けられたオブジェクト密度値、オブジェクトピクセル色情報(色及び強度など)、テキストオブジェクトの各々に関連付けられた黒色ピクセルの数、並びに/あるいはテキストオブジェクトの各々に関連付けられたオブジェクトピクセル強度、を含んでもよいが、任意の他の任意のタイプのパラメータ値も含まれ得る。少なくとも1つのパラメータ値は、1つ以上のパラメータとも称されることがある。一例では、テキストオブジェクトの各々に関連付けられたオブジェクト密度は、テキストオブジェクトの各々に関連付けられたテキストゾーンに対応するゾーン幅に、テキストオブジェクトの各々に関連付けられたテキストゾーンに対応するゾーン高さを乗算したものよって正規化された、テキストゾーン内のテキストオブジェクトの数の比であり得る。
【0043】
一実施形態では、それがテキストゾーン内の所与のテキストオブジェクトに関連するとき、少なくとも1つのパラメータ値は、テキストゾーン内のテキストオブジェクトの高さ、及びテキストゾーン内のテキストオブジェクトのフォントストローク幅を含み得る。更に、少なくとも1つのパラメータ値は、テキストゾーン内のテキストオブジェクトの高さと、テキストゾーン内のテキストオブジェクトのフォントストローク幅との比であり得る。
【0044】
図5は、テキストゾーン内の文字から導出され得る少なくとも1つのパラメータ値の例示的な説明を提供する。
図5は、テキストオブジェクト500Aであり得る文字「C」を示す。更に、少なくとも1つのパラメータ値は、テキストオブジェクト「C」のオブジェクトフォントストローク幅502、テキストオブジェクト「C」のオブジェクト高さ504、及び/又はテキストオブジェクト「C」のオブジェクト幅506であり得る。一実施形態では、テキストオブジェクト「C」のフォントストローク幅502は、
【数1】
であり得、オブジェクト面積は、テキストオブジェクト「C」500Aの黒色ピクセルの数であり得る。
【0045】
ここで
図2A~
図2Cに戻ると、分類器サーバデバイス108は、方法200のステップ210において、所与のテキストゾーンについて方法200のステップ208において計算された全てのパラメータ値に基づいて、各計算されたパラメータ値にランキング値を割り当てる。一実施形態では、ランキング値は、所与のゾーン内の各他のテキストオブジェクトの各他のオブジェクトランキング値に基づく、所与のゾーン内の各テキストオブジェクトのオブジェクトランキング値であり得る(以下に詳細に説明される)。例えば、デジタル文書104の第1のゾーン(すなわち、挨拶)内の、テキストオブジェクトの各々のオブジェクトランキング値は、第1のゾーン内のテキストオブジェクトの各々に関連付けられたオブジェクト値に基づいて、0~15の間の値を割り当てられ得る。言い換えれば、最も低いオブジェクト値を有する第1のゾーンのテキストオブジェクトは、オブジェクトランキング値0を割り当てられ得、一方、最も高いオブジェクト値を有する第1のゾーンのテキストオブジェクトは、オブジェクトランキング値15を割り当てられ得る。複数のテキストオブジェクトが、同じオブジェクトランキング値を有し得る。更に、範囲の任意の他の値も含まれ得る。
【0046】
本明細書に記載の例では、第1のゾーンは、レターの挨拶を含み得る。レターの挨拶は、例えば、「Hello World」であり得る。挨拶の各テキストオブジェクトのオブジェクトランキング値が判定され得る。言い換えれば、「H」、「e」、「l」、「l」、「o」、「W」、「o」、「r」、「l」、及び「d」の各々は、オブジェクトランキング値を割り当てられ得る。上記のオブジェクト値判定方法に基づいて、テキストオブジェクト「H」は、オブジェクトランキング値11を割り当てられ得、テキストオブジェクト「o」は、オブジェクトランキング値4を割り当てられ得る。このようなオブジェクトランキング値は単に例示であり、実行時の評価を反映することを意図しないことを理解されたい。
【0047】
方法200のステップ212において、分類器サーバデバイス108は、各テキストゾーンの少なくとも1つのゾーンパラメータ値を判定する。一実施形態では、少なくとも1つのゾーンパラメータ値は、方法200のステップ208において計算された少なくとも1つのパラメータ値の平均値に対応することができる。一実施形態では、所与のテキストゾーンについて、少なくとも1つのゾーンパラメータ値は、とりわけ、テキストゾーン内のテキストオブジェクトの密度、テキストゾーン内のテキストオブジェクトの寸法比の平均、コンテキスト均一性、及びその中に含まれる色、面積、輪郭、エッジ、及びテキストオブジェクトなどのゾーンピクセル情報に基づく計算(例えば、平均)として判定され得る。
【0048】
一実施形態では、それが単一のテキストゾーンに関連するとき、テキストゾーンの少なくとも1つのゾーンパラメータ値は、テキストゾーン内の各テキストオブジェクトの寸法比の平均であり得る。例えば、各寸法比は、テキストオブジェクトの高さとテキストオブジェクトのストローク幅との比較であり得る。
【0049】
方法200のサブプロセス212において、及びデジタル文書の各テキストゾーンについて1つのゾーンパラメータ値のみが考慮されると仮定すると、
図2Cを参照しながら説明されるように、手書きテキストゾーン又は印刷テキストゾーンとしてのテキストゾーンの分類を支援するために、ゾーンパラメータ値と閾値との間の関係を識別することができる。
【0050】
図2Cのサブプロセス214のステップ216において、平均ランキング値を、方法200のステップ212において判定されたゾーンパラメータ値に割り当てることができる。平均ランキング値は、方法200のステップ210のランキング値と同様の様式で割り当てることができる。
【0051】
サブプロセス214のステップ218において、手書きテキスト及び印刷テキストの各々に関連付けられた分布プロファイルをプロービングすることによって、閾値を識別することができる。言い換えれば、閾値は、参照データから、ランキング値などの値として識別され、それを超えると、所与のテキストゾーンは、手書きテキストゾーンになる可能性が最も高く、それを下回ると、所与のテキストゾーンは、印刷テキストゾーンになる可能性が最も高い。「可能性が最も高い」という語句は、分布プロファイルが互いにどのように関連しているかに基づく信頼度、すなわち、所与のテキストゾーンがその後に手書きテキストゾーン又は印刷テキストゾーンのいずれかとして分類されることを可能にする信頼度を反映している。
【0052】
一実施形態では、閾値は、ゾーンパラメータ値のタイプに基づく閾値を含む、ルックアップテーブルなどの参照テーブルから取得することができる。この目的のために、参照テーブル内の閾値は、ゾーンパラメータ値のタイプごとに生成された分布プロファイルに基づいてもよく、リアルタイムで計算されてもよく、事前に計算されてもよく、又はサードパーティによって計算されてもよく、「ラベル付けされた」テキストゾーンに関連付けられた参照データに基づいてもよく、「ラベル付けされた」テキストゾーンは、手書きテキスト又は印刷テキストのいずれかであると以前に識別されているものを含む。
【0053】
一実施形態では、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々は、分類器サーバデバイス108によって生成され得るか、又はローカル記憶デバイス若しくはリモート記憶デバイスから取得され得、手書きテキスト及び印刷テキストの各々に対応する参照データに基づくことができる。更に、各分布プロファイルは、評価されている特定のゾーンパラメータ値に基づくことができる。したがって、例えば、ゾーンのパラメータ値がオブジェクトのアスペクト比である場合、関連する閾値を判定するために使用される手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々は、オブジェクトのアスペクト比に基づくことができる。
【0054】
概して、手書きテキスト分布プロファイルは、参照データのサンプルのヒストグラム及び関連付けられたランキング値に基づく分布曲線であり得る。参照データは、例えば、手書きテキストとして分類されているサンプルテキストゾーンであってもよい。一実施形態では、参照データは、関連付けられたランキング値を有するゾーンパラメータ値に基づいてもよい。例えば、ゾーンパラメータ値は、オブジェクト密度であり得る。一実施形態では、参照データは、サンプルテキストゾーン内の各オブジェクトのパラメータ値に基づいてもよく、サンプルテキストゾーンの各々は、計算されたパラメータ値を有し、かつその後に、割り当てられたランキング値を有するオブジェクトなどを含む。例えば、計算されたパラメータ値は、オブジェクトストローク幅であり得る。したがって、オブジェクトパラメータ値が使用される場合、サンプルテキストゾーンの各々からの、計算されたパラメータ値及び割り当てられたランキング値の各ペアは、ヒストグラムをポピュレートするために使用され得る。ゾーンパラメータ値が使用される場合、サンプルテキストゾーンの各々からの、ゾーンパラメータ値及び割り当てられたランキング値の各ペアは、ヒストグラムをポピュレートするために使用され得る。言い換えれば、ヒストグラムは、ランキング値ごとに、同じランキング値を有する手書きテキストサンプルテキストゾーンの数をカウントすることによってポピュレートすることができる。次いで、本明細書では手書きテキスト分布プロファイルと称される分布曲線は、手書きテキストサンプルテキストゾーンの総数によってヒストグラム値を正規化することによって、ヒストグラムから生成され得る。
【0055】
同様に、印刷テキスト分布プロファイルは、参照データのサンプルのヒストグラム及び関連付けられたランキング値に基づく分布曲線であり得る。参照データは、例えば、印刷テキストとして分類されているサンプルテキストゾーンであってもよい。一実施形態では、参照データは、関連付けられたランキング値を有するゾーンパラメータ値に基づいてもよい。例えば、ゾーンパラメータ値は、オブジェクト密度であり得る。一実施形態では、参照データは、サンプルテキストゾーン内の各オブジェクトのパラメータ値に基づいてもよく、サンプルテキストゾーンの各々は、計算されたパラメータ値を有し、かつその後に、割り当てられたランキング値を有するオブジェクトなどを含む。例えば、計算されたパラメータ値は、オブジェクトストローク幅であり得る。したがって、オブジェクトパラメータ値が使用される場合、サンプルテキストゾーンの各々からの、計算されたパラメータ値及び割り当てられたランキング値の各ペアは、ヒストグラムをポピュレートするために使用され得る。ゾーンパラメータ値が使用される場合、サンプルテキストゾーンの各々からの、ゾーンパラメータ値及び割り当てられたランキング値の各ペアは、ヒストグラムをポピュレートするために使用され得る。言い換えれば、ヒストグラムは、ランキング値ごとに、同じランキング値を有する印刷テキストサンプルテキストゾーンの数をカウントすることによってポピュレートすることができる。次いで、本明細書では印刷テキスト分布プロファイルと称される分布曲線は、印刷テキストサンプルテキストゾーンの総数によってヒストグラム値を正規化することによって、ヒストグラムから生成され得る。
【0056】
一実施形態では、印刷テキスト分布プロファイル及び手書きテキスト分布プロファイルは、
図3に示されるようなものであり得る。手書きテキスト分布プロファイル308及び印刷テキスト分布プロファイル316が示されている。水平軸312は、オブジェクトのランキング値を定義し、一方、垂直軸310は、手書きテキストゾーン又は印刷テキストゾーン内で所与のランキング値を観察する確率を定義する。手書きテキスト分布プロファイル308及び印刷テキスト分布プロファイル316は、各々、当該のパラメータ値に対して生成されており、それに対応し得る。交差320は、サブプロセス214のステップ218と同様に、閾値として識別され得る。言い換えれば、交差320は、ランキング値を閾値として定義する。
【0057】
一実施形態では、手書きテキスト分布プロファイル308と印刷テキスト分布プロファイル316との交差320は、曲線の下方の領域を最大化する分布プロファイルの交差として選択され得る。理論的には、それが
図3に関連するように、予測Xは、予測が実際にクラス「陽性/手書き」に属する場合、確率密度関数FH(例えば、手書きテキスト分布プロファイル308)に従い、そうでない場合、FM(例えば、印刷テキスト分布プロファイル316)に従う。したがって、真陽性率は、交差320によって定義された閾値Tを上回る手書きテキスト分布プロファイル308の下方の領域によって与えられる。言い換えれば、真陽性率は、交差320よりも大きい手書きテキスト分布プロファイル308の値の合計に、それらの間の距離を乗算したものである。一方、真陰性率は、印刷テキスト分布曲線の下方の領域によって与えられ、これは、閾値Tよりも小さい印刷テキスト分布曲線値の合計に、それらの間の距離を乗算したものである。本開示の閾値Tは、真陽性率及び真陰性率を最大化する交差であり得る。
【0058】
実際には、各分布プロファイルの曲線の下方の領域は、交差の両側に位置する。実際には、
図3に示されるように、各分布プロファイルの曲線の下方の最大化された領域は、ランキング値「9」によって定義される交差320において実現される。ランキング値「9」に関連して、「9」の右側の手書きテキスト分布プロファイル308の曲線の下方の領域が最大化されると同時に、「9」の左側の印刷テキスト分布プロファイル316の曲線の下方の領域が最大化される。約3などの2つの分布プロファイル間の他の交差点は、曲線の下方の上記の最大化された領域をもたらさないため、選択されない。
【0059】
ここで
図2Cに戻ると、サブプロセス214のステップ220において、割り当てられた平均ランキング値を、サブプロセス214のステップ218において取得された閾値と比較することができる。
図3を手短に参照すると、この比較は、二項分類タイプの問題であることがあり、平均ランキング値を評価して、それが閾値を上回るか下回るかを判定することができる。概して、二項分類では、各インスタンスのクラス予測は、そのインスタンスに対して計算された「スコア」である変数Xに基づいて行われることが多い。閾値Tが与えられた場合、X>Tの場合、インスタンスは「陽性」に分類され、それ以外の場合は「陰性」に分類される。
【0060】
したがって、比較に基づいて、再び
図2Bを参照すると、分類器サーバデバイス108は、方法200のステップ222又は方法200のステップ224において、それぞれ、テキストゾーンを手書きテキストゾーン又は印刷テキストゾーンのいずれか1つとして分類する。
【0061】
サブプロセス214のステップ220における比較が、テキストゾーンのランキング値が閾値よりも大きいことを示す場合、テキストゾーンは、方法200のステップ222において手書きテキストゾーンとして分類され、ゾーンが手書きテキストゾーンであることを示す識別子を割り当てられる。識別子は、例えば、テキストゾーンが手書きテキストゾーンであることを示すために、テキストゾーンに挿入されたソフトウェアコードの一部であってもよい。
【0062】
サブプロセス214のステップ220における比較が、テキストゾーンのランキング値が閾値よりも小さいことを示す場合、テキストゾーンは、方法200のステップ222において印刷テキストゾーンとして分類され、ゾーンが印刷テキストゾーンであることを示す識別子を割り当てられる。識別子は、例えば、テキストゾーンが印刷テキストゾーンであることを示すために、テキストゾーンに挿入されたソフトウェアコードの一部であってもよい。
【0063】
したがって、方法200のステップ226において、分類器サーバデバイス108は、デジタル文書104の修正バージョンを生成し、デジタル文書104の修正バージョンは、そのテキストゾーンに割り当てられた識別子を含む。
【0064】
図2A~
図2Cの方法によってデジタル文書104を修正した後、修正されたデジタル文書は、
図4の方法400に従って処理され得る。例示の目的のために、修正されたデジタル文書は、4つのテキストゾーンを含み、それらのうちの2つは、手書きテキストゾーンとして分類されており、同ゾーンを示す対応する第1の識別子を割り当てられ、それらのうちの2つは、印刷テキストゾーンとして分類されており、同ゾーンを示す対応する第2の識別子を割り当てられると仮定することができる。
【0065】
図4は、本開示の一実施形態による、文字認識プロセスに基づいて文書の選択可能なバージョンを生成するための方法400を示すフローチャートである。この方法は、データベース記憶デバイス110に記憶されたデジタル文書104の修正バージョンにアクセスすることによって開始する。一実施形態では、デジタル文書104の修正バージョンは、
図2Bの方法200のステップ226において、分類器サーバデバイス108によって事前に記憶されてもよい。一実施形態では、デジタル文書104の修正バージョンは、分類器サーバデバイス108によってユーザデバイス102(1)から受信されてもよく、及び/又は分類器サーバデバイス108にローカルに記憶されてもよい。一実施形態では、デジタル文書104の修正バージョンは、ユーザデバイス102(1)によって生成され、データベース記憶デバイス110に記憶されてもよい。
【0066】
一実施形態では、デジタル文書104の修正バージョンは、分類器サーバデバイス108によってユーザデバイス102(1)~102(n)から受信されてもよく、及び/又は分類器サーバデバイス108にローカルに記憶されてもよい。一実施形態では、デジタル文書104の修正バージョンは、ユーザデバイス102(1)~102(n)によって生成され、データベース記憶デバイス110に記憶されてもよい。
【0067】
図4の方法400のステップ402において、分類器サーバデバイス108は、対応するテキストゾーンに割り当てられた第1の識別子を識別する。方法400のステップ404において、分類器サーバデバイス108は、第1の識別子が手書きテキストゾーンの識別子であると判定し、したがって、手書きテキストゾーン内のテキストを認識するためにICRアルゴリズムが適用されることを識別する。したがって、分類器サーバデバイス108は、デジタル文書104の修正バージョン内の手書きテキストゾーンにICRアルゴリズムを適用する。同様に、方法400のステップ406において、分類器サーバデバイス108は、対応するテキストゾーンに割り当てられた第2の識別子を識別する。方法400のステップ408において、分類器サーバデバイス108は、第2の識別子が印刷テキストゾーンの識別子であると判定し、したがって、印刷テキストゾーン内のテキストを認識するためにOCRアルゴリズムが適用されることを識別する。したがって、分類器サーバデバイス108は、デジタル文書104の修正バージョン内の印刷テキストゾーンにOCRアルゴリズムを適用する。
【0068】
次に、分類器サーバデバイス108は、識別及び認識されたテキストゾーンに基づいて、方法400のステップ410において、デジタル文書104の選択可能なバージョンを生成する。デジタル文書104の選択可能なバージョンは、ユーザデバイス102(1)~102(n)によるそのテキストオブジェクトの選択を容易にする。デジタル文書104の選択可能なバージョンは、ユーザデバイス102(1)~102(n)によって選択可能である手書き文字及び印刷文字を含む。次いで、デジタル文書104の選択可能なバージョンは、方法400のステップ412において、任意選択で、ユーザデバイスに送信され得る。例えば、デジタル文書104の選択可能なバージョンは、ユーザデバイス102(1)~102(n)のいずれかに送信されてもよい。ユーザデバイス102(1)~102(n)は、ユーザデバイス102(1)~102(n)に事前に記憶された手書き文字認識アルゴリズムを、デジタル文書104の修正バージョン内の全てのゾーンに適用し得る。この実施形態では、手書き文字認識アルゴリズムは、文書104の修正バージョンに挿入された第1の識別子に対応するゾーンを識別する。第1の識別子及び第2の識別子に対応するゾーンを識別すると、手書き文字認識アルゴリズムは、第1の識別子を割り当てられたそれらのゾーンに対応する文字を認識し、印刷文字認識アルゴリズムは、第2の識別子を割り当てられたそれらのゾーンに対応する文字を認識する。したがって、手書き文字及び印刷文字は、次いで、ユーザデバイス102(1)~102(n)に対応するユーザインターフェースを介してユーザデバイス102(1)~102(n)によって選択可能であるように変換される。
【0069】
テキストゾーンを手書きテキストゾーン又は印刷テキストゾーンのいずれかとして分類する利点は、分類器サーバデバイス108が、デジタル文書104の手書きテキストゾーン内の文字を認識するためにICRアルゴリズムを利用し、別個に、デジタル文書104の印刷テキストゾーン内の文字を認識するためにOCRアルゴリズムを利用してもよいことである。したがって、各認識アルゴリズムは、割り当てられた識別子によって示されるように、所与のテキストゾーンの要求に基づいて効率的に適用することができる。
【0070】
手書き文字認識アルゴリズム(例えば、上述のICR)も、印刷テキストオブジェクト用のOCRアルゴリズムも、デジタル文書104全体の全てのゾーンに適用されないことを理解すると、本開示は、ICRアルゴリズムを文書の特定のゾーンのみに適用することによって文書を効率的に処理するという技術的利点を提供する。この技術は、ICRアルゴリズムとOCRアルゴリズムの両方をデジタル文書104全体の全てのゾーンに適用せず、手書き文字及び印刷文字を認識し、文書全体の全ての文字がICRアルゴリズムとOCRアルゴリズムの両方によって処理されないため、この技術は、デジタル文書の全ての文字を分析するのに必要な時間を大幅に短縮する。したがって、この技術は、文書の文字を一度だけ認識して、特に大量の文字が処理される環境では、非常に効率的な文字認識の高速プロセスを提供するという利点を提供する。
【0071】
したがって、本開示は、文書全体(全てのゾーン)が手書き文字認識アルゴリズム(例えば、ICR)と印刷文字認識アルゴリズム(例えば、OCR)の両方によって処理される必要がないため、より正確で堅牢な結果を達成するだけでなく、計算リソース/処理能力を節約する。
【0072】
一実施形態では、分類器サーバデバイス108は、方法200のステップ226に到達する前に、以下の状況に基づいて、順次に、ランダムに、又は互いに組み合わせて、
図2A~
図2Cに関連付けられた動作を実施することができる。
【0073】
第1の状況では、一実施形態によれば、少なくとも1つのパラメータ値は、オブジェクト高さ対オブジェクトフォントストローク幅の比であり得、分類器サーバデバイス108は、オブジェクト高さ対オブジェクトフォントストローク幅の比の平均としてゾーンパラメータ値を判定し得る。ゾーンパラメータ値が閾値を超えるとき、分類器サーバデバイス108は、そのゾーン内の全てのオブジェクトが手書きテキストオブジェクトであると判定し、テキストゾーンを手書きテキストゾーンとして分類するために方法200のステップ222を実施する。反対に、ゾーンパラメータ値が閾値を超えないとき、分類器サーバデバイス108は、そのゾーン内の全てのオブジェクトが印刷テキストオブジェクトであると判定し、テキストゾーンを印刷テキストゾーンとして分類するために方法200のステップ224を実施する。
【0074】
第2の状況では、ゾーンパラメータ値がオブジェクト密度であり得るとき、分類器サーバデバイス108は、ゾーンパラメータ値として、テキストゾーン内のオブジェクトの数とテキストゾーン幅及びテキストゾーン高さの乗算との比に基づいて、平均オブジェクト密度を判定する。ゾーンパラメータ値が閾値を超えるとき、分類器サーバデバイス108は、そのテキストゾーン内の全てのオブジェクトが手書きテキストオブジェクトであると判定し、テキストゾーンを手書きテキストゾーンとして分類するために方法200のステップ222を実施する。反対に、ゾーンパラメータ値が閾値を超えないとき、分類器サーバデバイス108は、そのテキストゾーン内の全てのオブジェクトが印刷テキストオブジェクトであると判定し、テキストゾーンを印刷テキストゾーンとして分類するために方法200のステップ224を実施する。
【0075】
第3の状況では、分類器サーバデバイス108は、上述の第1の状況及び第2の状況の間に手書きテキストゾーンとして分類されているテキストゾーンを識別し、テキストゾーンを信頼できる手書きテキストゾーンとしてラベル付けする。
【0076】
第4の状況では、分類器サーバデバイス108は、上述の第1の状況及び第2の状況の間に印刷テキストゾーンとして分類されているテキストゾーンを識別し、テキストゾーンを信頼できる印刷テキストゾーンとしてラベル付けする。
【0077】
第5の状況では、分類器サーバデバイス108は、上述の第3の状況及び第4の状況を考慮して、信頼できないテキストゾーンを識別する。信頼できないテキストゾーンは、第1の状況及び第2の状況のいずれかの間に手書きテキストゾーンとして分類されていないテキストゾーン、並びに第1の状況及び第2の状況のいずれかの間に印刷テキストゾーンとして分類されていないテキストゾーンである。したがって、信頼できないゾーンを識別すると、分類器サーバデバイス108は、信頼できないゾーンの各々を取り囲む隣接するゾーンを識別する。信頼できないゾーンを取り囲む隣接するゾーンを識別すると、分類器サーバデバイス108は、隣接するゾーンの大部分が信頼できる手書きテキストゾーンであるかどうかを評価する。隣接するゾーンの大部分が信頼できる手書きテキストゾーンであると判定すると、分類器サーバデバイス108は、信頼できないゾーンを信頼できる手書きテキストゾーンとしてラベル付けする。しかしながら、隣接するゾーンの大部分が信頼できる手書きテキストゾーンではないと判定されると、分類器サーバデバイス108は、信頼できないゾーンを信頼できる印刷テキストゾーンとしてラベル付けする。
【0078】
図6は、本開示の一実施形態による、訓練された機械学習アルゴリズムを使用する文字認識システム100による文字認識方法を示すフローチャートである。この方法は、分類器サーバデバイス108がユーザデバイス102(1)からデジタル文書104を受信すると開始される。デジタル文書104は、ユーザデバイス102(1)によって、物理的文書(例えば、テキスト及び/又はグラフィックを含むページ)をデジタル文書104に変換することによって、あるいはpdf、画像、ワード、又は当業者に既知の他のデジタルフォーマットなどの任意のフォーマットのデジタル文書104を作成することによって生成され得る。
【0079】
一実施形態では、デジタル文書104は、ユーザデバイス102(1)~102(n)のいずれかから受信されてもよい。更に、デジタル文書104は、ユーザデバイス102(1)~102(n)のいずれかによって生成されてもよい。
【0080】
一実施形態では、分類器サーバデバイス108は、分類器サーバデバイス108に事前に記憶された訓練テストデータ及び訓練結果データを利用することによって、並びに/あるいはデータベース記憶デバイス110に記憶された訓練テストデータ及び訓練結果データにアクセスすることによって、機械学習アルゴリズムを訓練する。訓練テストデータは、デジタル文書のセットを含み、文書の各々は、テキストゾーンを含む。更に、訓練結果データは、訓練テストデータに含まれるデジタル文書のセット内の文書の各々に関連付けられた分類結果を含む。訓練結果データは、デジタル文書のセットの文書内の(手書きテキストゾーン又は印刷テキストゾーンのいずれかとして分類される)ゾーンの実際の分類に対応する分類結果を記憶する。
【0081】
分類器サーバデバイス108は、
図2A~
図4に説明された動作に基づいて訓練テストデータを分類することによって、機械学習アルゴリズムの訓練を実施する。分類器サーバデバイス108によって訓練テストデータを分類すると、分類器サーバデバイス108は、機械学習アルゴリズムを利用して、訓練テストデータに対して実施された分類が正確であるかどうかを検証する。訓練テストデータに対する分類の検証は、訓練テストデータの文書のセットに含まれるゾーンの分類の結果を、訓練結果データに含まれる対応するゾーンの分類結果と比較することによって実施される。
【0082】
比較に基づいて、分類器サーバデバイス108が、結果が不正確であると判定した場合、分類器サーバデバイス108は、不正確さを識別し、したがって、将来において正確な分類予測を行うように、機械学習アルゴリズムを訓練する。更に、比較に基づいて、分類器サーバデバイス108が、結果が正確であると判定した場合、分類器サーバデバイス108は、正確さを識別し、将来において同様の正確な分類予測を行うように、機械学習アルゴリズムを訓練する。
【0083】
方法600のステップ602において、分類器サーバデバイス108は、ユーザデバイス102(1)からデジタル文書104の文字認識の要求を受信する。一実施形態では、ユーザは、ユーザデバイス102(1)に表示されたユーザインターフェースを使用して、デジタル文書104を分類器サーバデバイス108にアップロードし得、更に、ユーザデバイス102(1)のユーザインターフェース上のボタンを選択して、要求を分類器サーバデバイス108に送信し、デジタル文書104の文字認識プロセスを開始し得る。分類器サーバデバイス108は、デジタル文書104に対して文字認識プロセスを開始する命令と共に、デジタル文書104を受信する。したがって、デジタル文書104を受信すると、分類器サーバデバイス108は、以下のステップ604において説明されるように、デジタル文書104に対してセグメント化を実施することによって、文字認識プロセスを開始する。
【0084】
一実施形態では、分類器サーバデバイス108は、ユーザデバイス102(1)~102(n)のいずれかから、デジタル文書104の文字認識の要求を受信する。
【0085】
一実施形態では、デジタル文書104は、テキストゾーン及び非テキストゾーンを含む文書であってもよい。テキストゾーンは、手書きテキスト及び/又は印刷テキストを含んでもよいが、任意の他のタイプのテキストデータも含まれ得る。非テキストゾーンは、グラフィックゾーン、磁気インク文字認識(MICR)、機械可読ゾーン(MRZ)、光学マーク認識(OMR)、画像、図、図面、及び/又はテーブルを含んでもよいが、任意の他のタイプの非テキストデータも含まれ得る。
【0086】
一実施形態では、デジタル文書104は、手書きテキストを含む文書であってもよい。一実施形態では、デジタル文書104は、印刷テキストを含む文書であってもよい。一実施形態では、デジタル文書104は、手書きテキスト並びに印刷テキストを含む文書であってもよい。
【0087】
方法600のステップ604において、分類器サーバデバイス108は、デジタル文書104に1つ以上のセグメント化アルゴリズムを適用することによって、デジタル文書104を複数のゾーンにセグメント化する。1つ以上のセグメント化アルゴリズムを適用することによって、デジタル文書104を複数のゾーンにセグメント化するこの動作は、上記で詳細に説明された
図2Aのステップ204と同様であり得る。
【0088】
方法600のステップ606において、分類器サーバデバイス108は、複数のゾーンの各々をテキストゾーン又は非テキストゾーンとして分類する。分類器サーバデバイス108による分類は、限定されないが、人工ニューラルネットワーク(例えば、畳み込みニューラルネットワーク)、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン、ランダムフォレスト、ナイーブベイズ、及びk最近傍を含む、既知の画像分類技法によって実施され得る。
【0089】
方法600のステップ608において、分類器サーバデバイス108は、テキストゾーン内の文字の各々に関連付けられた画像ピクセルを分析して、テキストゾーンを手書きテキストゾーン又は機械印刷テキストゾーンとして分類するように事前に訓練され得る、訓練された機械学習アルゴリズムを適用する。機械学習アルゴリズムは、文書をセグメント化するように訓練されたニューラルネットワークアルゴリズム、文書をセグメント化するように訓練された畳み込みニューラルネットワークアルゴリズム、文書をセグメント化するように訓練された深層学習アルゴリズム、及び文書をセグメント化するように訓練された強化学習アルゴリズムを含むが、ゾーンを手書きテキストゾーン又は機械印刷テキストゾーンとして分類するように訓練された任意の他のニューラルネットワークアルゴリズムも含まれ得る。
【0090】
分類器サーバデバイス108は、機械学習アルゴリズムを利用して、入力としてテキストゾーンの各文字に対応する各画像ピクセルを分析し、各文字が手書き文字であり得るか機械印刷文字であり得るかを判定する。文字が手書き文字であると判定すると、分類器サーバデバイス108は、手書き文字に対応する第1の出力ピン値を増加させる。更に、文字が機械印刷文字であると判定すると、分類器サーバデバイス108は、機械印刷文字に対応する第2の出力ピン値を増分する。
【0091】
テキストゾーンの各文字に対応する各画像ピクセルを分析すると、分類器サーバデバイス108は、手書き文字に対応する第1の出力ピン値を、機械印刷文字に対応する第2の出力ピン値と比較する。手書き文字に対応する第1の出力ピン値が、機械印刷文字に対応する第2の出力ピン値よりも大きい値を有する場合、分類器サーバデバイス108は、テキストゾーンを手書きテキストゾーンとして分類し、方法600はステップ610に進む。手書き文字に対応する第1の出力ピン値が、機械印刷文字に対応する第2の出力ピン値よりも小さい値を有する場合、テキストゾーンは、機械印刷テキストゾーンとして分類され得、方法600はステップ612に進む。
【0092】
方法600のステップ610において、分類器サーバデバイス108は、
図2A~
図2Cを参照しながら前述されたように、テキストゾーンを手書きテキストゾーンとして分類し、テキストゾーンに識別子を割り当てる。識別子は、テキストゾーンが手書きテキストゾーンであることを示すラベルであり得る。識別子は、テキストゾーンが手書きテキストゾーンであり得ることを示すために、文書104の各テキストゾーンに挿入されたソフトウェアコードの一部であり得る。
【0093】
方法600のステップ612において、分類器サーバデバイス108分類器サーバデバイス108は、テキストゾーンを印刷テキストゾーンとして分類し、
図2A~
図2Cを参照しながら前述されたように、テキストゾーンに識別子を割り当てる。識別子は、テキストゾーンが印刷テキストゾーンであることを示すラベルであり得る。識別子は、テキストゾーンが印刷テキストゾーンであり得ることを示すために、文書104の各テキストゾーンに挿入されたソフトウェアコードの一部であり得る。
【0094】
方法600のステップ614において、分類器サーバデバイス108は、デジタル文書104内で識別されたテキストゾーンの各々を手書きテキストゾーン又は印刷テキストゾーンのいずれかとして分類する動作を実施すると、デジタル文書104の修正バージョンを生成し、テキストゾーンに割り当てられた識別子を含むデジタル文書104の修正バージョンをデータベース記憶デバイス110に記憶し、及び/又はデジタル文書104の修正バージョンを分類器サーバデバイス108上にローカルに記憶する。識別子を含むデジタル文書104のこの修正バージョンは、
図4の方法400において上述されたように更に利用され得る。
【0095】
一実施形態では、方法600のステップ608を参照しながら説明されたように、分類器サーバデバイス108は、入力として、テキストゾーンの各々に対応するオブジェクト又は文字の輪郭を受け取る。分類器サーバデバイス108は、機械学習アルゴリズムを利用して、テキストゾーンの各文字の輪郭を分析し、各文字が手書き文字であり得るか機械印刷文字であり得るかを判定する。分類器サーバデバイス108は、各文字が手書き文字であるかどうかを判定し、手書き文字として判定された各文字について、手書き文字に対応する第1の出力ピン値を増加させる。更に、分類器サーバデバイス108は、各文字が印刷文字であるかどうかを判定し、機械印刷文字として判定された各文字について、機械印刷文字に対応する第2の出力ピン値を増加させる。
【0096】
テキストゾーンの各文字に対応する輪郭を分析すると、分類器サーバデバイス108は、手書き文字に対応する第1の出力ピン値を、機械印刷文字に対応する第2の出力ピン値と比較する。分類器サーバデバイス108が、手書き文字に対応する第1の出力ピン値が、機械印刷文字に対応する第2の出力ピン値よりも大きくなり得る値を有すると判定すると、分類器サーバデバイス108は、ゾーンを手書きテキストゾーンとして分類し、方法600は、上述されたように、ステップ610に進む。分類器サーバデバイス108が、手書き文字に対応する第1の出力ピン値が、機械印刷文字に対応する第2の出力ピン値よりも小さくなり得る値を有すると判定すると、分類器サーバデバイス108は、ゾーンを機械印刷テキストゾーンとして分類し、方法600は、上述されたように、ステップ612に進む。
【0097】
一実施形態では、
図2A、
図2B、
図2C、
図4、及び
図6の動作は、分類器サーバデバイス108において実施してもよい。一実施形態では、
図2A、
図2B、
図2C、
図4、及び
図6の動作は、どんな外部ネットワークデバイスとも通信することなく、ユーザデバイス102(1)~102(n)にインストールされたソフトウェアアプリケーションによって
図2A、
図2B、
図2C、及び
図4の動作が実施されるように、ユーザデバイス102(1)~102(n)にソフトウェアアプリケーション(「アプリ」)をインストールすることによって実施され得る。
【0098】
一実施形態では、
図2A、
図2B、
図2C、
図4、及び
図6の動作は、外部ネットワークデバイスと通信しながら、ユーザデバイス102(1)~102(n)にインストールされたソフトウェアアプリケーションによって
図2A、
図2B、
図2C、
図4、及び
図6の動作が実施されるように、ユーザデバイス102(1)~102(n)にソフトウェアアプリケーションをインストールすることによって実施され得る。
【0099】
ゾーンを手書きテキストゾーンとして分類する利点は、ゾーンを手書きテキストゾーンとして分類すると、分類器サーバデバイス108が、手書きテキストゾーンとして分類されたそれらのゾーンに関連付けられた文字のみを認識する手書き文字認識アルゴリズムを利用することである。したがって、手書き文字認識アルゴリズムは、手書きテキストゾーンとして分類されたそれらのゾーンに関連付けられた文字のみを認識し、文書全体の全ての文字を処理しないため、これは、文字を認識する効率的な方法を提供する。更に、ゾーンを印刷テキストゾーンとして分類すると、分類器サーバデバイス108は、印刷テキストゾーンとして分類されたそれらのゾーンに関連付けられた文字のみを認識する印刷文字認識アルゴリズムを適用する。したがって、印刷文字認識アルゴリズムは、印刷テキストゾーンとして分類されたそれらのゾーンに関連付けられた文字のみを認識し、文書全体の全ての文字を処理しないため、これは、文字を認識する効率的な方法を提供する。
【0100】
手書き文字認識アルゴリズムが、手書き文字を識別するために文書全体に適用されないため、更に、印刷文字認識アルゴリズムが、印刷文字を識別するために文書全体に適用されないため、本開示は、手書き文字認識アルゴリズム又は印刷文字認識アルゴリズムを、それぞれ、手書き文字及び印刷文字を認識するためにその両方を文書全体に適用する代わりに、文書の特定のゾーンにのみ適用することによって、文書を効率的に処理する技術的利点を提供する。このような技法は、文書全体(全てのゾーン)が手書き文字認識アルゴリズム(例えば、ICR)と印刷文字認識アルゴリズム(例えば、OCR)の両方によって処理される必要がないため、より正確で堅牢な結果を達成するだけでなく、計算リソース/処理能力を節約する。
【0101】
したがって、文書全体の全ての文字がICRアルゴリズムとOCRアルゴリズムの両方によって処理されないため、この技術は、デジタル文書の全ての文字を分析するのに必要な時間を大幅に短縮する。したがって、この技術は、文書の文字を一度だけ認識して、特に大量の文字が処理される環境では、非常に効率的な文字認識の高速プロセスを提供するという利点を提供する。
【0102】
説明された実施形態の機能の各々は、1つ以上の処理回路(コントローラとも称される)によって実装され得る。処理回路は、プロセッサが回路を含むので、プログラムされたプロセッサ(例えば、
図7のCPU700)を含む。処理回路はまた、特定用途向け集積回路(ASIC)及び具陳された機能を実施するように配置された回路構成要素などのデバイスを含み得る。処理回路は、
図7に関してより詳細に考察されるように、分類器サーバデバイス108の一部であり得る。
【0103】
図7は、本開示の特定の実施形態による例示的な分類器サーバデバイス108を示す詳細なブロック図である。
図7において、分類器サーバデバイス108は、CPU700と、クエリマネージャアプリケーション750と、を含む。一実施形態では、分類器サーバデバイス108は、記憶コントローラ724に結合されるデータベース記憶デバイス110を含む。一実施形態では、データベース記憶デバイス110は、別個の個々の(外部)デバイスであってもよく、ネットワーク720(
図1のネットワーク106)を介して分類器サーバデバイス108によってアクセスされてもよい。
【0104】
CPU700は、本開示に記載されている処理を実施する。プロセスデータ及び命令は、メモリ702に記憶され得る。(
図2A~
図6に関して考察された)これらのプロセス及び命令はまた、ハードドライブ(HDD)若しくはポータブル記憶媒体などの記憶媒体ディスク704に記憶されてもよく、又はリモートで記憶されてもよい。
【0105】
更に、本開示の考察された特徴は、CPU700と、Microsoft Windows又は他のバージョン、UNIX、Solaris、LINUX、Apple MAC-OS及び当業者に既知の他のシステムなどのオペレーティングシステムとを組み合わせて実行されるユーティリティアプリケーション、バックグラウンドデーモン、又はオペレーティングシステムの構成要素、あるいはこれらの組み合わせとして提供され得る。
【0106】
分類器サーバデバイス108の動作を実現するためのハードウェア要素は、当業者に既知の様々な回路要素によって実現され得る。例えば、CPU700は、米インテル社のXenonプロセッサ又はCoreプロセッサ、あるいは米AMD社のOpteronプロセッサであってもよいか、あるいは当業者であれば認識するであろう他のプロセッサタイプであってもよい。
【0107】
図7の分類器サーバデバイス108はまた、ネットワーク720とインターフェースするために、米インテル社からのIntel Ethernet PROネットワークインターフェースカードなどのネットワークコントローラ706を含む。理解され得るように、ネットワーク720は、インターネットなどの公衆ネットワーク、又はLAN又はWANネットワークなどのプライベートネットワーク、あるいはそれらの任意の組み合わせとすることができ、更にPSTN又はISDNサブネットワークも含むことができる。ネットワーク720はまた、イーサネットネットワークのような有線でも可能であり、又はEDGE、3G及び4G無線セルラシステムを含むセルラネットワークのような無線でも可能である。無線ネットワークはまた、WiFi、Bluetooth、又は既知の任意の他の無線通信形態でもあり得る。分類器サーバデバイス108は、ネットワーク720を介して、データベース記憶デバイス110、ユーザデバイス102(1)~102(n)のプールなどの外部デバイスと通信し得る。
【0108】
分類器サーバデバイス108は、ディスプレイ770とインターフェースするために、米NVIDIA社からのNVIDIA GeForce GTX又はQuadroグラフィックスアダプタなどのディスプレイコントローラ708を更に含む。I/Oインターフェース712は、キーボード714及び/又はマウス並びにタッチスクリーンパネル716とインターフェースし、及び/又はディスプレイ770とは別個にインターフェースする。更に、分類器サーバデバイス108は、I/Oインターフェース712を介して又はネットワーク720を通じて、ユーザデバイス102(1)~102(n)のプールに接続されてもよい。ユーザデバイス102(1)~102(n)のプールは、記憶コントローラ724を介してデータベース記憶デバイス110から、メモリ702からデータを抽出することを含むクエリマネージャアプリケーション750によって処理されるクエリとして要求を送信するか、又は
図2A~
図6で考察されたプロセスの実行をトリガし得る。
【0109】
記憶コントローラ724は、分類器サーバデバイス108の構成要素の全てを相互接続するために、ISA、EISA、VESA、PCI、又は同様のものであり得る通信バス726でもって記憶媒体に接続する。ディスプレイ770、キーボード及び/又はマウス714、並びにディスプレイコントローラ708、記憶コントローラ724、ネットワークコントローラ706、及びI/Oインターフェース712の一般的な特徴及び機能の説明は、これらの特徴が既知のため、簡潔にするために本明細書では省略する。
【0110】
一実施形態では、
図7の分類器サーバデバイス108は、ネットワーク720を介して、ユーザデバイス102(1)~102(n)のプールに/から、デジタル文書104を送信してもよく、又はデジタル文書104を受信してもよい。分類器サーバデバイス108は、文字認識プロセスを開始する要求の一部としてデジタル文書104を受信すると、受信されたデジタル文書104をそのメモリ702に記憶する。例えば、ユーザデバイス102(1)~102(n)のプールは、ネットワーク720を介して、分類器サーバデバイス108からデジタル文書104の修正バージョンを送信してもよく、又はユーザデバイス102(1)~102(n)のプールは、ネットワーク720を介して、分類器サーバデバイス108から修正文書の選択可能なバージョンを受信してもよく、又はユーザデバイス102(1)~102(n)のプールのカメラ809は、物理的文書の画像をキャプチャし、画像を分類器サーバデバイス108に送信してもよい。ユーザデバイス102(1)~102(n)のプールはまた、
図8に更に示されるように、ユーザデバイス102(1)~102(n)のプールのうちの1つ、例として、ユーザデバイス102(1)のハードウェア上で、分類器サーバデバイス108の1つ以上の機能を実施し得る。
【0111】
図8は、ユーザデバイス102(1)~102(n)のプールからの例示的なユーザデバイスを示す詳細なブロック
図800であり、例として、
図8は、本開示の特定の実施形態によるユーザデバイス102(1)を示している。特定の実施形態では、ユーザデバイス102(1)は、スマートフォンであってもよい。しかしながら、当業者は、本明細書に説明される特徴が他のデバイス(例えば、ラップトップ、タブレット、サーバ、電子リーダ、カメラ、ナビゲーションデバイスなど)に実装されるように適合されてもよいことを理解するであろう。例示的なユーザデバイス102(1)は、コントローラ810と、アンテナ801に接続された無線通信処理回路802とを含む。スピーカ804及びマイクロフォン805は、音声処理回路803に接続される。
【0112】
コントローラ810は、1つ以上の中央処理ユニット(CPU)を含んでもよく、ユーザデバイス102(1)内の各要素を制御して、通信制御、オーディオ信号処理、オーディオ信号処理のための制御、静止画及び動画画像処理及び制御、並びに他の種類の信号処理に関連する機能を実施し得る。コントローラ810は、メモリ850に記憶された命令を実行することによってこれらの機能を実施し得る。例えば、
図2A、
図2B、
図3、
図4、及び
図5に示されるプロセスは、メモリ850に記憶され得る。メモリ850のローカル記憶の代替又は追加として、機能は、ネットワーク上でアクセスされる外部デバイスに記憶された命令、又は非一時的コンピュータ可読媒体に記憶された命令を使用して実行されてもよい。
【0113】
ユーザデバイス102(1)は、内部通信バスラインとして、制御ラインCL及びデータラインDLを含む。コントローラ810への/からの制御データは、制御ラインCLを通して送信され得る。データラインDLは、音声データ、ディスプレイデータなどの伝送に使用され得る。
【0114】
アンテナ801は、様々な形態のセルラ電話通信などの無線ベースの通信を実施するために、基地局間で電磁波信号を送受信する。無線通信処理回路802は、アンテナ801を介して、ユーザデバイス102(1)と、分類器サーバデバイス108などの他の外部デバイスとの間で実施される通信を制御する。無線通信処理回路802は、セルラ電話通信のために基地局間の通信を制御し得る。
【0115】
スピーカ804は、音声処理回路803から供給されたオーディオデータに対応するオーディオ信号を発する。マイクロフォン805は、周囲のオーディオを検出し、検出されたオーディオをオーディオ信号に変換する。次いで、音声信号は、更なる処理のために音声処理回路803に出力され得る。音声処理回路803は、メモリ850から読み取られたオーディオデータ、又は無線通信処理回路802及び/若しくは短距離無線通信処理回路807によって受信されたオーディオデータを復調及び/又は復号する。加えて、音声処理回路803は、マイクロフォン805によって取得されたオーディオ信号を復号し得る。
【0116】
例示的なユーザデバイス102(1)はまた、ディスプレイ811、タッチパネル830、操作キー840、及びアンテナ806に接続された短距離通信処理回路807を含み得る。ディスプレイ811は、液晶ディスプレイ(LCD)、有機電気発光ディスプレイパネル、又は別のディスプレイ画面技術であり得る。
【0117】
タッチパネル830は、物理タッチパネルディスプレイ画面及びタッチパネルドライバを含んでもよい。タッチパネル830は、タッチパネルディスプレイ画面の操作面上の入力動作を検出するための1つ以上のタッチセンサを含んでもよい。
【0118】
簡潔のために、本開示は、タッチパネル830が静電容量型タッチパネル技術であると仮定する。しかしながら、本開示の態様は、代替構造を有する他のタッチパネルタイプ(例えば、抵抗型タッチパネル)に容易に適用され得ることを理解されたい。本開示の特定の態様では、タッチパネル830は、透明センサガラスの表面上にX-Y方向に配置された透明電極タッチセンサを含み得る。
【0119】
操作キー840は、ユーザによる検出された入力に基づいて操作信号を生成し得る、1つ以上のボタン又は同様の外部制御要素を含み得る。タッチパネル830からの出力に加えて、これらの操作信号は、関連する処理及び制御を実施するためにコントローラ810に供給されてもよい。本開示の特定の態様では、外部ボタンなどに関連付けられた処理及び/又は機能は、外部ボタン、キーなどではなく、タッチパネル830のディスプレイ画面上の入力操作に応答して、コントローラ810によって実施されてもよい。このようにして、ユーザデバイス800上の外部ボタンは、タッチ操作を介して入力を実施する代わりに排除され得、それによって水密性が改善される。
【0120】
アンテナ806は、他の外部装置に/から電磁波信号を送受信し得、短距離無線通信処理回路807は、他の外部装置間で実施される無線通信を制御し得る。Bluetooth、IEEE802.11、及び近距離無線通信(NFC)は、短距離無線通信処理回路807を介したデバイス間通信のために使用され得る無線通信プロトコルの非限定的な例である。
【0121】
ユーザデバイス102(1)は、ユーザデバイス102(1)の周りの周囲の状況の写真をキャプチャするためのレンズ及びシャッターを含むカメラ809を含んでもよい。一実施形態では、カメラ809は、ユーザデバイス102(1)の反対側の周囲の状況をユーザからキャプチャする。キャプチャされた写真の画像は、ディスプレイパネル811上に表示され得る。メモリ回路は、キャプチャされた写真を保存する。メモリ回路は、カメラ809内に存在してもよく、又はメモリ850の一部であり得る。カメラ809は、ユーザデバイス102(1)に取り付けられた別個の特徴であってもよく、又は組み込みのカメラ特徴であり得る。
【0122】
ユーザデバイス102(1)は、ネットワーク720を介して分類器サーバデバイス108にデータ処理を要求するアプリケーションを含んでもよい。
【0123】
上記の説明では、フローチャート内の任意のプロセス、説明、又はブロックは、プロセス内の特定の論理関数又はステップを実装するための1つ以上の実行可能命令を含むモジュール、セグメント、又はコードの一部を表すものとして理解されるべきであり、代替の実装形態は、当業者によって理解されるように、関数が、関与する機能に応じて、実質的に同時に又は逆の順序を含めて、示される又は考察されるものとは異なる順序で実行されることがある、本発明の例示的な実施形態の範囲内に含まれる。本明細書に記載される様々な要素、特徴、及びプロセスは、互いに独立して使用されてもよく、又は様々な方式で組み合わされてもよい。全ての可能な組み合わせ及びサブ組み合わせは、本開示の範囲内に収まることを意図する。
【0124】
特定の実施形態が記載されているが、これらの実施形態は単なる例として提示されており、本開示の範囲を限定することを意図しない。
【0125】
実際、本明細書に記載された新規の方法、装置及びシステムは、様々な他の形態で具現化され得、更に、本明細書に記載された方法、装置及びシステムの形態における様々な省略、置換、及び変更は、本開示の趣旨から逸脱することなく行われ得る。添付の特許請求の範囲及びそれらの均等物は、本開示の範囲及び趣旨内に収まるであろうそのような形態又は修正を網羅することを意図する。例えば、この技術は、単一の機能がネットワークを介して複数の装置間で共同で共有及び処理されるクラウドコンピューティングのために構成され得る。
【0126】
本明細書で考察される装置、方法、及びコンピュータ可読媒体は、例である。様々な実施形態は、適宜、様々な手順又は構成要素を省略、置換、又は追加してもよい。例えば、特定の実施形態に関して記載された特徴は、様々な他の実施形態において組み合わされてもよい。実施形態の異なる態様及び要素は、同様の様式で組み合わされてもよい。本明細書に提供される図の様々な構成要素は、ハードウェア及び/又はソフトウェアで具現化され得る。また、技術は発展し、したがって、要素の多くは、本開示の範囲をそれらの特定の例に限定しない例である。
【0127】
本明細書で考察される方法、装置、及びデバイスは、例である。様々な実施形態は、適宜、様々な手順又は構成要素を省略、置換、又は追加してもよい。例えば、特定の実施形態に関して記載された特徴は、様々な他の実施形態において組み合わされてもよい。実施形態の異なる態様及び要素は、同様の様式で組み合わされてもよい。本明細書に提供される図の様々な構成要素は、ハードウェア及び/又はソフトウェアで具現化され得る。また、技術は発展し、したがって、要素の多くは、本開示の範囲をそれらの特定の例に限定しない例である。
【0128】
明らかに、上記の教示に照らして、多数の修正及び変形が可能である。したがって、添付の特許請求の範囲内で、本開示は、本明細書に具体的に記載された以外の方法でも実施することができることを理解されたい。
【0129】
本開示の実施形態はまた、以下の挿入部に記載されるようであり得る。
【0130】
(1)デジタル文書内の文字を認識する方法であって、この方法が、処理回路によって、デジタル文書のセグメントをテキストを含むものとして分類することと、処理回路によって、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、処理回路によって、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、処理回路によって、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することとであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、処理回路によって、分類することに基づいて、デジタル文書の修正バージョンを生成することと、を含む、方法。
【0131】
(2)処理回路によって、セグメントが手書きテキストゾーンとして分類されるときに、手書きテキストを認識するためにセグメントに対して手書き文字認識を実施することと、処理回路によって、セグメントが印刷テキストゾーンとして分類されるときに、印刷テキストを認識するためにセグメントに対して印刷文字認識を実施することと、を更に含む、(1)に記載の方法。
【0132】
(3)判定されたゾーンパラメータ値が、処理回路によって、セグメント比にセグメント高さを乗算して計算されたオブジェクト密度値であり、セグメント比が、セグメント幅に対するセグメント内のオブジェクトの数の比である、(1)又は(2)に記載の方法。
【0133】
(4)デジタル文書の修正バージョンを生成することは、処理回路によって、セグメントが手書きテキストゾーンとして分類されるときに、セグメントに手書きテキスト識別子を割り当てることと、処理回路によって、セグメントが印刷テキストゾーンとして分類されるときに、セグメントに印刷テキスト識別子を割り当てることと、を含む、(1)~(3)のいずれか1つに記載の方法。
【0134】
(5)処理回路によって、デジタル文書の修正バージョンとして、デジタル文書の第1の選択可能なバージョンを生成することを更に含み、デジタル文書の第1の選択可能なバージョンが、セグメント内の認識された手書きテキストを含む、(1)~(4)のいずれか1つに記載の方法。
【0135】
(6)処理回路によって、デジタル文書の修正バージョンとして、デジタル文書の第2の選択可能なバージョンを生成することを更に含み、デジタル文書の第2の選択可能なバージョンが、セグメント内の認識された印刷テキストを含む、(1)~(5)のいずれか1つに記載の方法。
【0136】
(7)処理回路によって、ゾーンパラメータ値のタイプに基づいて閾値を含む参照テーブルから閾値を取得することを更に含み、閾値の各々が、データベースからの対応する手書きテキスト分布プロファイル及び対応する印刷テキスト分布プロファイルに基づいており、対応する手書きテキスト分布プロファイルが、手書きテキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいており、対応する印刷テキスト分布プロファイルが、印刷テキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいている、(1)~(6)のいずれか1つに記載の方法。
【0137】
(8)ヒストグラムの各々が、ラベル付けされたテキストゾーン内のオブジェクトのパラメータ値と、オブジェクトの対応するランキングとの比較に基づいており、対応するランキングが、オブジェクトのパラメータ値と、ラベル付けされたテキストゾーン内の各他のオブジェクトのパラメータ値と、に基づいている、(1)~(7)のいずれか1つに記載の方法。
【0138】
(9)手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択が、処理回路によって、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々について曲線の下方の領域を最大化することを含み、閾値が、超えるとセグメントが手書きテキストである可能性が高い値である、(1)~(8)のいずれか1つに記載の方法。
【0139】
(10)分類することが、処理回路によって、判定されたゾーンパラメータ値、及び計算された少なくとも1つのパラメータ値の各々に関連付けられたランキング値に基づいて、ゾーンランキング値を計算することと、処理回路によって、ゾーンランキング値を閾値と比較することであって、ゾーンランキング値が閾値を満たすときに、デジタル文書のセグメントが手書きテキストゾーンとして分類される、比較することと、を含む、(1)~(9)のいずれか1つに記載の方法。
【0140】
(11)命令を記憶する非一時的コンピュータ可読媒体であって、命令が、コンピュータによって実行されるときに、コンピュータに、デジタル文書内の文字を認識する方法を実施させ、この方法が、デジタル文書のセグメントをテキストを含むものとして分類することと、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーンとして又は印刷テキストゾーンとして分類することであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、分類することに基づいて、デジタル文書の修正バージョンを生成することと、を含む、非一時的コンピュータ可読媒体。
【0141】
(12)セグメントが手書きテキストゾーンとして分類されるときに、手書きテキストを認識するためにセグメントに対して手書き文字認識を実施することと、セグメントが印刷テキストゾーンとして分類されるときに、印刷テキストを認識するためにセグメントに対して印刷文字認識を実施することと、を更に含む、(11)に記載の非一時的コンピュータ可読媒体。
【0142】
(13)判定されたゾーンパラメータ値が、セグメント比にセグメント高さを乗算して計算されたオブジェクト密度値であり、セグメント比が、セグメント幅に対するセグメント内のオブジェクトの数の比である、(11)又は(12)に記載の非一時的コンピュータ可読媒体。
【0143】
(14)デジタル文書の修正バージョンを生成することは、セグメントが手書きテキストゾーンとして分類されるときに、セグメントに手書きテキスト識別子を割り当てることと、セグメントが印刷テキストゾーンとして分類されるときに、セグメントに印刷テキスト識別子を割り当てることと、を含む、(11)~(13)のいずれか1つに記載の非一時的コンピュータ可読媒体。
【0144】
(15)デジタル文書の修正バージョンとして、デジタル文書の第1の選択可能なバージョンを生成することを更に含み、デジタル文書の第1の選択可能なバージョンが、セグメント内の認識された手書きテキストと、セグメント内の認識された印刷テキストと、を含む、(11)~(14)のいずれか1つに記載の非一時的コンピュータ可読媒体。
【0145】
(16)ゾーンパラメータ値のタイプに基づいて閾値を含む参照テーブルから閾値を取得することを更に含み、閾値の各々が、データベースからの対応する手書きテキスト分布プロファイル及び対応する印刷テキスト分布プロファイルに基づいており、対応する手書きテキスト分布プロファイルが、手書きテキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいており、対応する印刷テキスト分布プロファイルが、印刷テキストとしてラベル付けされたテキストゾーンに関連付けられたヒストグラムに基づいている、(11)~(15)のいずれか1つに記載の非一時的コンピュータ可読媒体。
【0146】
(17)ヒストグラムの各々が、ラベル付けされたテキストゾーン内のオブジェクトのパラメータ値と、オブジェクトの対応するランキングとの比較に基づいており、対応するランキングが、オブジェクトのパラメータ値と、ラベル付けされたテキストゾーン内の各他のオブジェクトのパラメータ値と、に基づいている、(11)~(16)のいずれか1つに記載の非一時的コンピュータ可読媒体。
【0147】
(18)手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択が、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々について曲線の下方の領域を最大化することを含み、閾値が、超えるとセグメントが手書きテキストである可能性が高い値である、(11)~(17)のいずれか1つに記載の非一時的コンピュータ可読媒体。
【0148】
(19)分類することが、判定されたゾーンパラメータ値、及び計算された少なくとも1つのパラメータ値の各々に関連付けられたランキング値に基づいて、ゾーンランキング値を計算することと、ゾーンランキング値を閾値と比較することであって、ゾーンランキング値が閾値を満たすときに、デジタル文書のセグメントが手書きテキストゾーンとして分類される、比較することと、を含む、(11)~(18)のいずれか1つに記載の非一時的コンピュータ可読媒体。
【0149】
(20)デジタル文書内の文字を認識するための装置であって、この装置が、処理回路を備え、処理回路が、デジタル文書のセグメントをテキストを含むものとして分類することと、デジタル文書の分類されたセグメントに関連付けられた少なくとも1つのパラメータ値を計算することと、計算された少なくとも1つのパラメータ値に基づいて、ゾーンパラメータ値を判定することと、判定されたゾーンパラメータ値及び閾値に基づいて、デジタル文書のセグメントを手書きテキストゾーン又は印刷テキストゾーンとして分類することであって、閾値が、手書きテキスト分布プロファイルと印刷テキスト分布プロファイルとの交差の選択に基づいており、手書きテキスト分布プロファイル及び印刷テキスト分布プロファイルの各々が、判定されたゾーンパラメータ値に対応するゾーンパラメータに関連付けられている、分類することと、セグメント分類に基づいて、デジタル文書の修正バージョンを生成することと、を行うように構成された、装置。
【0150】
したがって、先の考察は、本開示の例示的な実施形態を開示し、説明するに過ぎない。当業者には理解されるように、本開示は、その趣旨から逸脱することなく、他の特定の形態で具現化され得る。したがって、本開示の開示は、開示の範囲並びに他の特許請求の範囲を限定するものではなく、例示的であることを意図する。本明細書の教示の任意の容易に認識可能な変形態様を含め、本開示は、一部では、前述の特許請求の用語の範囲を、発明の主題が公衆に捧げられることがないように定義している。
【国際調査報告】