(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-04
(54)【発明の名称】テキスト検出のための技術
(51)【国際特許分類】
G06T 7/11 20170101AFI20241127BHJP
G06T 7/00 20170101ALI20241127BHJP
G06V 30/14 20220101ALI20241127BHJP
【FI】
G06T7/11
G06T7/00 350B
G06V30/14 340A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024537925
(86)(22)【出願日】2022-12-12
(85)【翻訳文提出日】2024-06-21
(86)【国際出願番号】 EP2022085464
(87)【国際公開番号】W WO2023117557
(87)【国際公開日】2023-06-29
(32)【優先日】2021-12-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】アズライ、オフィール
(72)【発明者】
【氏名】バーズレイ、ウディ
(72)【発明者】
【氏名】ナパステク、オシュリ、ペサー
【テーマコード(参考)】
5B029
5L096
【Fターム(参考)】
5B029CC25
5L096BA17
5L096DA02
5L096EA03
5L096FA16
5L096FA44
5L096GA51
5L096JA25
5L096KA04
(57)【要約】
いくつかの例では、画像内のテキストを検出するためのシステムは、アップスケールされたテキストの画像を使用して訓練されたテキスト検出モデルを記憶するメモリ・デバイスと、画像に対してテキスト検出を実行して、画像内の潜在テキストを識別する原バウンディング・ボックスを生成するように構成されるプロセッサとを含む。プロセッサは、また、閾値サイズ未満のバウンディング・ボックスに関連付けられた画像のアップスケールされた部分を含む二次画像を生成し、二次画像に対してテキスト検出を実行して、二次画像内の潜在テキストを識別する二次バウンディング・ボックスを生成するように構成される。プロセッサはまた、原バウンディング・ボックスを二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別し、原バウンディング・ボックスを含む画像ファイルを生成するように構成され、偽陽性として識別された原バウンディング・ボックスが除去される。
【特許請求の範囲】
【請求項1】
画像内のテキストを検出するためのシステムであって、
アップスケールされたテキストの画像を使用して訓練されたテキスト検出モデルを記憶する、メモリ・デバイスと、
プロセッサであって、
前記テキスト検出モデルを使用して、画像に対してテキスト検出を実行して、前記画像内の潜在テキストを識別する原バウンディング・ボックスを生成し、
閾値サイズ未満のバウンディング・ボックスに関連付けられた前記画像のアップスケールされた部分を含む二次画像を生成し、
前記テキスト検出モデルを使用して、前記二次画像に対してテキスト検出を実行して、前記二次画像内の潜在テキストを識別する二次バウンディング・ボックスを生成し、
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別し、
前記原バウンディング・ボックスを含む画像ファイルを生成し、偽陽性として識別された前記原バウンディング・ボックスは除去される、前記プロセッサと
を備えるシステム。
【請求項2】
前記プロセッサは、前記画像ファイルをテキスト認識アルゴリズムで処理して、機械符号化テキストを含むテキスト文書を生成する、請求項1に記載のシステム。
【請求項3】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、
二次バウンディング・ボックスが、前記原バウンディング・ボックスのうちの特定の1つに関連付けられた前記画像の一部に対して生成されているかどうかを判定することと、
二次バウンディング・ボックスが生成されていない場合に、前記原バウンディング・ボックスのうちの前記特定の1つを偽陽性として識別することと
を含む、請求項1に記載のシステム。
【請求項4】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、前記二次バウンディング・ボックスのそれぞれに対して、
前記二次バウンディング・ボックスを対応する原バウンディング・ボックスと比較して、類似度を決定することと、
前記類似度を類似度閾値と比較することと、
前記類似度が前記類似度閾値未満である場合に、前記対応する原バウンディング・ボックスを偽陽性として識別することと
を含む、請求項1に記載のシステム。
【請求項5】
類似度を決定することは、前記二次バウンディング・ボックスおよび対応する原バウンディング・ボックスについてのジャッカード係数を計算することを含む、請求項4に記載のシステム。
【請求項6】
前記類似度閾値は、0.8~0.9のジャッカード係数である、請求項4に記載のシステム。
【請求項7】
前記閾値サイズは、10ピクセル未満の閾値高さであり、前記画像の前記アップスケールされた部分が、2より大きな倍数でアップスケールされる、請求項1に記載のシステム。
【請求項8】
前記メモリ・デバイスは、前記アップスケールされたテキストの前記画像を記憶し、前記プロセッサは、前記アップスケールされたテキストの前記画像を使用して前記テキスト検出モデルを訓練する、請求項1に記載のシステム。
【請求項9】
前記テキスト検出モデルを訓練するために使用される前記アップスケールされたテキストの前記画像は、3以上の倍数でアップスケールされた10ピクセル未満の元の高さを有するテキスト画像を含む、請求項8に記載のシステム。
【請求項10】
前記画像は、
スキャンされた文書、
およびカメラでキャプチャされた画像
のうちの1つである、請求項1に記載のシステム。
【請求項11】
画像内のテキストを検出する方法であって、
画像に対してテキスト検出を実行して、前記画像内の潜在テキストを識別する原バウンディング・ボックスを生成することと、
閾値サイズ未満のバウンディング・ボックスに関連付けられた前記画像のアップスケールされた部分を含む二次画像を生成することと、
前記二次画像に対してテキスト検出を実行して、前記二次画像内の潜在的テキストを識別する二次バウンディング・ボックスを生成することと、
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することと、
前記原バウンディング・ボックスを含む画像ファイルを生成することであって、偽陽性として識別された前記原バウンディング・ボックスは除去される、前記生成することと、
前記画像ファイルをテキスト認識アルゴリズムで処理して、機械符号化テキストを含むテキスト文書を生成することと
を含む方法。
【請求項12】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、
二次バウンディング・ボックスが、前記原バウンディング・ボックスのうちの特定の1つに関連付けられた前記画像の一部に対して生成されているかどうかを判定することと、
二次バウンディング・ボックスが生成されていない場合に、前記原バウンディング・ボックスのうちの前記特定の1つを偽陽性として識別することと
を含む、請求項11に記載の方法。
【請求項13】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、前記二次バウンディング・ボックスのそれぞれに対して、
前記二次バウンディング・ボックスを対応する原バウンディング・ボックスと比較して、類似度を決定することと、
前記類似度を類似度閾値と比較することと、
前記類似度が前記類似度閾値未満である場合に、前記対応する原バウンディング・ボックスを偽陽性として識別することと
を含む、請求項11に記載の方法。
【請求項14】
類似度を決定することは、前記二次バウンディング・ボックスおよび対応する原バウンディング・ボックスについてのジャッカード係数を計算することを含む、請求項13に記載の方法。
【請求項15】
前記閾値サイズは、10ピクセル未満の閾値高さであり、前記画像の前記アップスケールされた部分は、2より大きな倍数でアップスケールされる、請求項11に記載の方法。
【請求項16】
具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含む、画像内のテキストを検出するためのコンピュータ・プログラム製品であって、前記コンピュータ可読記憶媒体は、一過性信号自体ではなく、前記プログラム命令は、
画像に対してテキスト検出を実行して、前記画像内の潜在テキストを識別する原バウンディング・ボックスを生成することと、
閾値サイズ未満のバウンディング・ボックスに関連付けられた前記画像のアップスケールされた部分を含む二次画像を生成することと、
前記二次画像に対してテキスト検出を実行して、前記二次画像内の潜在的テキストを識別する二次バウンディング・ボックスを生成することと、
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することと、
前記原バウンディング・ボックスを含む画像ファイルを生成することであって、偽陽性として識別された前記原バウンディング・ボックスは除去される、前記生成することと
をプロセッサに行わせるように、前記プロセッサによって実行可能である、コンピュータ・プログラム製品。
【請求項17】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、
二次バウンディング・ボックスが、前記原バウンディング・ボックスのうちの特定の1つに関連付けられた前記画像の一部に対して生成されているかどうかを判定することと、
二次バウンディング・ボックスが生成されていない場合に、前記原バウンディング・ボックスのうちの前記特定の1つを偽陽性として識別することと
を含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項18】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、前記二次バウンディング・ボックスのそれぞれに対して、
前記二次バウンディング・ボックスを対応する原バウンディング・ボックスと比較して、類似度を決定することと、
前記類似度を類似度閾値と比較することと、
前記類似度が前記類似度閾値未満である場合に、前記対応する原バウンディング・ボックスを偽陽性として識別することと
を含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項19】
類似度を決定することが、前記二次バウンディング・ボックスおよび対応する原バウンディング・ボックスについてのジャッカード係数を計算することを含む、請求項16に記載のコンピュータ・プログラム製品。
【請求項20】
前記閾値サイズが、10ピクセル未満の閾値高さであり、前記画像の前記アップスケールされた部分が、2より大きな倍数でアップスケールされる、請求項16に記載のコンピュータ・プログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像内のテキストを検出するための技術に関する。
【背景技術】
【0002】
光学式文字認識は、タイプされた、または手書きのテキストの画像を機械符号化テキストに変換するための電子プロセスである。光学式文字認識には、データ入力、情報抽出、文書のスキャン画像を検索可能にすること、およびその他多くを含む、多数の用途がある。
【発明の概要】
【0003】
本明細書に記載される実施形態によれば、画像内のテキストを検出するためのシステムは、アップスケールされたテキストの画像を使用して訓練されたテキスト検出モデルを記憶するメモリ・デバイスと、テキスト検出モデルを使用して画像に対してテキスト検出を実行して、画像内の潜在テキストを識別する原バウンディング・ボックスを生成するプロセッサとを含み得る。プロセッサは、また、閾値サイズ未満のバウンディング・ボックスに関連付けられた画像のアップスケールされた部分を含む二次画像を生成し、テキスト検出モデルを使用して二次画像に対してテキスト検出を実行して、二次画像内の潜在テキストを識別する二次バウンディング・ボックスを生成するように構成される。プロセッサは、また、原バウンディング・ボックスを二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別し、原バウンディング・ボックスを含む画像ファイルを生成するように構成され、偽陽性として識別された原バウンディング・ボックスが除去される。
【0004】
いくつかの実施形態では、画像内のテキストを検出する方法は、画像に対してテキスト検出を実行して、画像内の潜在テキストを識別する原バウンディング・ボックスを生成することを含み得る。方法は、また、閾値サイズ未満のバウンディング・ボックスに関連付けられた画像のアップスケールされた部分を含む二次画像を生成することと、二次画像に対してテキスト検出を実行して、二次画像内の潜在テキストを識別する二次バウンディング・ボックスを生成することとを含む。方法は、また、原バウンディング・ボックスを二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することと、原バウンディング・ボックスを含む画像ファイルを生成することであって、偽陽性として識別された原バウンディング・ボックスが除去される、生成することとを含む。方法は、また、画像ファイルをテキスト認識アルゴリズムで処理して、機械符号化テキストを含むテキスト文書を生成することを含み得る。
【0005】
さらに別の実施形態では、画像内のテキストを検出するためのコンピュータ・プログラム製品は、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含むことができ、コンピュータ可読記憶媒体は、一過性信号自体ではない。プログラム命令は、プロセッサが画像に対してテキスト検出を実行して、画像内の潜在テキストを識別する原バウンディング・ボックスを生成するように、プロセッサによって実行可能である。また、プログラム命令により、プロセッサは、閾値サイズ未満のバウンディング・ボックスに関連付けられた画像のアップスケールされた部分を含む二次画像を生成して、二次画像に対してテキスト検出を実行し、二次画像内の潜在テキストを識別する二次バウンディング・ボックスを生成する。また、プログラム命令により、プロセッサは、原バウンディング・ボックスを二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別し、原バウンディング・ボックスを含む画像ファイルを生成し、偽陽性として識別された原バウンディング・ボックスは除去される。
【0006】
ここで、本発明の実施形態について、単なる例として、添付図面を参照しながら説明する。
【図面の簡単な説明】
【0007】
【
図1】本明細書に記載される実施形態による、画像内のテキストを認識するように構成されたコンピューティング・デバイスの例を示す図である。
【
図2A】本明細書に記載される実施形態による、画像内のテキストを検出するための技術の例示を示す図である。
【
図2B】本明細書に記載される実施形態による、画像内のテキストを検出するための技術の例示を示す図である。
【
図2C】本明細書に記載される実施形態による、画像内のテキストを検出するための技術の例示を示す図である。
【
図2D】本明細書に記載される実施形態による、画像内のテキストを検出するための技術の例示を示す図である。
【
図3】本明細書に記載される実施形態による、画像内のテキストを検出する方法の例のプロセス・フロー図である。
【発明を実施するための形態】
【0008】
本開示では、文書中のテキスト画像を自動的に識別するための技術について説明する。多くの光学式文字認識アルゴリズムでは、テキスト画像を符号化された文字に変換するための最初のステップが、テキストの存在を検出することを伴う。回帰ベース・テキスト検出、セグメンテーション・ベース・テキスト検出など、テキストを検出するためのさまざまな技術が存在する。しかしながら、このような方法では、小さなフォントのテキストを検出することが困難である場合がある。例えば、9ピクセル未満のサイズのテキストは、見逃される傾向にあることがある。
【0009】
本技術の実施形態は、小さなテキストを識別するためのテキスト検出技術を提供する。実施形態によれば、テキスト検出モデルは、アップサンプリングされた小さなテキストに対して訓練される。訓練済みのテキスト検出モデルを使用してターゲット文書がその後処理され、その結果、検出されたテキストを囲むバウンディング・ボックスのリストが得られる。最初のパスの後、小さなバウンディング・ボックスはテキストを含むことがあり、または偽陽性検出の結果であることもある。偽陽性を除外するために、閾値サイズ未満のバウンディング・ボックスに対応する画像が、アップスケールされ、新たな画像にコピーされる。新たな画像は、新たな画像内の各バウンディング・ボックスが、実際にテキストを含むかどうか、またはいくつかのバウンディング・ボックスが偽陽性を表すかどうかを確認するために、訓練済みテキスト検出モデルを使用して処理される。
【0010】
ここで
図1を参照すると、画像内のテキストを認識するように構成されたコンピューティング・デバイスの例が示されている。コンピューティング・デバイス100は、例えば、サーバ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータ、またはスマートフォンであってもよい。いくつかの例では、コンピューティング・デバイス100は、クラウド・コンピューティング・ノードであってもよい。コンピューティング・デバイス100は、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含み得る。コンピューティング・デバイス100は、通信ネットワークを通してリンクされたリモート処理デバイスによってタスクが実行される、分散クラウド・コンピューティング環境において実施され得る。分散クラウド・コンピューティング・プログラム環境では、プログラム・モジュールは、メモリ記憶デバイスを含む、ローカルおよびリモート両方のコンピュータ・システム記憶媒体に位置し得る。
【0011】
コンピューティング・デバイス100は、記憶された命令を実行するように適合されたプロセッサ102と、動作中に前記命令の動作のために一時メモリ空間を提供するメモリ・デバイス104とを含み得る。プロセッサは、シングルコア・プロセッサ、マルチコア・プロセッサ、コンピューティング・クラスタ、または任意の数の他の構成であってもよい。メモリ104は、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ、フラッシュ・メモリ、または任意の他の適当なメモリ・システムを含み得る。
【0012】
プロセッサ102は、コンピューティング・デバイス100を1つまたは複数のI/Oデバイス110に接続するように適合された入力/出力(I/O)デバイス・インターフェース108に、システム相互接続106(例えば、PCI(登録商標)、PCI-Express(登録商標)など)を通して接続され得る。I/Oデバイス110は、例えば、キーボードおよびポインティング・デバイスを含んでもよく、ポインティング・デバイスは、具体的にはタッチパッドまたはタッチスクリーンを含んでもよい。I/Oデバイス110は、コンピューティング・デバイス100のビルトイン・コンポーネントであってもよいし、またはコンピューティング・デバイス100に外部接続されたデバイスであってもよい。
【0013】
プロセッサ102はまた、コンピュータ・デバイス100をディスプレイ・デバイス114に接続するように適合されたディスプレイ・インターフェース112に、システム相互接続106を通してリンクされ得る。ディスプレイ・デバイス114は、コンピューティング・デバイス100のビルトイン・コンポーネントであるディスプレイ・スクリーンを含み得る。ディスプレイ・デバイス114はまた、コンピューティング・デバイス100に外部接続された、具体的にはコンピュータ・モニタ、テレビ、またはプロジェクタを含み得る。加えて、ネットワーク・インターフェース・コントローラ(NIC)116は、コンピューティング・デバイス100を、システム相互接続106を通してネットワーク118に接続するように適合され得る。いくつかの実施形態では、NIC116は、具体的にはインターネット・スモール・コンピュータ・システム・インタフェースなどの任意の適当なインターフェースまたはプロトコルを使用してデータを送信し得る。ネットワーク118は、具体的には、セルラ・ネットワーク、無線ネットワーク、ワイド・エリア・ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、またはインターネットであってもよい。リモート・デバイス120は、ネットワーク118を通してコンピューティング・デバイス100に接続し得る。
【0014】
いくつかの例では、プロセッサ102は、システム相互接続106を通して、開示された技術の実装のためのファイル、データ、およびプログラミング・コードを記憶するストレージ・デバイス122にリンクされ得る。ストレージ・デバイスは、訓練画像124、テキスト検出モデル生成器126、テキスト検出モデル128、テキスト検出アルゴリズム130、画像132、テキスト認識アルゴリズム134、およびテキスト文書136を含み得る。
【0015】
訓練画像124は、テキスト検出モデル128を生成するために使用される文字画像の記憶されたセットである。文字画像は、典型的な画像において予想され得るテキスト・サイズの範囲をカバーするために、広い範囲のサイズをカバーし得る。いくつかの実施形態では、文字画像の高さは、例えば、9ピクセルから25ピクセルほどの小ささであってもよい。加えて、いくつかの文字画像は、アップスケールされた小さなテキストであってもよい。例えば、文字画像は、2倍、3倍、4倍、またはそれ以上の倍数で元のサイズからアップスケールされてもよい。このように、約10×10ピクセルの元の文字画像が、20×20ピクセル、30×30ピクセル、40×40ピクセル、またはそれ以上にサイズを増加され得る。アップスケールすることによって、文字サイズが増加するが、画像ノイズも生じる。このようにして、結果として得られるテキスト検出モデルは、同レベルの画像ノイズを有する小さなテキストをより良好に検出することが可能であり得る。
【0016】
テキスト検出モデル生成器126は、訓練画像124を処理してテキスト検出モデル128を生成する機械学習アルゴリズムである。訓練画像124を使用して訓練されたテキスト検出モデル128は、その後、画像132を処理するためにテキスト検出アルゴリズム130によって使用され得る。画像は、スキャンされた文書、カメラでキャプチャされた画像、またはスクリーン・キャプチャなど、任意の適当な種類のデジタル画像であってもよい。
【0017】
テキスト検出アルゴリズム1130は、2段階で動作する。第1段階の間に、アルゴリズムは、画素ごとにその画素がテキスト文字の中にあるかどうかの確率を記述した確率マップまたはマトリクスを作り出す。確率マトリクスは、文字ボックスを識別し、接続コンポーネント、すなわち、単語を形成しているとみなされるほど互いに近接している文字を識別するために使用され得る。テキスト検出アルゴリズムの第1段階の最終結果は、可能性のある単語または文字として識別されている画像の部分を囲むバウンディング・ボックスの配列である。
【0018】
テキスト検出アルゴリズム130の第2段階は、偽陽性を除外するためのものである。テキスト検出モデル128は、小さなテキストに対して訓練されるため、スキャンされた画像上のストレイ・マークまたは小さな形状などの小さな画像アーティファクトが偽陽性を引き起こし得る可能性がある。第2段階の間に、第1段階で生成されたバウンディング・ボックスが分析されて、閾値サイズ未満のバウンディング・ボックスが識別される。閾値は、例えば、10ピクセル未満の高さサイズを有するバウンディング・ボックスであってもよい。それらの閾値未満のバウンディング・ボックスに対して、対応するテキストが、より大きなサイズにアップサンプリングされ、本明細書では二次画像と呼ばれ得る新たな画像にコピーされる。アップスケールの度合いにより、例えば、2倍から4倍以上の拡大率になり得る。また、アップスケールすることによって、アップスケールされた画像に追加のピクセル・データが追加される。最近傍補間法、バイリニア・アルゴリズム、バイキュービック・アルゴリズムなどの、任意の適当なアップスケール・プロセスが使用されてもよい。
【0019】
アップサンプリングされた画像を含む新たな二次画像は、段階1で使用されたのと同じテキスト検出モデル128を使用して再処理され、それによって、バウンディング・ボックスの第2の配列が作り出される。第1段階についてのバウンディング・ボックスは、偽陽性を識別するために、第2段階についてのバウンディング・ボックスと比較され得る。バウンディング・ボックスの比較は、同一画像部分に関連する2つのバウンディング・ボックス間の類似度を決定することと、類似度を類似度閾値と比較することとを含み得る。類似度は、例えば、対応するバウンディング・ボックスのサイズを比較すること、またはバウンディング・ボックス間の重複度を比較することによって判定され得る。対応するバウンディング・ボックスが、同一サイズであるか、または同一サイズの指定された閾値範囲内である場合に、テキストの存在が確認される。第2段階の間に生成されたバウンディング・ボックスが、第1段階についてのバウンディング・ボックスよりも著しく小さい場合、アルゴリズムは、第1段階についてのバウンディング・ボックスを偽陽性として識別する。
【0020】
類似度は、また、二次バウンディング・ボックスおよびその対応する原バウンディング・ボックスについてのジャッカード係数を計算することによって判定されてもよく、ジャッカード係数は、バウンディング・ボックス間の重複度を示す。このような場合、類似度閾値は、例えば、0.8~0.9のジャッカード係数であってもよい。加えて、第1段階の間に識別されたバウンディング・ボックスが以前あった場所でバウンディング・ボックスが検出されない場合、第1段階からのバウンディング・ボックスは、偽陽性と識別される。
【0021】
たいていの場合、偽陽性識別に対して生成される新たな画像は、例えば、50ピクセルの高さおよび400ピクセルの幅程度に比較的小さくなる。したがって、第2段階に使用される追加の処理オーバヘッドは、小さいと予想される。たいていの場合、第2段階で、全体のテキスト検出処理時間が5パーセント増加し得る。
【0022】
偽陽性が識別されると、偽陽性と識別された、第1段階において識別されたバウンディング・ボックスは除外され得る。この段階で、テキスト検出プロセスが完了し、テキストを含むと識別された画像の領域を識別する対応するバウンディング・ボックスを有する、電子画像が得られる。結果として得られる電子画像は、次いで、テキスト認識アルゴリズム134によって処理されて、テキスト画像が、デジタル符号化されたテキストを含むテキスト文書136に変換され得る。テキスト認識アルゴリズム134は、任意の適当な光学式文字認識(OCR)技術であってもよい。
【0023】
図1のブロック図は、コンピューティング・デバイス100が
図1に示されたコンポーネントのすべてを含むべきであると示すことを意図するものではないことを理解されたい。むしろ、コンピューティング・デバイス100は、コンポーネントをさらに少なく含んでもよいし、または
図1に図示されていない追加のコンポーネント(例えば、追加のメモリ・コンポーネント、組み込みコントローラ、モジュール、追加のネットワーク・インターフェースなど)を含んでもよい。さらに、テキスト検出モデル生成器126、テキスト検出アルゴリズム130、およびテキスト認識アルゴリズム134の機能性のいずれかは、ハードウェアもしくはプロセッサ102またはその両方において、部分的に、または全体的に実装される。例えば、機能性は、具体的には、特定用途向け集積回路、組み込みコントローラにおいて実装されたロジック、またはプロセッサ102において実装されたロジックで実装されてもよい。本明細書で言及されるロジックという用語は、任意の適当なハードウェア(例えば、具体的にプロセッサ)、ソフトウェア(例えば、具体的にアプリケーション)、ファームウェア、またはハードウェア、ソフトウェア、およびファームウェアの任意の適当な組合せを含み得る。
【0024】
図2A、
図2B、および
図2Cは、画像内のテキストを検出するための技術の例示である。
図2Aは、テキストを含む画像200の例を示している。画像200は、任意の適当なファイル・タイプであってよく、スキャンされた文書、カメラでキャプチャされた画像、スクリーン・キャプチャなどを含む任意の種類の画像であってもよい。例示的な画像200は、さまざまなフォント・スタイルおよびサイズのテキストを含んでもよく、また、ストレイ・マーク、非テキストの幾何学形状または画像などの非テキスト・アーティファクトを含んでもよい。
図2Aに示される例では、画像は、大きなフォントのテキスト202、小さなフォントのテキスト204、および、ストレイ・マーキング206を含み、ストレイ・マーキング206は、画像200を作り出すためにスキャンされる前に偶然に紙文書上に付けられたマークであってもよい。
【0025】
図2Bは、テキスト検出プロセスの第1段階を通過した後のバウンディング・ボックスを有する画像を示している。この段階で、大きなフォントのテキストおよび小さなフォントのテキストの両方において個々の単語および文字のそれぞれに対して、バウンディング・ボックスが生成されている。加えて、ストレイ・マークに対してもバウンディング・ボックスが生成されている。
【0026】
図2Cは、テキスト検出プロセスの第2段階の間に生成された小さな二次画像208を示している。二次画像208は、閾値サイズ未満のバウンディング・ボックスに関連付けられた原画像200の部分210~228を含む。加えて、小さな画像208に取り込まれた識別された各部分が、指定されたスケール倍数によって拡大、即ちアップスケールされて、より大きな画像が作り出される。様々な部分が、同一の小さな画像に含まれてもよい。しかしながら、いくつかの実装態様では、それぞれがある数の画像部分を有する複数の小さな画像が生成されてもよいし、または各画像部分が、別個の画像として記憶されてもよい。小さな画像208内の各画像部分の位置は、それが原画像200内の適切なバウンディング・ボックスと相互に関連付けられ得るように追跡される。例えば、小さな画像208は、各部分を原画像内のその位置と相互に関連付けるメタデータを含んでもよいし、またはメタデータに関連付けられてもよい。
【0027】
図2Cに示されるように、外側のバウンディング・ボックスは、テキスト検出プロセスの第1段階の間に識別された原バウンディング・ボックスを表し、本明細書では、原バウンディング・ボックスと呼ばれ得る。テキスト検出プロセスの第2段階の間、小さな画像208は、第1段階の間に使用されたのと同一のテキスト検出アルゴリズムおよびモデルを使用して処理され、本明細書では二次バウンディング・ボックスとも呼ばれる、バウンディング・ボックスの新たなセットが得られる。第2段階の間に識別された新たな二次バウンディング・ボックスは、内側のバウンディング・ボックスとして
図2Cに示されている。
【0028】
図2Cに示されるように、原画像から取り込まれた部分のいくつかは、第2段階の間にテキスト検出アルゴリズムによってテキストとして識別されず、その場合、二次バウンディング・ボックスは存在しない。例えば、部分210および226は、二次バウンディング・ボックスを示していない。このような場合、この画像部分に対するバウンディング・ボックスは、偽陽性と識別される。画像部分内でテキストが検出された場合、原バウンディング・ボックスおよび二次バウンディング・ボックスは、比較されて類似度が判定され得る。類似度は、類似度閾値と比較されてもよく、類似度が、類似度閾値未満である場合、対応する原バウンディング・ボックスは、偽陽性として識別される。
【0029】
比較には、バウンディング・ボックスの相対サイズまたはバウンディング・ボックス間の重複度の比較を伴い得る。類似度閾値に従って、原バウンディング・ボックスと二次バウンディング・ボックスとが同一であるか、または同一に近い場合、その画像部分は、真陽性として識別される。いくつかの実施形態では、重複度は、ジャッカード類似度係数としても知られる、ジャッカード係数を使用して比較されてもよく、それは、交差部分(intersection)のサイズを結合部分(union)のサイズで割ったものとして定義される。例えば、閾値は、0.8または0.9のジャッカード係数であってもよい。原バウンディング・ボックスと二次バウンディング・ボックスとが同一に近いかどうかを判定するための他の技術も使用されてもよい。例えば、類似度閾値は、二次バウンディング・ボックスの閾値領域を、原バウンディング・ボックスの領域のパーセンテージとして指定してもよい。類似度閾値未満のそれらの画像部分は、偽陽性として識別される。
【0030】
図2Cの結果の例では、4つの偽陽性および6つの真陽性が識別されている。画像部分210および226は、二次バウンディング・ボックスがないことによって示されるように、テキスト検出アルゴリズムが第2段階においてテキストを識別しなかったため、偽陽性と識別される。画像部分212および228は、原バウンディング・ボックスに対する二次バウンディング・ボックスの比較が、類似度閾値未満である結果をもたらすため、偽陽性と識別される。残りの画像部分212~224は、二次バウンディング・ボックスが原バウンディング・ボックスのサイズに近く、高い重複度をもたらし、それによって、比較結果が類似度閾値を上回るため、真陽性として識別される。
【0031】
偽陽性の識別は、原画像内のバウンディング・ボックスを変更するために使用され、
図2Dに示される画像を生成する。
図2Dに見られるように、画像部分210、212、226、および228に関連付けられた画像アーティファクトに対するバウンディング・ボックスは、削除されている。
図2Dに示される画像は、その後、テキスト認識アルゴリズムを使用して処理されて、文字符号化テキスト文書が生成され得る。
【0032】
図3は、画像内のテキストを検出する方法の例のプロセス・フロー図である。方法200は、
図1のコンピューティング・デバイス100などの、任意の適当なコンピューティング・デバイスで実装され得る。方法は、ブロック302において開始し得る。
【0033】
ブロック302において、テキスト検出モデルが、アップサンプリングされた小さなテキストを使用して訓練される。アップサンプリングされた小さなテキストは、人間のオペレータによって提供されるラベル付き訓練画像から生成され得る。小さなテキストをアップスケールするために、任意の適当なアップスケール・アルゴリズムが使用され得る。
【0034】
ブロック304において、画像文書は、ブロック302で生成されたテキスト検出モデルを使用してテキストを検出するために処理される。ブロック304において実行されるプロセスは、テキストとして識別された画像の部分を囲む複数のバウンディング・ボックスを生成し得る。ブロック304において処理された画像は、306で生成された二次画像と区別するために、原画像と呼ばれ得る。
【0035】
ブロック306において、原画像の一部をアップスケールすること、およびアップスケールした部分を二次画像にコピーすることにより、二次画像が生成される。アップスケールされて二次画像にコピーされる原画像の部分は、指定されたサイズ閾値未満である、バウンディング・ボックスに関連付けられた部分である。
【0036】
ブロック308において、二次画像は、ブロック302で生成されたテキスト検出モデルを使用してテキストを検出するために処理される。ブロック308において実行された処理により、テキストとして識別された画像の部分を囲む複数の二次バウンディング・ボックスが得られ得る。
【0037】
ブロック310において、ブロック304で生成されたバウンディング・ボックスが、ブロック308で生成されたバウンディング・ボックスと比較されて、偽陽性が識別される。いくつかの実施形態では、画像部分に対する二次バウンディング・ボックスの存在が、その部分がテキストを含む(真陽性)ことを示すために使用され得る。いくつかの実施形態では、ある部分に対して二次バウンディング・ボックスが存在する場合、二次バウンディング・ボックスは、類似度を決定するために、原バウンディングと比較される。類似度が類似度閾値を上回る場合、画像部分は、テキストを含む(真陽性)ものとして識別され得る。そうではなく、類似度が類似度閾値未満である場合、画像部分は、テキストを含まない(偽陽性)として識別され得る。
【0038】
ブロック312において、偽陽性と識別された原バウンディング・ボックスは、画像ファイルから除去される。
【0039】
ブロック314において、画像ファイルは、テキスト認識アルゴリズムによって処理されて、テキスト画像が文字符号化テキストに変換される。テキスト認識アルゴリズムは、任意の適当なテキスト認識アルゴリズムであってもよい。文字符号化テキストは、RAMなどの短期メモリ・デバイス、またはハード・ドライブもしくはソリッド・ステート・ドライブなどの長期ストレージ・デバイスに、ファイルとして記憶されてもよい。加えて、文字符号化テキストは、ネットワークを経てリモート・デバイスに転送されてもよいし、自然言語処理などの追加処理のために処理デバイスに送信されてもよいし、またはプリンタもしくはディスプレイ・スクリーンなどの出力デバイスへの送信のために処理されてもよい。
【0040】
図3のプロセス・フロー図は、方法300の動作がある順序で実行されるべきであること、または方法300の動作のすべてがあらゆる場合に含まれるべきであることを示すことを意図するものではない。加えて、方法300は、図示または説明されていない追加の動作を含んでもよい。
【0041】
本発明は、システム、方法、もしくはコンピュータ・プログラム製品、またはそれらの組合せでもよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有する、コンピュータ可読ストレージ媒体(または複数の媒体)を含んでもよい。
【0042】
コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、またはこれらの任意の適切な組合せとすることができるが、これらに限定されるものではない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリスティック(登録商標)、フロッピー(登録商標)・ディスク、命令が記録されたパンチカードまたは溝に刻まれた隆起構造などの機械的に符号化されたデバイス、および上記の任意の好適な組合せが挙げられる。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を介して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を介して伝送される電気的信号など、一過性の信号そのものであると解釈されるものではない。
【0043】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワークまたはそれらの組合せなどを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、またはそれらの組合せを含んでもよい。それぞれのコンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、個別のコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0044】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令集合アーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの従来の手続き型プログラミング言語もしくは類似のプログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードのいずれかでもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上で一部はリモート・コンピュータ上で、またはすべてリモート・コンピュータ上もしくはサーバ上で、実行することができる。後者のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続することができるか、または接続が(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部のコンピュータに対してなされてもよい。いくつかの実施形態において、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して電子回路を個別設定することができる。
【0045】
本発明の態様は、本明細書では、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照して説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。
【0046】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/作用を実装するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックで指定された機能/作用の態様を実装する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、もしくは他のデバイスまたはそれらの組合せに対して特定の方式で機能するように指示できるものであってもよい。
【0047】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートもしくはブロック図またはその両方の1つまたは複数のブロックに指定される機能/動作を実装するように、コンピュータ実装処理を作るために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
【0048】
図面中のフローチャートおよびブロック図は、本発明のさまざまな実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための1つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現し得る。いくつかの代替の実装形態では、ブロックに記載の機能は、図に記載の順序から外れて生じることもある。例えば、連続して示されている2つのブロックは、実際には実質的に同時に実行されることもあり、または、これらのブロックは関連する機能に応じて、時に逆順に実行されることもある。ブロック図もしくはフローチャート図またはその両方のそれぞれのブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または専用ハードウェアとコンピュータ命令との組合せを実行する、専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
【0049】
本発明のさまざまな実施形態の説明は、例示の目的で提示されているが、網羅的であることは意図されておらず、開示された実施形態に制限されない。説明した実施形態の範囲および思想から逸脱することなく、当業者には多くの変更および変形が明らかであろう。本明細書において使用される用語は、実施形態の原理、実際的な適用または市場で見出される技術にまさる技術的改善を最良に説明し、または本明細書において開示される実施形態を他の当業者が理解することを可能にするように選択された。
【手続補正書】
【提出日】2024-07-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像内のテキストを検出するためのシステムであって、
アップスケールされたテキストの画像を使用して訓練されたテキスト検出モデルを記憶する、メモリ・デバイスと、
プロセッサであって、
前記テキスト検出モデルを使用して、画像に対してテキスト検出を実行して、前記画像内の潜在テキストを識別する原バウンディング・ボックスを生成し、
閾値サイズ未満のバウンディング・ボックスに関連付けられた前記画像のアップスケールされた部分を含む二次画像を生成し、
前記テキスト検出モデルを使用して、前記二次画像に対してテキスト検出を実行して、前記二次画像内の潜在テキストを識別する二次バウンディング・ボックスを生成し、
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別し、
前記原バウンディング・ボックスを含む画像ファイルを生成し、偽陽性として識別された前記原バウンディング・ボックスは除去される、前記プロセッサと
を備えるシステム。
【請求項2】
前記プロセッサは、前記画像ファイルをテキスト認識アルゴリズムで処理して、機械符号化テキストを含むテキスト文書を生成する、請求項1に記載のシステム。
【請求項3】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、
二次バウンディング・ボックスが、前記原バウンディング・ボックスのうちの特定の1つに関連付けられた前記画像の一部に対して生成されているかどうかを判定することと、
二次バウンディング・ボックスが生成されていない場合に、前記原バウンディング・ボックスのうちの前記特定の1つを偽陽性として識別することと
を含む、請求項1に記載のシステム。
【請求項4】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、前記二次バウンディング・ボックスのそれぞれに対して、
前記二次バウンディング・ボックスを対応する原バウンディング・ボックスと比較して、類似度を決定することと、
前記類似度を類似度閾値と比較することと、
前記類似度が前記類似度閾値未満である場合に、前記対応する原バウンディング・ボックスを偽陽性として識別することと
を含む、請求項1に記載のシステム。
【請求項5】
類似度を決定することは、前記二次バウンディング・ボックスおよび対応する原バウンディング・ボックスについてのジャッカード係数を計算することを含む、請求項4に記載のシステム。
【請求項6】
前記類似度閾値は、0.8~0.9のジャッカード係数である、請求項4に記載のシステム。
【請求項7】
前記閾値サイズは、10ピクセル未満の閾値高さであり、前記画像の前記アップスケールされた部分が、2より大きな倍数でアップスケールされる、請求項1に記載のシステム。
【請求項8】
前記メモリ・デバイスは、前記アップスケールされたテキストの前記画像を記憶し、前記プロセッサは、前記アップスケールされたテキストの前記画像を使用して前記テキスト検出モデルを訓練する、請求項1に記載のシステム。
【請求項9】
前記テキスト検出モデルを訓練するために使用される前記アップスケールされたテキストの前記画像は、3以上の倍数でアップスケールされた10ピクセル未満の元の高さを有するテキスト画像を含む、請求項8に記載のシステム。
【請求項10】
前記画像は、
スキャンされた文書、
およびカメラでキャプチャされた画像
のうちの1つである、請求項1に記載のシステム。
【請求項11】
画像内のテキストを検出する方法であって、
画像に対してテキスト検出を実行して、前記画像内の潜在テキストを識別する原バウンディング・ボックスを生成することと、
閾値サイズ未満のバウンディング・ボックスに関連付けられた前記画像のアップスケールされた部分を含む二次画像を生成することと、
前記二次画像に対してテキスト検出を実行して、前記二次画像内の潜在的テキストを識別する二次バウンディング・ボックスを生成することと、
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することと、
前記原バウンディング・ボックスを含む画像ファイルを生成することであって、偽陽性として識別された前記原バウンディング・ボックスは除去される、前記生成することと、
前記画像ファイルをテキスト認識アルゴリズムで処理して、機械符号化テキストを含むテキスト文書を生成することと
を含む方法。
【請求項12】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、
二次バウンディング・ボックスが、前記原バウンディング・ボックスのうちの特定の1つに関連付けられた前記画像の一部に対して生成されているかどうかを判定することと、
二次バウンディング・ボックスが生成されていない場合に、前記原バウンディング・ボックスのうちの前記特定の1つを偽陽性として識別することと
を含む、請求項11に記載の方法。
【請求項13】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、前記二次バウンディング・ボックスのそれぞれに対して、
前記二次バウンディング・ボックスを対応する原バウンディング・ボックスと比較して、類似度を決定することと、
前記類似度を類似度閾値と比較することと、
前記類似度が前記類似度閾値未満である場合に、前記対応する原バウンディング・ボックスを偽陽性として識別することと
を含む、請求項11に記載の方法。
【請求項14】
類似度を決定することは、前記二次バウンディング・ボックスおよび対応する原バウンディング・ボックスについてのジャッカード係数を計算することを含む、請求項13に記載の方法。
【請求項15】
前記閾値サイズは、10ピクセル未満の閾値高さであり、前記画像の前記アップスケールされた部分は、2より大きな倍数でアップスケールされる、請求項11に記載の方法。
【請求項16】
コンピュータにより実行されるコンピュータ・プログラムであって前記コンピュータ・プログラムは、画像に対してテキスト検出を実行して、前記画像内の潜在テキストを識別する原バウンディング・ボックスを生成することと、
閾値サイズ未満のバウンディング・ボックスに関連付けられた前記画像のアップスケールされた部分を含む二次画像を生成することと、
前記二次画像に対してテキスト検出を実行して、前記二次画像内の潜在的テキストを識別する二次バウンディング・ボックスを生成することと、
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することと、
前記原バウンディング・ボックスを含む画像ファイルを生成することであって、偽陽性として識別された前記原バウンディング・ボックスは除去される、前記生成することと
をプロセッサ
に実行させる、コンピュータ・プログラ
ム。
【請求項17】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、
二次バウンディング・ボックスが、前記原バウンディング・ボックスのうちの特定の1つに関連付けられた前記画像の一部に対して生成されているかどうかを判定することと、
二次バウンディング・ボックスが生成されていない場合に、前記原バウンディング・ボックスのうちの前記特定の1つを偽陽性として識別することと
を含む、請求項16に記載のコンピュータ・プログラ
ム。
【請求項18】
前記原バウンディング・ボックスを前記二次バウンディング・ボックスと比較して、偽陽性である原バウンディング・ボックスを識別することは、前記二次バウンディング・ボックスのそれぞれに対して、
前記二次バウンディング・ボックスを対応する原バウンディング・ボックスと比較して、類似度を決定することと、
前記類似度を類似度閾値と比較することと、
前記類似度が前記類似度閾値未満である場合に、前記対応する原バウンディング・ボックスを偽陽性として識別することと
を含む、請求項16に記載のコンピュータ・プログラ
ム。
【請求項19】
類似度を決定することが、前記二次バウンディング・ボックスおよび対応する原バウンディング・ボックスについてのジャッカード係数を計算することを含む、請求項16に記載のコンピュータ・プログラム。
【請求項20】
前記閾値サイズが、10ピクセル未満の閾値高さであり、前記画像の前記アップスケールされた部分が、2より大きな倍数でアップスケールされる、請求項16に記載のコンピュータ・プログラ
ム。
【国際調査報告】