(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2025-03-03
(45)【発行日】2025-03-11
(54)【発明の名称】情報処理システム、情報処理方法、およびプログラム
(51)【国際特許分類】
G06V 30/24 20220101AFI20250304BHJP
【FI】
G06V30/24 620D
(21)【出願番号】P 2024027768
(22)【出願日】2024-02-27
【審査請求日】2024-04-03
【早期審査対象出願】
(73)【特許権者】
【識別番号】514020389
【氏名又は名称】TIS株式会社
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】園田 健太郎
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2020-067959(JP,A)
【文献】特開2000-155803(JP,A)
【文献】特開2021-068203(JP,A)
【文献】特開平11-224305(JP,A)
【文献】特開2024-003769(JP,A)
【文献】特開2001-297306(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/24
(57)【特許請求の範囲】
【請求項1】
所定の装置から、文字を含む対象画像を取得する対象画像取得部と、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得する第2の情報取得部と、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定する文字特定部と、
を備え、
前記文字特定部は、前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定する、
情報処理システム。
【請求項2】
所定の装置から、文字を含む対象画像を取得する対象画像取得部と、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像が入力されることによって、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得する第2の情報取得部と、
前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定する文字特定部と、
を備え、
前記文字特定部は、前記第2の光学式文字認識装置に対する前記特定範囲画像を入力した入力回数が所定の回数を超えた場合、前記第1の正確性指標に対応する前記第1のテキスト情報が示す文字を、前記特定範囲画像に含まれる文字として特定する、
情報処理システム。
【請求項3】
前記文字特定部は、前記特定範囲画像に含まれる全ての文字に関する前記第2の基準指標が前記第2の基準以上であると判定された場合、前記第2の正確性指標に対応する前記第2のテキスト情報が示す文字を、前記特定範囲画像に含まれる文字として特定する、
請求項1に記載の情報処理システム。
【請求項4】
前記対象画像取得部は、一頁単位の画像である前記対象画像を取得し、
前記第2の情報取得部は、前記対象画像に含まれる文章の行単位の画像である前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を、前記第2の光学式文字認識装置から取得する、
請求項1に記載の情報処理システム。
【請求項5】
前記対象画像を画面の第1の表示領域に表示させ、
前記特定範囲画像に含まれる文字を示す前記第2のテキスト情報を前記画面における前記第1の表示領域とは異なる第2の表示領域に表示させる表示処理部を、
さらに備える請求項1に記載の情報処理システム。
【請求項6】
前記表示処理部は、
前記特定範囲画像に含まれる文字を示す前記第2のテキスト情報と、前記特定範囲画像に含まれる文字を除く前記対象画像に含まれる文字を示す前記第1のテキスト情報と、を前記第2の表示領域に表示し、
当該第2のテキスト情報を識別可能に表示する、
請求項5に記載の情報処理システム。
【請求項7】
前記表示処理部は、前記第2の光学式文字認識装置に前記特定範囲画像を入力した回数である入力回数を、前記画面の所定の表示領域に表示させる、
請求項5に記載の情報処理システム。
【請求項8】
コンピュータが、
所定の装置から、文字を含む対象画像を取得することと、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得することと、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定すること
であり、
前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することと、
を実行する情報処理方法。
【請求項9】
コンピュータに、
所定の装置から、文字を含む対象画像を取得することと、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得することと、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定すること
であり、
前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
機械学習モジュールを用いて文書画像から情報を抽出するシステムが開示されている(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の文書データ抽出システムは、文書に関連付けられた画像データを取得し、光学式文字認識により画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とが指定される。文書データ抽出システムは、機械学習モジュールを用いて、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。これにより、文書データ抽出システムは文書画像から情報を抽出することができる。
【0005】
しかし、光学式文字認識を実行する一つの光学式文字認識装置によって画像データから適切にメタデータを生成できない場合、文書画像から適切に情報を抽出することができないという問題が生じる。
【0006】
そこで、本発明は、上記の課題を解決するために、画像から適切に情報を抽出可能なシステムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る情報処理システムは、所定の装置から、文字を含む対象画像を取得する対象画像取得部と、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得する第2の情報取得部と、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定する文字特定部と、を備える。
【0008】
本発明の一態様に係る情報処理方法は、コンピュータが、所定の装置から、文字を含む対象画像を取得することと、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得することと、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定することと、を実行する。
【0009】
本発明の一態様に係るプログラムは、コンピュータに、所定の装置から、文字を含む対象画像を取得することと、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得することと、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定することと、を実行させる。
【発明の効果】
【0010】
本発明によれば、画像から適切に情報を抽出可能なシステムを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】電子データ生成システムの概要を示す図である。
【
図2】対象画像情報の一例を示すデータベースである。
【
図3】特定範囲画像情報の一例を示すデータベースである。
【
図5】電子データ生成システムの処理手順を示すフローチャートである。
【
図6】一行の文字列のテキスト情報である行情報に対する正当性指標を示す表である。
【
図7】コンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0012】
以下に、本発明の一実施形態における電子データ生成システム10について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、または各実施例を組み合わせるなどして実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
【0013】
また、本実施形態において、「部」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、一つの「部」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されてもよく、二つ以上の「部」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。さらには、電子データ生成システム10を構成する複数の装置のそれぞれの以下に示す各種機能が、当該複数の装置における他の装置によって実行されるように構成されていてもよい。
【0014】
===電子データ生成システム10の概要===
<<構成の概要>>
図1を参照して、電子データ生成システム10の概要について説明する。
図1は、電子データ生成システム10の概要を示す図である。
【0015】
電子データ生成システム10は、複数の光学式文字認識装置を用いて、画像からデジタル文書を正確に生成するシステムである。具体的には、電子データ生成システム10は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、PNG(Portable Network Graphics)等のグラフィックフォーマットで指定された画像やPDF(Portable Document Format)データの画像(以下、「対象画像」という。)などを、複数の光学式文字認識装置を通じてデジタルデータであるテキスト情報を生成する。
【0016】
対象画像は、例えば各種契約書や論文などの画像である。以下、便宜上、対象画像が一例として一頁単位の契約書の画像であるとして説明する。
【0017】
電子データ生成システム10は、例えば、電子データ生成装置100と、第1の光学式文字認識装置200と、第2の光学式文字認識装置300と、ユーザ端末400とを含む。
【0018】
電子データ生成装置100は、異なる二つの光学式文字認識装置のそれぞれによる対象画像の文字認識の結果に基づき、対象画像の文字認識の結果であるデジタル文書を出力する装置である。
【0019】
第1の光学式文字認識装置200は、対象画像に対して文字認識を実行する装置である。
【0020】
第2の光学式文字認識装置300は、電子データ生成装置100から取得される、対象画像の所定の範囲の画像に対して文字認識を実行する装置である。
【0021】
電子データ生成装置100、第1の光学式文字認識装置200および第2の光学式文字認識装置300は、例えば、クラウドコンピュータ、サーバコンピュータ、パーソナルコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA、電子メールクライアントなど)、あるいは他種のコンピュータ、またはコミュニケーションプラットホームであってもよい。なお、電子データ生成装置100、第1の光学式文字認識装置200および第2の光学式文字認識装置300における処理の少なくとも一部は、1以上のコンピュータ(限定ではなく例として、1以上のコンピュータにより構成されるクラウドコンピューティング)により実現されていてもよい。
【0022】
ユーザ端末400は、ユーザの操作入力を受け付けて各種情報を表示する装置である。
【0023】
ユーザ端末400は、例えば、スマートフォン、携帯電話(フィーチャーフォン)、パーソナルコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、 デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA(Personal Digital Assistant)、電子メールクライアントなど)、ウェアラブル端末(メガネ型デバイス、時計型デバイスなど)、他種のコンピュータ、またはコミュニケーションプラットホームであってもよい。
【0024】
<<処理の概要>>
図1を参照して、電子データ生成システム10の処理の概要について説明する。
【0025】
まず、ステップS10において、電子データ生成装置100は、所定の装置から取得された対象画像を、第1の光学式文字認識装置200に送信する。
【0026】
ステップS11において、第1の光学式文字認識装置200は、対象画像(例えば一頁単位の画像)に含まれる文字を認識して、認識した文字についてのテキスト情報(以下、「第1のテキスト情報」という。)を生成する。第1のテキスト情報には当該文字の対象画像上の座標が含まれていてもよい。このとき、第1の光学式文字認識装置200は、生成した第1のテキスト情報が示す文字に対する認識の正確性の度合い(以下、「第1の正確性指標」という。)を生成する。以下では、便宜上、第1のテキスト情報、第1の正確性指標および座標をまとめて「第1の生成情報」ということもある。
【0027】
第1の光学式文字認識装置200は、第1の生成情報を電子データ生成装置100に送信する。
【0028】
ステップS12において、電子データ生成装置100は、複数の文字における第1の正確性指標のうちの少なくとも一つに基づく基準指標(以下、「第1の基準指標」という。)が、画像に含まれる文字の認識の正確性に関する基準(以下、「第1の基準」という。)よりも低いと判定された場合、基準指標に対応する文字を含む、対象画像の所定の範囲の画像(以下、「特定範囲画像」という。)を特定する。
【0029】
第1の基準指標とは、例えば、複数の文字のそれぞれの第1の正確性指標であってもよいし、行単位の画像やブロック単位の画像に含まれる複数の文字における第1の正確性指標の平均値であってもよい。
【0030】
第1の基準とは、例えば第1の正確性指標と比較可能な閾値である。
【0031】
特定範囲画像とは、例えば、一頁単位の対象画像の一部をセグメント化した、一つの文章がまとまった画像(以下、「ブロック画像」という。)であってもよいし、一行分の画像(以下、「行画像」という。)であってもよいし、一文字の画像である文字画像であってもよい。以下、便宜上、特定範囲画像を「行画像」として説明する。
【0032】
電子データ生成装置100は、特定範囲画像を第2の光学式文字認識装置300に送信する。すなわち、電子データ生成装置100は、対象画像を文字認識させた光学式文字認識装置とは異なる光学式文字認識装置に、文字認識の正確性が低いと判定された文字を含む、例えば対象画像の一部の範囲の特定範囲画像(例えば行画像)を再度文字認識させる。
【0033】
ステップS13において、第2の光学式文字認識装置300は、特定範囲画像に含まれる文字を認識して、認識した文字についてのテキスト情報(以下、「第2のテキスト情報」という。)を生成する。第2のテキスト情報には当該文字の対象画像上の座標が含まれていてもよい。このとき、第2の光学式文字認識装置300は、生成した第2のテキスト情報が示す文字に対する認識の正確性の度合い(以下、「第2の正確性指標」という。)を生成する。なお、以下では、第2のテキスト情報、第2の正確性指標および座標をまとめて「第2の生成情報」ということもある。
【0034】
第2の光学式文字認識装置300は、第2の生成情報を電子データ生成装置100に送信する。
【0035】
ステップS14において、電子データ生成装置100は、特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける第2の正確性指標のうちの少なくとも一つに基づく基準指標(以下、「第2の基準指標」という。)と、画像に含まれる文字の認識の正確性に関する基準(以下、「第2の基準」という。)との比較結果(以下、「第1の比較結果」という。)に基づいて、特定範囲画像に含まれる文字を特定する。
【0036】
第2の基準指標とは、例えば、特定範囲画像に含まれる文字のそれぞれの第2の正確性指標であってもよいし、特定範囲画像に含まれる複数の文字における第2の正確性指標の平均値であってもよい。
【0037】
第2の基準とは、例えば第2の正確性指標と比較可能な閾値である。
【0038】
電子データ生成装置100は、特定した特定範囲画像に含まれる文字を示す情報(以下、「文字認識結果」という。)を含む画面をユーザ端末400に送信する。
【0039】
以上のとおり、電子データ生成装置100は、一頁単位の対象画像に含まれる文字に対する第1の光学式文字認識装置200による文字認識の正確性が低い場合に、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300によって、当該文字を含む、対象画像の一部の範囲の特定範囲画像(ここでは一例として行単位の行画像)を文字認識した結果を取得して、当該結果に基づき対象画像に含まれる文字を特定する。
【0040】
すなわち、電子データ生成装置100では、文字認識の対象範囲が異なる複数の光学式文字認識装置(例えば第1の光学式文字認識装置200は一頁単位の文字認識で第2の光学式文字認識装置300は行単位の文字認識)を用いて、文字認識の正確性が低い画像に対して文字認識することにより、正確性が高い文字認識を実現可能とする。
【0041】
さらに言うと、電子データ生成システム10では、文字認識の実行費用が第1の光学式文字認識装置200よりも高額な第2の光学式文字認識装置300を用いて対象範囲の文字認識の全てを実行するのではなく、第1の光学式文字認識装置200では文字認識の正確性が低い、対象範囲よりもより狭い範囲の文字認識を実行することにより、文字認識の正確性を高めるとともに、文字認識にかかる費用を低減することが可能となる。
【0042】
なお、第2の光学式文字認識装置300に送信される特定範囲画像は、行画像であることに限定されず、一頁単位の画像であってもよく、ブロック画像または文字画像であってもよい。
【0043】
また、電子データ生成システム10は、第1の光学式文字認識装置200および第2の光学式文字認識装置300に加えて、さらに少なくとも一つの光学式文字認識装置を含んでいてもよい。この場合、当該光学式文字認識装置は、第1の光学式文字認識装置200および第2の光学式文字認識装置300のいずれかと同じ範囲の画像を文字認識するものであってもよいし、第1の光学式文字認識装置200および第2の光学式文字認識装置300が文字認識する範囲よりも狭い範囲の画像を文字認識するものであってもよい。これにより、電子データ生成システム10は、より正確性が高い文字認識を実現可能となる。
【0044】
===電子データ生成装置100===
図1に示すように、電子データ生成装置100は、記憶部101と、対象画像取得部102と、第1の情報取得部103と、第1の判定部104と、特定範囲特定部105と、情報送信部106と、第2の情報取得部107と、第2の判定部108と、文字特定部109と、表示処理部110とを含む。
【0045】
記憶部101は、例えば、対象画像情報D101aと、特定範囲画像情報D101bとを含む。
【0046】
図2を参照して、対象画像情報D101aについて説明する。
図2は、対象画像情報101aの一例を示すデータベースである。対象画像情報101aは、対象画像に関するデータが格納されるデータベースである。
【0047】
図2に示すように、対象画像情報D101aは、例えば、[対象画像ID]、[対象画像]、[ブロック情報]、[行情報]、[文字情報]、[座標]、[第1の正確性指標]などの項目を含む。[対象画像ID]は、対象画像を一意に識別可能な識別情報が格納される。[対象画像]は、対象画像が格納される。[ブロック情報]は、対象画像のうちの文章の一つのまとまりを示すブロック画像のテキスト情報(以下、「ブロック情報」という。)が格納される。[行情報]は、ブロック画像に含まれる一行ごとのテキスト情報(以下、「行情報」という。)が格納される。[文字情報]は、一行に含まれる文字のテキスト情報(以下、「文字情報」という。)が格納される。[座標]は、第1のテキスト情報のそれぞれが示す文字(文字情報)の対象画像中の座標が格納される。[第1の正確性指標]は、第1のテキスト情報のそれぞれが示す文字の正確性の度合いを示す第1の正確性指標が格納される。
【0048】
図3を参照して、特定範囲画像情報D101bについて説明する。
図3は、特定範囲画像情報101bの一例を示すデータベースである。特定範囲画像情報101bは、特定範囲画像に関するデータが格納されるデータベースである。
【0049】
図3に示すように、特定範囲画像情報D101bは、例えば、[特定範囲画像ID]、[特定範囲画像]、[第2のテキスト情報]、[座標]、[第2の正確性指標]などの項目を含む。[特定範囲画像ID]は、特定範囲画像を一意に識別可能な識別情報が格納される。[特定範囲画像]は、特定範囲画像が格納される。[第2のテキスト情報]は、特定範囲画像(
図3では行画像)に含まれる文字画像の第2のテキスト情報が格納される。[座標]は、第2のテキスト情報が示す文字のそれぞれの対象画像中の座標または特定範囲画像中の座標が格納される。[第2の正確性指標]は、第2のテキスト情報が示す文字の正確性の度合いを示す第2の正確性指標が格納される。
【0050】
対象画像取得部102は、所定の装置から対象画像を取得する。所定の装置は紙への印字を画像として取得可能な例えばスキャナー装置や対象画像を記憶するサーバ装置などである。対象画像取得部102は、取得した対象画像を第1の光学式文字認識装置200に送信してもよい。
【0051】
図1に戻り、第1の情報取得部103は、対象画像についての第1の生成情報を第1の光学式文字認識装置200から取得する。具体的には、電子データ生成装置100は、例えば、対象画像に含まれる文字画像のそれぞれについての第1のテキスト情報(座標を含む)および第1の正確性指標を第1の光学式文字認識装置200から取得する。第1の生成情報は対象画像情報D101aに格納される。
【0052】
第1の判定部104は、第1の基準指標が第1の基準よりも低いか否かを判定する。具体的には、第1の判定部104は、第1の基準である閾値が「0.6」であり、対象画像の所定の範囲の画像(例えば行画像)が「ABC」である場合、第1のテキスト情報である「A」,「B」,「D」(文字画像「C」を「D」とご認識)のそれぞれの第1の正確性指標が「0.99」,「0.99」,「0.55」であるとすると、当該所定の範囲の画像における第1の基準指標(ここでは「D」に対応する第1の正確性指標「0.55」)が第1の基準(ここでは閾値「0.6」)よりも低いと判定する。
【0053】
すなわち、電子データ生成装置100は、対象画像に含まれる所定の範囲の画像(例えば、ブロック画像、行画像または文字画像)における第1のテキスト情報に対応する第1の正確性指標のうちの少なくとも一つ(または平均値)が閾値よりも低い場合、当該所定の範囲の画像に対して正確に文字認識できていないと判定してもよい。
【0054】
特定範囲特定部105は、第1の判定部104における判定結果(以下、「第1の判定結果」という。)に基づき、第1の基準よりも低いと判定された第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像を特定する。この場合、特定範囲特定部105は、第1の光学式文字認識装置200から取得される対象画像に含まれる文字画像のそれぞれの座標を特定し、当該座標に基づき、第1の基準指標に対応する文字を含む特定範囲画像(例えば行画像)を特定する。
【0055】
ここで、行画像を特定する処理(以下、「行特定処理」という。)の一例の概要について説明する。行特定処理では、まず、対象画像の左端の黒のドット画像を特定する。次に、行特定処理では、特定したドット画像から水平方向で右に向かって、高さ方向の所定の幅で黒ドットを特定しつつヒストグラム(例えば横軸が対象画像の左端からの距離、縦軸がドット画像の個数)を生成する。次に、水平に対して角度をずらして所定の幅で同様に黒のドット画像を特定しつつヒストグラムを生成する。そして、行特定処理では、ヒストグラムに基づき、行画像の左上のドットの座標と右下のドットの座標を特定することにより、行画像の範囲の座標を特定する。これにより、複数の文字を含む所定のまとまりの画像を適切に特定することが可能となる。
【0056】
なお、ヒストグラムにおいて、黒のドット画像が特定される第1の距離範囲と、黒のドット画像が特定される第2の距離範囲とが所定の距離を超える場合、第1の距離範囲の黒のドット画像が特定される範囲を第1の行画像として特定し、第2の距離範囲の黒のドット画像が特定される範囲を第1の行画像とは異なる第2の行画像として特定する。これにより、例えば同じ行ではあるものの、異なるブロック画像に含まれる行画像を異なる行として特定することが可能となる。
【0057】
情報送信部106は、特定された特定範囲画像(例えば行画像)を第2の光学式文字認識装置300に送信する。
【0058】
第2の情報取得部107は、特定範囲画像に含まれる文字についての第2の生成情報を第2の光学式文字認識装置300から取得する。具体的には、電子データ生成装置100は、例えば、特定範囲画像である行画像(例えば「ABC」)に含まれる文字画像(例えば「A」「B」「C」)のそれぞれについての第2のテキスト情報(座標を含む)および第2の正確性指標(例えば「A:0.99」「B:0.98」「C:0.99」)を、第2の光学式文字認識装置200から取得する。
【0059】
第2の判定部108は、第2の基準指標と第2の基準との大小関係を判定する。具体的には、第2の判定部108は、例えば、特定範囲画像に含まれる文字ついての第2の正確性指標の全てが所定の閾値以上であるか否かを判定する。例えば、第2の判定部108は、所定の閾値が「0.6」であり、特定範囲画像(例えば行画像)が「ABC」である場合、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.98」であるとすると、第2の基準指標が第2の基準以上であると判定する。なお、第2の判定部108は、特定範囲画像に含まれる文字のそれぞれの第2の正確性指標の平均値が所定の閾値以上であるか否かを判定してもよい。
【0060】
第2の判定部108は、特定範囲画像についての第2の正確性指標のうちの一つでも所定の閾値よりも低い場合、第2の基準指標が第2の基準よりも低いと判定してもよい。例えば、第2の判定部108は、特定範囲画像(例えば行画像)が「ABC」である場合、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.50」であるとすると、第2の基準指標が第2の基準よりも低いと判定する。
【0061】
このように、電子データ生成装置100は、例えば、特定範囲画像についての第2の正確性指標の全てが所定の閾値を超える場合に、第2のテキスト情報が第1のテキスト情報よりも対象画像についての文字画像に対して正確に文字を認識できていると判定する。
【0062】
文字特定部109は、第2の判定部108における判定結果(以下、「第2の判定結果」という。)に基づき、特定範囲画像(すなわち対象画像)に含まれる文字を特定する。具体的には、文字特定部109は、第2の基準指標が第2の基準以上である場合、第2の正確性指標に対応する第2のテキスト情報が示す文字を特定範囲画像に含まれる文字として特定する。
【0063】
例えば、文字特定部109は、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標(第2の基準指標)が「0.99」,「0.99」,「0.98」である場合、第2の基準指標が第2の基準(例えば閾値「0.6」)以上であるため、第2のテキスト情報が示す「ABC」を特定範囲画像の文字列として特定する。
【0064】
これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することが可能となる。
【0065】
一方、文字特定部109は、第2の基準指標が第2の基準よりも低い場合、第1の正確性指標と第2の正確性指標との大小関係を判定した結果に基づき、第1の正確性指標に対応する第1のテキスト情報が示す文字、または第2の正確性指標に対応する第2のテキスト情報が示す文字のいずれかを、特定範囲画像の文字として特定する。
【0066】
具体的には、文字特定部109は、第2の光学式文字認識装置300から取得される特定範囲画像に含まれる文字画像のそれぞれの第2の正確性指標の最低値と、第1の光学式文字認識装置200から取得される当該特定範囲画像に対応する画像の第1のテキスト情報に対応する第1の正確性指標のうちの最低値と、のうちの高い値を示す最低値を特定する。文字特定部109は、特定した最低値を示す正確性指標に対応するテキスト情報(第1のテキスト情報または第2のテキスト情報)が示す文字を特定範囲画像に含まれる文字として特定する。
【0067】
例えば、文字特定部109は、行画像「ABC」について、第1のテキスト情報である「A」,「F」,「D」(ここでは、文字画像「B」を「F」とご認識し、「C」を「D」とご認識)における第1の正確性指標が「0.99」,「0.40」,「0.55」であり、第2のテキスト情報である「A」,「B」,「E」(文字画像「C」を「E」とご認識)のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.50」である場合、第2の正確性指標の最低値「0.50」が第1の正確性指標の最低値「0.40」よりも高い値を示すことを特定する。この場合、文字特定部109は、第2のテキスト情報が示す「ABE」を特定範囲画像の文字列として特定する。
【0068】
これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列を採用することが可能となる。
【0069】
なお、上記において、第2の正確性指標の最低値と第1の正確性指標のうちの最低値とのうちの高い値を示す最低値を特定するとして説明したが、これに限定されない。例えば、文字特定部109は、最低値に替えて平均値を用いてもよく、この場合、高い平均値を示す正確性指標(第2の基準指標)に対応するテキスト情報が示す文字を特定範囲画像の文字として特定してもよい。例えば、電子データ生成装置100は、最低値のうちの高い値を示す最低値を特定する処理を実行することによりユーザによる修正の手間を縮減でき、一方、平均値のうちの高い平均値を特定する処理を実行することによりテキストが全体的に程よくまとまっていればよいようなテキストを採用することができるためユーザの修正の手間を縮減できる。
【0070】
以上のように、電子データ生成装置100は、対象画像の所定の範囲(例えば行単位)の画像に対する第1の光学式文字認識装置200による文字認識の正確性が低い場合に、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300によって当該所定の範囲の画像を文字認識した結果を取得する。すなわち、電子データ生成装置100では、二つの異なる光学式文字認識装置で文字認識することによって、文字認識の正確性が低い画像について正確性の高い文字認識が実現可能となる。
【0071】
さらに述べると、電子データ生成システム10では、例えば、文字認識を実行するための費用が安く、文字認識の精度が低い第1の光学式文字認識装置200によって広範囲(例えば一頁単位)の文字認識を実行し、文字認識を実行するための費用が第1の光学式文字認識装置200よりも高く、文字認識の精度が第1の光学式文字認識装置200よりも高い(例えば行単位での文字認識の精度が高い)第2の光学式文字認識装置300によって、より狭い範囲の文字認識を実行することが望ましい。これにより、電子データ生成システム10では、文字認識の正確性を高めるとともに、文字認識にかかる費用を低減することが可能となる。
【0072】
表示処理部110は、対象画像と文字特定部109で特定されたテキスト情報(文字認識結果)とを関連づけて画面内に表示させる。以下、
図4を参照して、画面例について説明する。
図4は、表示部に表示される画面例を示す図である。
【0073】
図4に示すように、画面T10は、第1の表示領域T11と、第2の表示領域T12とを含む。第1の表示領域T11は対象画像が表示される領域である。第1の表示領域T11は例えば画面の一方側の半分の領域である。第2の表示領域T12は対象画像における第1のテキスト情報および特定範囲画像における第2のテキスト情報(
図4では行情報)が表示される領域である。第2の表示領域T12は例えば画面の他方側の半分の領域である。
【0074】
表示処理部110は、例えば、第1の表示領域T11に表示される対象画像に含まれる文字のうち、第2の表示領域に表示される行情報が示す文字を識別可能に表示する。具体的には、
図4に示すように、表示処理部110は、例えば、対象画像の行画像を識別可能なオブジェクトOT1を表示させ、当該行画像と対応する行情報にオブジェクトOT2を表示させる。例えばオブジェクトOT1の表示色はオブジェクトOT2の表示色と同じ色である。これにより、電子データ生成装置100は、対象画像の所定の範囲を文字認識した結果である第1のテキスト情報および第2のテキスト情報と、対象画像との対応関係を、ユーザに対して提供することができるため、ユーザにおいて対象画像に対する誤認識などを容易に把握可能とさせる。
【0075】
<<変形例>>
文字特定部109は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数に基づき、第1のテキスト情報が示す文字または第2のテキスト情報が示す文字のいずれかを、対象画像に含まれる文字として特定してもよい。具体的には、文字特定部109は、例えば、第2の光学式文字認識装置300に特定範囲画像(例えば行画像)を入力した入力回数が予め定められた回数を超えた場合、第1の正確性指標に対応する第1のテキスト情報が示す文字を対象画像に含まれる文字として特定する。これにより、電子データ生成システム10は、例えば、第1の光学式文字認識装置200による文字認識の処理にかかる費用よりも、第2の光学式文字認識装置300による文字認識の処理にかかる費用の方が高いような場合、一定の費用を超えるような場合は、より費用が低い光学式文字認識装置を用いて文字認識を実行することにより、費用縮減を実現できる。
【0076】
この場合、表示処理部110は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数を画面T10の所定の位置に表示させてもよい。具体的には、表示処理部110は、第2の表示領域の所定の位置に表示されてもよい。さらに言うと、
図4に示すように、表示処理部110は、入力回数を超えた時点以降に第2の光学式文字認識装置300に入力する対象となった行画像(
図4では「サーバ」)に対応する第2のテキスト情報に対して、入力回数を関連づけて表示させてもよい(
図4の「5回」)。これにより、電子データ生成システム10は、第2の光学式文字認識装置300による文字認識が回数制限により実行できなかった特定範囲画像について、ユーザにおいて容易に把握可能とさせる。
【0077】
===第1の光学式文字認識装置200===
図1に戻り、第1の光学式文字認識装置200の構成について説明する。第1の光学式文字認識装置200は、例えば、対象画像が入力された場合、対象画像に含まれる文字を認識して、例えば認識した文字ごとに、第1のテキスト情報、第1の正確性指標および座標(第1の生成情報)を生成する装置である。
【0078】
図1に示すように、第1の光学式文字認識装置200は、例えば、記憶部210と、送受信部220と、処理部230とを備える。記憶部210は各種情報を記憶する。処理部230は文字認識するための処理を実行する。送受信部220は、電子データ生成装置100との間で各種情報を送受信する。処理部230は、例えば文字を区別するように学習されたニューラル・ネットワークを使用して画像を分析する。ニューラル・ネットワークは、例えば複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。処理部230は、例えば対象画像についてページ、ブロック、行または文字ごとにセグメント化する。セグメント化した画像に含まれる文字について文字認識を実行することで、例えば文字ごとに第1の生成情報を生成する。処理部230は、例えばセグメント化した画像(例えば対象画像、ブロック画像または行画像)を一つのまとまりとしての第1の生成情報を生成してもよい。
【0079】
===第2の光学式文字認識装置300===
図1を参照して、第2の光学式文字認識装置300の構成について説明する。第2の光学式文字認識装置300は、例えば、特定範囲画像が入力された場合、特定範囲画像に含まれる文字を認識して、例えば認識した文字ごとに、第2のテキスト情報、第2の正確性指標および座標(第2の生成情報)を生成する装置である。
【0080】
第2の光学式文字認識装置300は、例えば特定範囲画像が行画像である場合に、第1の光学式文字認識装置200による文字識別の正確性よりも高い正確性を実現可能な装置であることが望ましい。この場合、電子データ生成システム10では、第1の光学式文字認識装置200における文字認識の正確性が低い行画像に対して、行画像に対する文字認識の正確性が高い第2の光学式文字認識装置300を用いることにより、文字認識の正確性の向上を図ることが可能となる。
【0081】
図1に示すように、第2の光学式文字認識装置300は、例えば、記憶部310と、送受信部320と、処理部330とを備える。記憶部310は各種情報を記憶する。処理部330は文字認識するための処理を実行する。送受信部320は、電子データ生成装置100との間で各種情報を送受信する。処理部330は、例えば文字を区別するように学習されたニューラル・ネットワークを使用して画像を分析する。ニューラル・ネットワークは、例えば複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。処理部330は、第1の光学式文字認識装置200の処理部230と同じであってもよいが、行画像に対する文字認識に特化した処理を実行する機能部であってもよい。この場合、処理部330は、例えば行画像について文字ごとにセグメント化する。そして、処理部330は、当該文字について文字認識を実行することにより、例えば文字ごとに第2の生成情報を生成する。
【0082】
===ユーザ端末400===
図1を参照して、ユーザ端末400の構成について説明する。
図1に示すように、ユーザ端末400は、例えば、記憶部410と、送受信部420と、表示処理部430との機能部を含む。各機能部は、例えば、プロセッサ1001がメモリ1002に格納されているプログラムを読み出して実現される機能である。
【0083】
記憶部410は、各種情報を記憶する。送受信部420は電子データ生成装置100との間で各種情報を送受信する。送受信部420で取得された各種情報は記憶部410に記憶される。表示処理部430は電子データ生成装置100から取得する画面T10を表示部に表示させる。
【0084】
===処理手順===
図5、
図6を参照して、電子データ生成システム10の処理手順について説明する。
図5は、電子データ生成システム10の処理手順を示すフローチャートである。
図6は、一行の文字列のテキスト情報である行情報に対する正当性指標を示す表である。以下では、一例として、対象画像に含まれる一行の文字列である「100BASE-TXスイッチ一式」に対する文字認識について説明する。
【0085】
ステップS100において、電子データ生成装置100は、所定の装置から対象画像を取得する。電子データ生成装置100は、対象画像を記憶部101に記憶する。電子データ生成装置100は、第1の光学式文字認識装置200に対象画像を送信する。
【0086】
ステップS101において、第1の光学式文字認識装置200は、対象画像をセグメント化して、対象画像に含まれる文字ごとの第1のテキスト情報、第1の正確性指標および座標を生成する。第1の光学式文字認識装置200は、第1の生成情報を電子データ生成装置100に送信する。
【0087】
ステップS102において、電子データ生成装置100は、対象画像に関連づけて、文字ごとに第1の生成情報を対象画像情報D101aに記憶する。
【0088】
ステップS103において、電子データ生成装置100は、対象画像に含まれる文字の第1の基準指標が第1の基準よりも低いか否かを判定する。
【0089】
第1の基準指標が第1の基準以上と判定された場合(ステップS103:NO)、ステップS104において、電子データ生成装置100は、第1のテキスト情報が示す文字を対象画像に含まれる文字として特定する。
【0090】
第1の基準指標が第1の基準よりも低いと判定された場合(ステップS103:YES)、ステップS105において、電子データ生成装置100は、対象画像情報D101aを参照して、第1の基準よりも低いと判定された第1の基準指標に対応する第1のテキスト情報を含む行情報を特定する。具体的には、電子データ生成装置100は、
図6(a)に示す第1のテキスト情報および第1の正当性指標を特定する。
【0091】
ステップS106において、電子データ生成装置100は、特定した行情報に含まれる座標に基づき、行情報に対応する行画像(特定範囲画像)を対象画像から特定する。電子データ生成装置100は、特定した行画像を第2の光学式文字認識装置300に送信する。
【0092】
ステップS107において、第2の光学式文字認識装置300は、行画像をセグメント化して、行画像に含まれる文字ごとの第2のテキスト情報、第2の正確性指標および座標を生成する。第2の光学式文字認識装置300は、第2の生成情報を電子データ生成装置100に送信する。
【0093】
ステップS108において、電子データ生成装置100は、特定範囲画像に関連づけて、文字ごとに第2の生成情報を特定範囲画像情報D101bに記憶する。
【0094】
ステップS109において、電子データ生成装置100は、特定範囲画像における第2の基準指標と第2の基準との大小関係を判定する。具体的には、
図6(b)に示す行情報の第2の正当性指標の全て(第2の基準指標)が閾値(第2の基準)を超えるか否かを判定する。
【0095】
第2の基準指標が第2の基準以上と判定された場合(ステップS109:YES)、ステップS110において、電子データ生成装置100は、行情報に含まれる第2のテキスト情報が示す文字を行画像に含まれる文字として特定する。
【0096】
第2の基準指標が第2の基準よりも低いと判定された場合(ステップS109:NO)、ステップS111において、電子データ生成装置100は、特定範囲画像に対応する行情報についての第1の正確性指標と、第2の正確性指標とを比較する。具体的には、電子データ生成装置100は、
図6(a)に示す第1の正確性指標のうちの最も小さい値(
図6(a)の「0.32」)と、
図6(b)に示す第2の正確性指標のうちの最も小さい値(
図6(b)の「0.57」)とを比較する。
【0097】
ステップS112において、電子データ生成装置100は、第1の正確性指標のうちの最も小さい値の方が第2の正確性指標のうちの最も小さい値よりも大きいと判定された場合、第1のテキスト情報を含む行情報(
図6(a)の行情報)を行画像に含まれる文字として特定する。一方、電子データ生成装置100は、第2の正確性指標のうちの最も小さい値の方が第1の正確性指標のうちの最も小さい値よりもが大きいと判定された場合、第2のテキスト情報を含む行情報(
図6(b)の行情報)を行画像に含まれる文字として特定する。
【0098】
これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列を採用することが可能となる。
【0099】
なお、ステップS112において、電子データ生成装置100は、第1の正確性指標の平均値(
図6(a)の「平均値」)と、第2の正確性指標の平均値(
図6(b)の「平均値」)とを比較してもよい。この場合、電子データ生成装置100は、それぞれの平均値のうちの大きい値を示す平均値に対応する行情報(
図6(b)の行情報)を行画像に含まれる文字として特定する。
【0100】
ステップS113において、電子データ生成装置100は、対象画像と、対象画像を文字認識した結果とを比較可能な
図4に示す画面T10をユーザ端末400の表示部に表示させる。
【0101】
なお、電子データ生成システム10は、ステップS106において複数の行情報が特定された場合、ステップS106からステップS112を、特定された行情報の個数だけ繰り返し実行する。
【0102】
このように、電子データ生成システム10では、一頁単位の文字認識をより適切に実行可能な第1の光学式文字認識装置200によって文字認識した結果、文字認識の正確性が低いと判定された行について、行単位の文字認識をより適切に実行可能な第2の光学式文字認識装置300によって文字認識することが望ましい。そして、電子データ生成システム10は、第1の光学式文字認識装置200による文字認識の結果と、第2の光学式文字認識装置300による文字認識の結果とを比較して、より正確性が高い方の文字認識の結果を採用する。すなわち、電子データ生成装置100では、二つの異なる光学式文字認識装置で異なる文字認識の範囲に対して文字認識することによって、文字認識の正確性が低い画像について正確性の高い文字認識が実現可能となる。
【0103】
===ハードウェア構成===
図7を参照して、電子データ生成装置100、第1の光学式文字認識装置200、第2の光学式文字認識装置300およびユーザ端末400をコンピュータで実現する場合のハードウェア構成の一例を説明する。
図7は、コンピュータのハードウェア構成の一例を示す図である。
【0104】
図7に示すように、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、入力I/F部1004と、データI/F部1005と、通信I/F部1006、及び表示部1007を含む。
【0105】
プロセッサ1001は、メモリ1002に記憶されているプログラムを実行することによりコンピュータ1000における各種の処理を制御する制御部である。
【0106】
メモリ1002は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ1002は、プロセッサ1001によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
【0107】
記憶装置1003は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置1003は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。
【0108】
入力I/F部1004は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部1004の具体例としては、キーボードやマウス、タッチパネル、各種センサー、ウェアラブル・デバイス等が挙げられる。入力I/F部1004は、例えばUSB(Universal Serial Bus)等のインターフェースを介してコンピュータ1000に接続されても良い。
【0109】
データI/F部1005は、コンピュータ1000の外部からデータを入力するためのデバイスである。データI/F部1005の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部1005は、コンピュータ1000の外部に設けられることも考えられる。その場合、データI/F部1005は、例えばUSB等のインターフェースを介してコンピュータ1000へと接続される。
【0110】
通信I/F部1006は、コンピュータ1000の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部1006は、コンピュータ1000の外部に設けられることも考えられる。その場合、通信I/F部1006は、例えばUSB等のインターフェースを介してコンピュータ1000に接続される。
【0111】
表示部1007は、各種情報を表示するためのデバイスである。表示部1007の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示部1007は、コンピュータ1000の外部に設けられても良い。その場合、表示部1007は、例えばディスプレイケーブル等を介してコンピュータ1000に接続される。また、入力I/F部1004としてタッチパネルが採用される場合には、表示部1007は、入力I/F部1004と一体化して構成することが可能である。
【0112】
===まとめ===
<1>本実施形態における電子データ生成システム10は、所定の装置から、文字を含む対象画像を取得する対象画像取得部102と、対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置200から、複数の文字のそれぞれについての、第1のテキスト情報と、第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部103と、複数の文字における第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300から、特定範囲画像に含まれる文字についての第2のテキスト情報を取得する第2の情報取得部107と、第1のテキスト情報と、第2のテキスト情報と、に基づいて、対象画像に含まれる文字を特定する文字特定部109と、備える。これにより、電子データ生成システム10は、文字認識の対象範囲が異なる複数の光学式文字認識装置(例えば第1の光学式文字認識装置200は一頁単位の文字認識で第2の光学式文字認識装置300は行単位の文字認識)を用いて、文字認識の正確性が低い画像に対して文字認識することにより、正確性が高い文字認識を実現することができる。
【0113】
<2>また、本実施形態における電子データ生成システム10における第2の情報取得部107は、第2の光学式文字認識装置300から、特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、第2のテキスト情報と、第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得し、文字特定部109は、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、特定範囲画像に含まれる文字を特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することが可能となる。
【0114】
<3>また、本実施形態における電子データ生成システム10の文字特定部109は、特定範囲画像に含まれる全ての文字に関する第2の基準指標が第2の基準以上であると判定された場合、第2の正確性指標に対応する第2のテキスト情報が示す文字を、特定範囲画像に含まれる文字として特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することができる。
【0115】
<4>また、本実施形態における電子データ生成システム10の文字特定部109は、特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する第2の基準指標が第2の基準よりも低いと判定された場合、対象画像における特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の第1の正確性指標と、特定範囲画像に含まれる少なくとも一つの文字の第2の正確性指標と、の大小関係を判定した結果に基づいて、特定範囲画像に含まれる文字を特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列による、より適切な文字認識を実現することができる。
【0116】
<5>また、本実施形態における電子データ生成システム10の対象画像取得部102は、一頁単位の画像である対象画像を取得し、情報送信部106は、対象画像に含まれる文章の行単位の画像である特定範囲画像を、第2の光学式文字認識装置300に送信する。これにより、電子データ生成システム10では、例えば、第1の光学式文字認識装置200における文字認識の正確性が低い行画像に対して、行画像に対する文字認識の正確性が高い第2の光学式文字認識装置300を用いることにより、文字認識の正確性の向上を図ることが可能となる。
【0117】
<6>また、本実施形態における電子データ生成システム10の文字特定部109は、第2の光学式文字認識装置300に特定範囲画像を入力することが、第2の光学式文字認識装置300に対する特定範囲画像の入力に関する条件を満たす場合、第1の正確性指標に対応する第1のテキスト情報が示す文字を、特定範囲画像に含まれる文字として特定する。これにより、電子データ生成システム10は、例えば、第1の光学式文字認識装置200による文字認識の処理にかかる費用よりも、第2の光学式文字認識装置300による文字認識の処理にかかる費用の方が高いような場合、一定の費用を超えるような場合は、より費用が低い光学式文字認識装置を用いて文字認識を実行することにより、費用縮減を実現できる。
【0118】
<7>また、本実施形態における電子データ生成システム10は、対象画像を画面T10の第1の表示領域T11に表示させ、特定範囲画像に含まれる文字を示す第2のテキスト情報を画面T10における第1の表示領域T11とは異なる第2の表示領域T12に表示させる表示処理部110をさらに備える。これにより、電子データ生成システム10は、対象画像の所定の範囲を文字認識した結果である第1のテキスト情報および第2のテキスト情報と、対象画像との対応関係を、ユーザに対して提供することができるため、ユーザにおいて対象画像に対する誤認識などを容易に把握可能とさせる。
【0119】
<8>また、本実施形態における電子データ生成システム10における表示処理部110は、特定範囲画像に含まれる文字を示す第2のテキスト情報と、特定範囲画像に含まれる文字を除く対象画像に含まれる文字を示す第1のテキスト情報と、を第2の表示領域T12に表示し、当該第2のテキスト情報を識別可能に表示する。これにより、電子データ生成システム10は、第2の光学式文字認識装置300における第2のテキスト情報を、ユーザが容易に特定可能に表示させることができるため、ユーザにおいて対象画像に対する誤認識の程度などを容易に把握可能とすることができる。
【0120】
<9>また、本実施形態における電子データ生成システム10の表示処理部110は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数を、画面の所定の表示領域に表示させる。これにより、電子データ生成システム10は、第2の光学式文字認識装置300による文字認識の回数について、ユーザにおいて容易に把握可能とすることができる。
【符号の説明】
【0121】
10…電子データ生成システム、100…電子データ生成装置、101…記憶部、102…対象画像取得部、103…第1の情報取得部、104…第1の判定部、105…特定範囲特定部、106…情報送信部、107…第2の情報取得部、108…第2の判定部、109…文字特定部、110…表示処理部、200…第1の光学式文字認識装置、300…第2の光学式文字認識装置、400…ユーザ端末。
【要約】 (修正有)
【課題】画像から適切に情報を抽出可能なシステムを提供する。
【解決手段】情報処理システムにおいて、電子データ生成装置は、対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、第1の基準よりも低いと判定された第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、第2のテキスト情報を取得する第2の情報取得部と、第1のテキスト情報と、第2のテキスト情報と、に基づいて、対象画像に含まれる文字を特定する文字特定部と、を備える。
【選択図】
図1