特許7552117 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7552117情報処理装置およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】情報処理装置およびプログラム

(51)【国際特許分類】

G06V 30/12 20220101AFI20240910BHJP

H04N 1/387 20060101ALI20240910BHJP

G06T 1/00 20060101ALI20240910BHJP

【ＦＩ】

G06V30/12 J

H04N1/387 110

G06T1/00 310Z

【請求項の数】 8

(21)【出願番号】P 2020125342

(22)【出願日】2020-07-22

(65)【公開番号】P2022021637

(43)【公開日】2022-02-03

【審査請求日】2023-05-11

(73)【特許権者】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】110000420

【氏名又は名称】弁理士法人ＭＩＰ

(74)【代理人】

【識別番号】100110607

【弁理士】

【氏名又は名称】間山進也

(72)【発明者】

【氏名】大内敏

【審査官】秦野孝一郎

(56)【参考文献】

【文献】特開２０１６－０４６７６３（ＪＰ，Ａ）

【文献】特開２００１－３３１７６５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／１２

Ｈ０４Ｎ１／３８７

Ｇ０６Ｔ１／００

(57)【特許請求の範囲】

【請求項1】

背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置であって、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段と、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段と
を含み、
前記設定手段は、前記背景の画素の色の均一性に基づいて、前記他の色に置き換えるか否かを設定する、
情報処理装置。

【請求項2】

背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置であって、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段と、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段と、
前記変換手段が変換した前記ファイルを送信する送信手段と
を含み、
前記設定手段は、前記送信手段が前記ファイルを送信するモードであるか否かに基づいて、前記他の色に置き換えるか否かを設定する、
情報処理装置。

【請求項3】

前記設定手段は、前記認識手段による文字認識の確信度に基づいて、前記他の色に置き換えるか否かを設定する、
請求項１または２に記載の情報処理装置。

【請求項4】

前記設定手段は、前記背景の色および前記文字部分の色に基づいて前記他の色を設定する、請求項１～３のいずれか１項に記載の情報処理装置。

【請求項5】

前記設定手段は、前記認識手段による文字認識の確信度に基づいて前記他の色を設定する、請求項１～４のいずれか１項に記載の情報処理装置。

【請求項6】

前記設定手段は、
前記認識手段が認識した文字列が、所定の確信度よりも高い文字を含む割合が所定の値よりも大きい場合に、当該文字列を構成する文字の画素を前記他の色に置き換える設定をする、
請求項１～５のいずれか１項に記載の情報処理装置。

【請求項7】

背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段
として機能させ、
前記設定手段は、前記背景の画素の色の均一性に基づいて、前記他の色に置き換えるか否かを設定する、
プログラム。

【請求項8】

背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段、
前記変換手段が変換した前記ファイルを送信する送信手段
として機能させ、
前記設定手段は、前記送信手段が前記ファイルを送信するモードであるか否かに基づいて、前記他の色に置き換えるか否かを設定する、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像に含まれる文字列のテキストファイルを出力する情報処理装置およびプログラムに関する。

【背景技術】

【0002】

文書が印刷された用紙をスキャンし、ＯＣＲなどの文字認識によって当該文書の内容をＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。

【0003】

文字認識によってテキストデータを生成する技術として、例えば特開２００５－３５２７３５号公報（特許文献１）が挙げられる。特許文献１では、文字認識の確信度に基づいて、変換元の画像の文字部分の画素を消去するか否かを決定する技術が開示されている。特許文献１によれば、文字認識処理の認識結果の確認を容易に行うことができる。

【0004】

しかしながら、特許文献１を始めとする従来技術においては、背面画像を含めた再利用性が考慮されていなかったため、テキストファイルを再編集する観点からは利便性が充分なものではなかった。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、上記従来技術における課題に鑑みてなされたものであり、文字認識処理において背面画像の再利用性を向上したテキストファイルを出力する情報処理装置およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

すなわち、本発明によれば、
背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置であって、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段と、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段と
を含む、情報処理装置が提供される。

【発明の効果】

【0007】

本発明によれば、文字認識処理において背面画像の再利用性を向上したテキストファイルを出力する情報処理装置およびプログラムが提供できる。

【図面の簡単な説明】

【0008】

【図1】本実施形態におけるシステム全体のハードウェアの概略構成を示す図。

【図2】本実施形態の情報処理装置に含まれるハードウェア構成を示す図。

【図3】本実施形態の情報処理装置に含まれるソフトウェアブロック図。

【図4】本実施形態において画像からテキストファイルに変換する処理を示すフローチャート。

【図5】本実施形態におけるテキストファイル変換処理の具体的な例を示す図。

【図6】本実施形態において文字画素を置換する種々の例を示す図。

【図7】他の実施形態において画像からテキストファイルに変換する処理を示すフローチャート。

【発明を実施するための形態】

【0009】

以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。

【0010】

図１は、本実施形態におけるシステム１００全体のハードウェアの概略構成を示す図である。図１では、例として、情報処理装置１１０と、ＭＦＰ（Multi-Function Peripheral）１２０とが、インターネットやＬＡＮなどのネットワーク１３０を介して接続された環境を例示している。なお、情報処理装置１１０やＭＦＰ１２０から、ネットワーク１３０へ接続する方法は、有線または無線のどちらでもよい。

【0011】

情報処理装置１１０は、パソコン端末などの装置である。情報処理装置１１０は、ＭＦＰ１２０への印刷ジョブの送信、ＭＦＰ１２０がスキャンした画像の取得、当該画像のテキストファイル化、テキストファイルの表示、編集などの処理を行うことができる。

【0012】

ＭＦＰ１２０は、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。なお、他の実施形態では、ＭＦＰ１２０が画像を処理し、画像内の文字列をテキストファイルに変換することとしてもよい。

【0013】

次に、情報処理装置１１０のハードウェア構成について説明する。図２は、本実施形態の情報処理装置１１０に含まれるハードウェア構成を示す図である。情報処理装置１１０は、ＣＰＵ２１０と、ＲＡＭ２２０と、ＲＯＭ２３０と、記憶装置２４０と、通信Ｉ／Ｆ２５０と、ディスプレイ２６０と、入力装置２７０とを含んで構成され、各ハードウェアはバスを介して接続されている。

【0014】

ＣＰＵ２１０は、情報処理装置１１０の動作を制御するプログラムを実行し、所定の処理を行う装置である。ＲＡＭ２２０は、ＣＰＵ２１０が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ＲＯＭ２３０は、ＣＰＵ２１０が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。

【0015】

記憶装置２４０は、情報処理装置１１０を機能させるＯＳや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置２４０の一例としては、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などが挙げられる。

【0016】

通信Ｉ／Ｆ２５０は、情報処理装置１１０とネットワーク１３０とを接続し、ネットワーク１３０を介して他の装置との通信を可能にする。ネットワーク１３０を介した通信は、有線通信または無線通信のいずれであってもよく、ＴＣＰ／ＩＰなどの所定の通信プロトコルを使用し、各種データを送受信できる。

【0017】

ディスプレイ２６０は、各種データや情報処理装置１１０の状態などを、ユーザに対して表示する装置であり、例として、ＬＣＤ（Liquid Crystal Display）などが挙げられる。入力装置２７０は、ユーザが情報処理装置１１０を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ２６０と入力装置２７０は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。

【0018】

以上、本実施形態の情報処理装置１１０に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、図３を以て説明する。

【0019】

図３は、本実施形態の情報処理装置１１０に含まれるソフトウェアブロック図である。本実施形態の情報処理装置１１０は、文字認識部３１０、変換設定部３２０、テキストファイル変換部３３０、ファイル送信部３４０の各モジュールを含む。

【0020】

文字認識部３１０は、画像データに対してＯＣＲ（Optical Character Recognition）処理を行い、画像に含まれる文字を認識する手段である。文字認識の対象となる画像データは特に限定されず、例えば、ＭＦＰ１２０などがスキャンしたデータ、カメラで撮影したデータ、タッチパネルディスプレイを介して描画されたデータなどが挙げられる。

【0021】

文字認識部３１０は、例えば以下のようにして文字を認識する処理を行う。すなわち文字認識部３１０は、まず、画像に含まれる文字を囲う矩形領域を抽出する。そして、当該矩形領域に含まれる画素が、文字部分を構成する画素（以下、「文字画素」として参照する）であるか、背景部分を構成する画素（以下、「背景画素」として参照する）であるかを判定する。その後、文字認識部３１０は、文字画素の形状に基づいて、当該文字を認識する。

【0022】

なお、文字認識部３１０は、例えば文字の位置、大きさ、文字種などといった言語のルールに基づいて、文字を認識することができる。また、本実施形態の文字認識部３１０は、認識した各文字における文字認識の確からしさを示す確信度を算出できる。さらに本実施形態の文字認識部３１０は、文字認識処理の過程で、矩形領域における背景画素の色の均一性を算出することができる。

【0023】

なお、本実施形態における文字認識処理は、機械学習の学習効果によって行われてもよい。例えば、文字認識部３１０は、機械学習によって生成された辞書データベースに基づいて、画像に含まれる文字を認識することとしてもよい。

【0024】

ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを，事前に取り込まれる学習データから自律的に生成し，新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

【0025】

変換設定部３２０は、変換元の画像に含まれる文字画素の変換に関する設定を行う手段である。変換に関する設定は、一例として、文字画素の色を他の色に置き換える設定が挙げられる。なお、ここで「他の色に置き換える」とは、文字画素を消去することを含むものとする。また、「他の色」とは、特に実施形態を限定するものではないが、当該文字の背景画素に類似する色とすることができる。本実施形態の変換設定部３２０は、文字の確信度や背景の均一性に基づいて、変換の設定を行うことができる。また、変換設定部３２０は、複数の文字から構成される文字列を１つの単位として変換設定をすることができる。

【0026】

テキストファイル変換部３３０は、変換元となる画像に含まれる文字をテキストデータに変換して、ＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式のファイルを出力する手段である。テキストファイル変換部３３０は、変換設定部３２０が設定した文字画素の変換設定に基づく背面画像に、文字認識部３１０が認識したテキストを重畳することで、画像をテキストファイルに変換する。テキストファイル変換部３３０が出力するテキストファイルは、記憶装置２４０に格納されたり、他の装置に送信されたりして、テキストの再編集の用に供される。

【0027】

ファイル送信部３４０は、通信Ｉ／Ｆ２５０を制御し、テキストファイル変換部３３０が出力したテキストファイルを、ネットワーク１３０を介して他の装置に送信する手段である。

【0028】

なお、上述したソフトウェアブロックは、ＣＰＵ２１０が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。

【0029】

さらに、上述した各機能手段は、必ずしも全てが図３に示すような構成で含まれていなくてもよい。例えば、他の好ましい実施形態では、各機能手段は、情報処理装置１１０と、ＭＦＰ１２０との協働によって実現されてもよい。

【0030】

次に、上述した各機能手段が実行する処理について、図４を以て説明する。図４は、本実施形態において画像からテキストファイルに変換する処理を示すフローチャートである。

【0031】

本実施形態の情報処理装置１１０は、ステップＳ１０００から、画像からテキストファイルに変換する処理を開始する。ステップＳ１００１では、文字認識部３１０は、画像に含まれる文字を認識する。また、ステップＳ１００１において文字認識部３１０は、文字認識を行うとともに、各文字の確信度や文字領域の背景画素の色の均一性を算出する。ステップＳ１００１において認識された文字は、確信度および背景均一性と併せて、情報処理装置１１０の記憶領域に格納される。

【0032】

次に、ステップＳ１００２において変換設定部３２０は、ステップＳ１００１で記憶領域に格納された文字から、処理対象とする文字を取得する。

【0033】

その後、ステップＳ１００３では、処理対象の文字の背景画素が均一であるか否かによって処理を分岐する。背景画素色の均一性が所定の閾値よりも小さいである場合には、当該背景画素色が非均一であるとして（ＮＯ）、ステップＳ１００６に進む。ステップＳ１００６の処理の詳細は後述する。一方で、背景画素の均一性が所定の閾値以上である場合には、当該背景画素が均一であるとして（ＹＥＳ）、ステップＳ１００４に進む。

【0034】

ステップＳ１００４では、処理対象の文字の確信度が所定の閾値以上であるか否かによって処理を分岐する。確信度が閾値よりも小さい場合には（ＮＯ）、ステップＳ１００６に進む。確信度が閾値以上である場合には（ＹＥＳ）、ステップＳ１００５に進む。ステップＳ１００５では、変換設定部３２０は、処理対象の文字について、当該文字の文字画素を他の色に変換するものと設定する。

【0035】

一方で、ステップＳ１００３において背景画素が均一でない場合（ＮＯ）、またはステップＳ１００４において確信度が閾値よりも小さい場合（ＮＯ）には、変換設定部３２０は、ステップＳ１００６の処理を行う。ステップＳ１００６では、変換設定部３２０は、処理対象の文字について、当該文字の文字画素を残すものと設定する。

【0036】

ステップＳ１００５またはＳ１００６において、文字画素の変換設定を行った後、ステップＳ１００７に進む。ステップＳ１００７では、ステップＳ１００１において記憶領域に格納された全ての文字について、文字画素の変換設定をしたか否かによって処理を分岐する。全ての文字の変換設定をしていない場合（ＮＯ）、すなわち処理対象となる文字が残っている場合には、ステップＳ１００２に戻り、全ての文字について変換設定が完了するまで上述したステップＳ１００２～Ｓ１００６の処理を繰り返す。一方で、全ての文字の変換設定をした場合には（ＹＥＳ）、ステップＳ１００８に進む。

【0037】

ステップＳ１００８では、テキストファイル変換部３３０は、変換設定部３２０が設定した文字画素の変換設定および文字認識部３１０が認識したテキストに基づいて、画像をテキストファイルに変換する。テキストファイルは、記憶装置２４０に格納され、または他の装置に送信される。その後、ステップＳ１００９において、情報処理装置１１０は、画像からテキストファイルに変換する処理を終了する。

【0038】

図４において説明した処理によって、情報処理装置１１０は、文字認識の確信度が高く、かつ、背景画素の色が均一である文字の文字画素については、当該文字画素を消去したり、他の色に置き換えたりでき、テキストが重畳される背面画像の再利用性を向上することができる。一方で、文字認識の確信度が低かったり、背景画素の色が非均一であったりする場合には、当該文字の文字画素を残したままテキストを重畳するため、ユーザが文字認識の誤検出を把握しやすくできる。

【0039】

次に、上述した図４のテキストファイル変換処理を、より具体的な例を以て説明する。図５は、本実施形態におけるテキストファイル変換処理の具体的な例を示す図である。図５（ａ）は、変換元となる画像の例である。以下の説明では、図５（ａ）に示すように、「サンプル画像」という文字を含む画像をテキストファイルに変換する場合を例示する。また、図５（ａ）に示すように変換元画像には、文字以外に濃い色の背景が含まれる。

【0040】

文字認識部３１０が図５（ａ）に示す変換元画像について文字認識処理をした場合を考える。文字認識部３１０が図５（ａ）の画像を文字認識処理すると、まず図５（ｂ）に示すように、各文字を囲う文字矩形が抽出される。なお、図５（ｂ）における矩形の枠線は、説明の便宜のために描画したものであって、変換処理に影響するものではない点に留意されたい。図５（ｂ）では、「サ」、「ン」、「プ」、「ル」、「画」、「像」の各文字を囲う文字矩形が抽出される。「サ」の文字矩形は、背景が白色で均一である。「プ」、「ル」、「画」の文字矩形は、背景が濃い色で均一である。「ン」、「像」の文字矩形は、背景の色が非均一であり、白色の背景画素と濃い色の背景画素とが混在している。

【0041】

文字認識部３１０は、図５（ｂ）のように抽出された各文字矩形を構成する各画素が、文字画素であるか背景画素であるかを判定し、文字矩形内の文字画素の形状に基づいて文字を認識する。なお、以下に説明する実施形態では、変換元の画像が「サンプル画像」という文字を含んでいるが、文字認識の結果、「サンプル面像」という文字が認識された場合を例示する（すなわち、変換元画像の「画」が「面」であると誤って認識されたものとする）。

【0042】

図５（ｃ）は、認識された各文字の確信度および背景画素の色の均一性の評価を示している。変換設定部３２０は、確信度および均一性に基づいて、各文字の文字画素を他の色に置換するか否かの設定をする（図４のステップＳ１００３～Ｓ１００６参照）。

【0043】

図５（ｃ）に示す例では、「サ」、「ン」、「プ」、「ル」、「像」の各文字は、変換元の画像の文字を正確に認識していることから、確信度が高いものとして評価される。一方で、図５（ｃ）の「面」の文字は、変換元の画像の文字「画」を誤認識したものであることから、確信度が低いものとして評価される。なお、図５（ｃ）の例では、確信度は「高」と「低」の２段階で評価されているが、特に実施形態を限定するものではない。したがって、確信度は、その値に応じた３段階以上の評価としてもよい。

【0044】

また、図５（ｃ）に示す例では、「サ」、「プ」、「ル」、「面」の各文字は、背景が均一であると評価される。一方で、図５（ｃ）の「ン」、「像」の各文字は、背景が非均一であると評価される。なお、背景画素の均一性は、一例として、以下のような算出方法で求めることができる。すなわち、矩形領域内の背景画素の色の平均値に対する各背景画素の色の差の絶対値の総和を算出し、その値と所定の閾値とを比較することで、背景画素の均一性を求めることができる。但し、上述した方法は一例であって、特に実施形態を限定するものではなく、背景画素の均一性は種々の方法によって算出され得る。

【0045】

変換設定部３２０は、上記のようにして判定された確信度および背景画素の色の均一性に基づいて、各文字画素を他の色に置換するか否かを設定する。図５（ｃ）に示す例では、「サ」、「プ」、「ル」の各文字は、確信度が高く、かつ背景画素の色が均一であることから、文字画素を他の色に置換するものとして設定される。また、「ン」、「像」の各文字は、背景画素の色が非均一であることから、文字画素の色を他の色に置換すると背面画像の再利用性が低下するため、文字画素を他の色に置換しないものとして設定される。また、「面」の文字は、文字確信度が低いことから、文字画素の色を他の色に置換すると文字の誤認識を把握しにくくなるため、文字画素を他の色に置換しないものとして設定される。

【0046】

図５（ｄ）は、図５（ｃ）の設定に基づいて、文字画素を置換した例を示している。すなわち、「サ」、「プ」、「ル」の各文字の文字画素が、各文字矩形の背景画素の色に置換されている。テキストファイル変換部３３０は、図５（ｄ）に示す画像を背面画像とし、当該背面画像にテキストデータを重畳することで、画像をテキストファイルに変換する。

【0047】

図５（ｅ）は、文字認識部３１０が認識したテキストデータを示している。説明する実施形態の例では、「サンプル面像」という文字が認識されていることから、当該文字をテキストデータとして、背面画像に重畳する。

【0048】

図５（ｆ）は、本実施形態のテキストファイル変換部３３０が画像を変換して生成したテキストファイルの例を示している。すなわち、テキストファイル変換部３３０は図５（ｆ）に示すように、図５（ｄ）の背面画像に、図５（ｅ）のテキストデータを重畳したテキストファイルを出力する。説明する実施形態において変換されたテキストファイルは、図５（ｆ）に示すように、背面画像の「画」の文字画素と、テキストデータの「面」の文字とが重複している。したがって、ユーザが当該テキストファイルを読んだ際に文字の不自然さから文字認識に誤りがあったことを把握しやすくなる。また、背面画像には「画」の文字画素が残っていることから、ユーザは変換元の画像に含まれていた文字を知ることができ、テキストファイルを再編集して文字認識の誤りを修正することができる。

【0049】

なお、図５に示した文字画素の置換は一例であって、文字画素を置換する方法は上述したものに限定されない。以下では、文字画素の置換の他の例について図６を以て説明する。図６は、本実施形態において文字画素を置換する種々の例を示す図である。

【0050】

まず、図６（ａ）の例について説明する。図６（ａ）は、背景画素の色が均一であって、文字認識の確信度が中程度である場合における、文字画素を置換する例を示している。図６（ａ）は、図５（ａ）の画像を文字認識した例を示している。ここで、変換元の画像に含まれる「サンプル画像」という文字のうち、「サ」、「プ」、「ル」、「画」の各文字が中程度の確信度で認識された場合について考える。

【0051】

図５における文字画素の置換は、文字認識の確信度が高い場合には文字画素を置換する設定にし、確信度が低い場合には文字画素を残す設定にするものであった。しかしながら、文字認識の確信度が中程度である場合には、背景画素の色に置換するか、文字画素を残すかを択一的に設定するよりも、背景画素の色以外の色に置換することが好ましい場合がある。例えば、文字画素を下記式（１－１）～（１－３）のようにして算出される色に置換することで、再利用性と誤認識の把握とを両立した背面画像とすることができる。

【0052】

【数1】

【0053】

上記の式（１－１）～（１－３）におけるＲ，Ｇ，Ｂは、文字画素を置換する色のＲＧＢ値を示している。式中のＲｂａｃｋ，Ｇｂａｃｋ，Ｂｂａｃｋは、変換元の画像における背景画素の色のＲＧＢ値を示している。式中のＲｃｈａｒ，Ｇｃｈａｒ，Ｂｃｈａｒは、変換元の画像における文字画素の色のＲＧＢ値を示している。上記式（１－１）～（１－３）では、背景画素の色と文字画素の色とを３：１の割合で混合した色に置換する例を示している。確信度が中程度の文字画素を背景画素の割合が高い色に置換することで、確信度が低い文字画素との差異を出しやすくできる。なお、背景画素と文字画素とを混合する割合は、任意に設定することができる。

【0054】

確信度が中程度の文字画素を、上記式（１－１）～（１－３）で算出された色に置換することで、図６（ａ）に示すように、「サ」、「プ」、「ル」、「画」の文字画素が背景画素とは異なる色に置換された画像が背面画像となる。したがって、中程度の確信度で認識された文字が間違っていた場合（例えば「画」の文字が「面」として認識された場合など）には、テキストファイルの変換処理においてテキストデータを重畳すると、背面画像の文字画素とテキストデータの重複によってユーザが誤認識を把握しやすくなる。また、文字同士の干渉が小さいため、テキストが見やすくなる。一方で、文字認識が間違っていない文字については、背面画像の再利用性を確保しつつ、容易に文字の再編集を行うことができる。

【0055】

次に図６（ｂ）の例について説明する。図６（ｂ）は、背景画素の色が非均一である文字矩形における、文字画素を置換する例を示している。図６（ｂ）は、図５（ａ）の画像を文字認識した例を示している。ここで、変換元の画像に含まれる「サンプル画像」という文字のうち、「ン」、「像」の各文字の背景画素の色が非均一であって、確信度が中程度以上で認識された場合について考える。

【0056】

図５における文字画素の置換は、背景画素の色が均一である場合には文字画素を置換する設定にし、非均一である場合には文字画素を残す設定にするものであった。図６（ｂ）に示す例では、背景画素の色が非均一であっても、文字認識の確信度がある程度高い場合には、文字画素の色を、背景画素の色と文字画素の色との中間程度の色に置換する。例えば、文字画素を下記式（２－１）～（２－３）のようにして算出される色に置換する。

【0057】

【数2】

【0058】

上記の式（２－１）～（２－３）におけるＲ，Ｇ，Ｂ，Ｒｂａｃｋ，Ｇｂａｃｋ，Ｂｂａｃｋ，Ｒｃｈａｒ，Ｇｃｈａｒ，Ｂｃｈａｒは、式（１－１）～（１－３）のものと同様である。上記式（２－１）～（２－３）では、背景画素の色と文字画素の色とを平均化した色に置換する例を示している。

【0059】

背景画素の色が非均一であって、文字認識の確信度が比較的高い文字画素を上記式（２－１）～（２－３）で産出された色に置換することで、図６（ｂ）に示すように、「ン」、「像」の各文字画素は、背景画素の色に近い色に置換される。

【0060】

なお、本実施形態の情報処理装置１１０が変換したテキストファイルを他の装置に送信する場合には、テキストファイルの送信先における再利用性を考慮して、変換設定部３２０は、文字画素を消去しない形態で置換することとしてもよい。すなわち、変換したテキストファイルを他の装置に送信するモードである場合に、変換設定部３２０は、図５（ｄ）の「サ」、「プ」、「ル」などの文字画素のように背景画素と同じ色に置換する設定とせず、図６（ａ），（ｂ）などのように、変換元の文字画素が認識できる形態で置換する設定とする。テキストファイルを他の装置に送信する場合には、テキストファイルを受信する他の装置では変換元の画像の内容を知り得ないことから、文字画素の置換を上述したように設定することで、文字認識に誤りがあった場合にも、テキストファイルの受信者が適切に修正することができる。

【0061】

ここまで説明した実施形態は、文字画素を他の色に置換するか否かの設定を文字ごとに行うものであった。しかしながら、上述した説明は特に実施形態を限定するものではない。したがって、他の好ましい事しい形態においては、例えば文字列ごとに設定を行うものであってもよい。以下では、文字列ごとに文字画素の置換を行うか否かを設定する実施形態について、図７を以て説明する。図７は、他の実施形態において画像からテキストファイルに変換する処理を示すフローチャートである。なお、図７の説明において、図４で説明した処理と共通する処理は、適宜詳細を省略する。

【0062】

情報処理装置１１０は、ステップＳ２０００から、画像からテキストファイルに変換する処理を開始する。ステップＳ２００１では、文字認識部３１０は、図４のステップＳ１００１の処理と同様にして、画像に含まれる文字を認識する。また、文字認識部３１０は、ステップＳ２００１において、認識した各文字の近接関係などに基づいて、複数の文字から構成される文字列を抽出する。なお、文字列の抽出をする方法は、上述したものに限られず、既知の方法を採用することができる。抽出された文字列は、情報処理装置１１０の記憶領域に格納される。

【0063】

次に、ステップＳ２００２において変換設定部３２０は、ステップＳ２００１で記憶領域に格納された文字列から、処理対象とする文字列を取得する。

【0064】

その後、ステップＳ２００３では、処理対象の文字列の背景画素が均一であるか否かによって処理を分岐する。文字列を構成する各文字の背景画素色の均一性が所定の閾値よりも小さいである場合には、当該背景画素色が非均一であるとして（ＮＯ）、ステップＳ２００６に進む。一方で、文字列を構成する各文字の背景画素の均一性が所定の閾値以上である場合には、当該背景画素が均一であるとして（ＹＥＳ）、ステップＳ２００４に進む。

【0065】

ステップＳ２００４では、処理対象の文字列を構成する各文字のうち、所定の確信度よりも高い文字の割合（以下、「高確信度文字率」として参照する）が、所定の閾値以上であるか否かによって処理を分岐する。高確信度文字率が閾値よりも小さい場合には（ＮＯ）、ステップＳ２００６に進む。高確信度文字率が閾値以上である場合には（ＹＥＳ）、ステップＳ２００５に進む。ステップＳ２００５では、変換設定部３２０は、処理対象の文字列について、当該文字列を構成する各文字の文字画素を他の色に変換するものと設定する。

【0066】

一方で、ステップＳ２００３において背景画素が均一でない場合（ＮＯ）、またはステップＳ２００４において高確信度文字率が閾値よりも小さい場合（ＮＯ）には、変換設定部３２０は、ステップＳ２００６の処理を行う。ステップＳ２００６では、変換設定部３２０は、処理対象の文字列について、当該文字列を構成する各文字の文字画素を残すものと設定する。

【0067】

ステップＳ２００５またはＳ２００６において、文字画素の変換設定を行った後、ステップＳ２００７に進む。ステップＳ２００７では、ステップＳ２００１において記憶領域に格納された全ての文字列について、文字画素の変換設定をしたか否かによって処理を分岐する。全ての文字列の変換設定をしていない場合（ＮＯ）、すなわち処理対象となる文字列が残っている場合には、ステップＳ２００２に戻り、全ての文字列について変換設定が完了するまで上述したステップＳ２００２～Ｓ２００６の処理を繰り返す。一方で、全ての文字列の変換設定をした場合には（ＹＥＳ）、ステップＳ２００８に進む。

【0068】

ステップＳ２００８では、テキストファイル変換部３３０は、変換設定部３２０が設定した文字画素の変換設定および文字認識部３１０が認識したテキストに基づいて、画像をテキストファイルに変換する。ステップＳ２００８の処理は、図４のステップＳ１００８の処理と同様である。その後、ステップＳ１００９において、情報処理装置１１０は、画像からテキストファイルに変換する処理を終了する。

【0069】

図７に示した処理によって、情報処理装置１１０は、文字画素を他の色に置換するか否を文字列ごとにまとめて設定できることから、均一な背景に対して文字列中の１または２以上の文字の文字画素だけが残るような背面画像となるのを防止できる。

【0070】

以上、説明した本発明の実施形態によれば、文字認識処理において背面画像の再利用性を向上したテキストファイルを出力する情報処理装置およびプログラムを提供することができる。

【0071】

上述した本発明の実施形態の各機能は、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、フレキシブルディスク、ＥＥＰＲＯＭ（登録商標）、ＥＰＲＯＭ等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。

【0072】

上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュールなどのデバイスを含むものとする。

【0073】

以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

【符号の説明】

【0074】

００…システム、１１０…情報処理装置、１２０…ＭＦＰ、１３０…ネットワーク、２１０…ＣＰＵ、２２０…ＲＡＭ、２３０…ＲＯＭ、２４０…記憶装置、２５０…通信Ｉ／Ｆ、２６０…ディスプレイ、２７０…入力装置、３１０…文字認識部、３２０…変換設定部、３３０…テキストファイル変換部、３４０…ファイル送信部

【先行技術文献】

【特許文献】

【0075】

【文献】特開２００５－３５２７３５号公報

【図1】