(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】情報処理装置およびプログラム
(51)【国際特許分類】
G06V 30/12 20220101AFI20240910BHJP
H04N 1/387 20060101ALI20240910BHJP
G06T 1/00 20060101ALI20240910BHJP
【FI】
G06V30/12 J
H04N1/387 110
G06T1/00 310Z
(21)【出願番号】P 2020125342
(22)【出願日】2020-07-22
【審査請求日】2023-05-11
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(74)【代理人】
【識別番号】100110607
【氏名又は名称】間山 進也
(72)【発明者】
【氏名】大内 敏
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2016-046763(JP,A)
【文献】特開2001-331765(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/12
H04N 1/387
G06T 1/00
(57)【特許請求の範囲】
【請求項1】
背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置であって、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段と、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段と
を含
み、
前記設定手段は、前記背景の画素の色の均一性に基づいて、前記他の色に置き換えるか否かを設定する、
情報処理装置。
【請求項2】
背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置であって、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段と、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段と、
前記変換手段が変換した前記ファイルを送信する送信手段
と
を含み、
前記設定手段は、前記送信手段が前記ファイルを送信するモードであるか否かに基づいて、前記他の色に置き換えるか否かを設定する、
情報処理装置。
【請求項3】
前記設定手段は、前記認識手段による文字認識の確信度に基づいて、前記他の色に置き換えるか否かを設定する、
請求項1または2に記載の情報処理装置。
【請求項4】
前記設定手段は、前記背景の色および前記文字部分の色に基づいて前記他の色を設定する、請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
前記設定手段は、前記認識手段による文字認識の確信度に基づいて前記他の色を設定する、請求項1~4のいずれか1項に記載の情報処理装置。
【請求項6】
前記設定手段は、
前記認識手段が認識した文字列が、所定の確信度よりも高い文字を含む割合が所定の値よりも大きい場合に、当該文字列を構成する文字の画素を前記他の色に置き換える設定をする、
請求項1~5のいずれか1項に記載の情報処理装置。
【請求項7】
背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段
として機能させ
、
前記設定手段は、前記背景の画素の色の均一性に基づいて、前記他の色に置き換えるか否かを設定する、
プログラム。
【請求項8】
背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段、
前記変換手段が変換した前記ファイルを送信する送信手段
として機能させ、
前記設定手段は、前記送信手段が前記ファイルを送信するモードであるか否かに基づいて、前記他の色に置き換えるか否かを設定する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に含まれる文字列のテキストファイルを出力する情報処理装置およびプログラムに関する。
【背景技術】
【0002】
文書が印刷された用紙をスキャンし、OCRなどの文字認識によって当該文書の内容をOffice Open XML Document形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。
【0003】
文字認識によってテキストデータを生成する技術として、例えば特開2005-352735号公報(特許文献1)が挙げられる。特許文献1では、文字認識の確信度に基づいて、変換元の画像の文字部分の画素を消去するか否かを決定する技術が開示されている。特許文献1によれば、文字認識処理の認識結果の確認を容易に行うことができる。
【0004】
しかしながら、特許文献1を始めとする従来技術においては、背面画像を含めた再利用性が考慮されていなかったため、テキストファイルを再編集する観点からは利便性が充分なものではなかった。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記従来技術における課題に鑑みてなされたものであり、文字認識処理において背面画像の再利用性を向上したテキストファイルを出力する情報処理装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
すなわち、本発明によれば、
背景および文字を含む画像内の前記文字を認識する認識手段を備える情報処理装置であって、
前記画像の文字部分の画素を他の色に置き換えるか否かを設定する設定手段と、
前記画像を、前記設定手段による設定に基づく背面画像に前記認識手段が認識したテキストを重畳したファイルに変換する変換手段と
を含む、情報処理装置が提供される。
【発明の効果】
【0007】
本発明によれば、文字認識処理において背面画像の再利用性を向上したテキストファイルを出力する情報処理装置およびプログラムが提供できる。
【図面の簡単な説明】
【0008】
【
図1】本実施形態におけるシステム全体のハードウェアの概略構成を示す図。
【
図2】本実施形態の情報処理装置に含まれるハードウェア構成を示す図。
【
図3】本実施形態の情報処理装置に含まれるソフトウェアブロック図。
【
図4】本実施形態において画像からテキストファイルに変換する処理を示すフローチャート。
【
図5】本実施形態におけるテキストファイル変換処理の具体的な例を示す図。
【
図6】本実施形態において文字画素を置換する種々の例を示す図。
【
図7】他の実施形態において画像からテキストファイルに変換する処理を示すフローチャート。
【発明を実施するための形態】
【0009】
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。
【0010】
図1は、本実施形態におけるシステム100全体のハードウェアの概略構成を示す図である。
図1では、例として、情報処理装置110と、MFP(Multi-Function Peripheral)120とが、インターネットやLANなどのネットワーク130を介して接続された環境を例示している。なお、情報処理装置110やMFP120から、ネットワーク130へ接続する方法は、有線または無線のどちらでもよい。
【0011】
情報処理装置110は、パソコン端末などの装置である。情報処理装置110は、MFP120への印刷ジョブの送信、MFP120がスキャンした画像の取得、当該画像のテキストファイル化、テキストファイルの表示、編集などの処理を行うことができる。
【0012】
MFP120は、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。なお、他の実施形態では、MFP120が画像を処理し、画像内の文字列をテキストファイルに変換することとしてもよい。
【0013】
次に、情報処理装置110のハードウェア構成について説明する。
図2は、本実施形態の情報処理装置110に含まれるハードウェア構成を示す図である。情報処理装置110は、CPU210と、RAM220と、ROM230と、記憶装置240と、通信I/F250と、ディスプレイ260と、入力装置270とを含んで構成され、各ハードウェアはバスを介して接続されている。
【0014】
CPU210は、情報処理装置110の動作を制御するプログラムを実行し、所定の処理を行う装置である。RAM220は、CPU210が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ROM230は、CPU210が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。
【0015】
記憶装置240は、情報処理装置110を機能させるOSや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置240の一例としては、HDD(Hard Disk Drive)やSSD(Solid State Drive)などが挙げられる。
【0016】
通信I/F250は、情報処理装置110とネットワーク130とを接続し、ネットワーク130を介して他の装置との通信を可能にする。ネットワーク130を介した通信は、有線通信または無線通信のいずれであってもよく、TCP/IPなどの所定の通信プロトコルを使用し、各種データを送受信できる。
【0017】
ディスプレイ260は、各種データや情報処理装置110の状態などを、ユーザに対して表示する装置であり、例として、LCD(Liquid Crystal Display)などが挙げられる。入力装置270は、ユーザが情報処理装置110を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ260と入力装置270は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。
【0018】
以上、本実施形態の情報処理装置110に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、
図3を以て説明する。
【0019】
図3は、本実施形態の情報処理装置110に含まれるソフトウェアブロック図である。本実施形態の情報処理装置110は、文字認識部310、変換設定部320、テキストファイル変換部330、ファイル送信部340の各モジュールを含む。
【0020】
文字認識部310は、画像データに対してOCR(Optical Character Recognition)処理を行い、画像に含まれる文字を認識する手段である。文字認識の対象となる画像データは特に限定されず、例えば、MFP120などがスキャンしたデータ、カメラで撮影したデータ、タッチパネルディスプレイを介して描画されたデータなどが挙げられる。
【0021】
文字認識部310は、例えば以下のようにして文字を認識する処理を行う。すなわち文字認識部310は、まず、画像に含まれる文字を囲う矩形領域を抽出する。そして、当該矩形領域に含まれる画素が、文字部分を構成する画素(以下、「文字画素」として参照する)であるか、背景部分を構成する画素(以下、「背景画素」として参照する)であるかを判定する。その後、文字認識部310は、文字画素の形状に基づいて、当該文字を認識する。
【0022】
なお、文字認識部310は、例えば文字の位置、大きさ、文字種などといった言語のルールに基づいて、文字を認識することができる。また、本実施形態の文字認識部310は、認識した各文字における文字認識の確からしさを示す確信度を算出できる。さらに本実施形態の文字認識部310は、文字認識処理の過程で、矩形領域における背景画素の色の均一性を算出することができる。
【0023】
なお、本実施形態における文字認識処理は、機械学習の学習効果によって行われてもよい。例えば、文字認識部310は、機械学習によって生成された辞書データベースに基づいて、画像に含まれる文字を認識することとしてもよい。
【0024】
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0025】
変換設定部320は、変換元の画像に含まれる文字画素の変換に関する設定を行う手段である。変換に関する設定は、一例として、文字画素の色を他の色に置き換える設定が挙げられる。なお、ここで「他の色に置き換える」とは、文字画素を消去することを含むものとする。また、「他の色」とは、特に実施形態を限定するものではないが、当該文字の背景画素に類似する色とすることができる。本実施形態の変換設定部320は、文字の確信度や背景の均一性に基づいて、変換の設定を行うことができる。また、変換設定部320は、複数の文字から構成される文字列を1つの単位として変換設定をすることができる。
【0026】
テキストファイル変換部330は、変換元となる画像に含まれる文字をテキストデータに変換して、Office Open XML Document形式のファイルを出力する手段である。テキストファイル変換部330は、変換設定部320が設定した文字画素の変換設定に基づく背面画像に、文字認識部310が認識したテキストを重畳することで、画像をテキストファイルに変換する。テキストファイル変換部330が出力するテキストファイルは、記憶装置240に格納されたり、他の装置に送信されたりして、テキストの再編集の用に供される。
【0027】
ファイル送信部340は、通信I/F250を制御し、テキストファイル変換部330が出力したテキストファイルを、ネットワーク130を介して他の装置に送信する手段である。
【0028】
なお、上述したソフトウェアブロックは、CPU210が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。
【0029】
さらに、上述した各機能手段は、必ずしも全てが
図3に示すような構成で含まれていなくてもよい。例えば、他の好ましい実施形態では、各機能手段は、情報処理装置110と、MFP120との協働によって実現されてもよい。
【0030】
次に、上述した各機能手段が実行する処理について、
図4を以て説明する。
図4は、本実施形態において画像からテキストファイルに変換する処理を示すフローチャートである。
【0031】
本実施形態の情報処理装置110は、ステップS1000から、画像からテキストファイルに変換する処理を開始する。ステップS1001では、文字認識部310は、画像に含まれる文字を認識する。また、ステップS1001において文字認識部310は、文字認識を行うとともに、各文字の確信度や文字領域の背景画素の色の均一性を算出する。ステップS1001において認識された文字は、確信度および背景均一性と併せて、情報処理装置110の記憶領域に格納される。
【0032】
次に、ステップS1002において変換設定部320は、ステップS1001で記憶領域に格納された文字から、処理対象とする文字を取得する。
【0033】
その後、ステップS1003では、処理対象の文字の背景画素が均一であるか否かによって処理を分岐する。背景画素色の均一性が所定の閾値よりも小さいである場合には、当該背景画素色が非均一であるとして(NO)、ステップS1006に進む。ステップS1006の処理の詳細は後述する。一方で、背景画素の均一性が所定の閾値以上である場合には、当該背景画素が均一であるとして(YES)、ステップS1004に進む。
【0034】
ステップS1004では、処理対象の文字の確信度が所定の閾値以上であるか否かによって処理を分岐する。確信度が閾値よりも小さい場合には(NO)、ステップS1006に進む。確信度が閾値以上である場合には(YES)、ステップS1005に進む。ステップS1005では、変換設定部320は、処理対象の文字について、当該文字の文字画素を他の色に変換するものと設定する。
【0035】
一方で、ステップS1003において背景画素が均一でない場合(NO)、またはステップS1004において確信度が閾値よりも小さい場合(NO)には、変換設定部320は、ステップS1006の処理を行う。ステップS1006では、変換設定部320は、処理対象の文字について、当該文字の文字画素を残すものと設定する。
【0036】
ステップS1005またはS1006において、文字画素の変換設定を行った後、ステップS1007に進む。ステップS1007では、ステップS1001において記憶領域に格納された全ての文字について、文字画素の変換設定をしたか否かによって処理を分岐する。全ての文字の変換設定をしていない場合(NO)、すなわち処理対象となる文字が残っている場合には、ステップS1002に戻り、全ての文字について変換設定が完了するまで上述したステップS1002~S1006の処理を繰り返す。一方で、全ての文字の変換設定をした場合には(YES)、ステップS1008に進む。
【0037】
ステップS1008では、テキストファイル変換部330は、変換設定部320が設定した文字画素の変換設定および文字認識部310が認識したテキストに基づいて、画像をテキストファイルに変換する。テキストファイルは、記憶装置240に格納され、または他の装置に送信される。その後、ステップS1009において、情報処理装置110は、画像からテキストファイルに変換する処理を終了する。
【0038】
図4において説明した処理によって、情報処理装置110は、文字認識の確信度が高く、かつ、背景画素の色が均一である文字の文字画素については、当該文字画素を消去したり、他の色に置き換えたりでき、テキストが重畳される背面画像の再利用性を向上することができる。一方で、文字認識の確信度が低かったり、背景画素の色が非均一であったりする場合には、当該文字の文字画素を残したままテキストを重畳するため、ユーザが文字認識の誤検出を把握しやすくできる。
【0039】
次に、上述した
図4のテキストファイル変換処理を、より具体的な例を以て説明する。
図5は、本実施形態におけるテキストファイル変換処理の具体的な例を示す図である。
図5(a)は、変換元となる画像の例である。以下の説明では、
図5(a)に示すように、「サンプル画像」という文字を含む画像をテキストファイルに変換する場合を例示する。また、
図5(a)に示すように変換元画像には、文字以外に濃い色の背景が含まれる。
【0040】
文字認識部310が
図5(a)に示す変換元画像について文字認識処理をした場合を考える。文字認識部310が
図5(a)の画像を文字認識処理すると、まず
図5(b)に示すように、各文字を囲う文字矩形が抽出される。なお、
図5(b)における矩形の枠線は、説明の便宜のために描画したものであって、変換処理に影響するものではない点に留意されたい。
図5(b)では、「サ」、「ン」、「プ」、「ル」、「画」、「像」の各文字を囲う文字矩形が抽出される。「サ」の文字矩形は、背景が白色で均一である。「プ」、「ル」、「画」の文字矩形は、背景が濃い色で均一である。「ン」、「像」の文字矩形は、背景の色が非均一であり、白色の背景画素と濃い色の背景画素とが混在している。
【0041】
文字認識部310は、
図5(b)のように抽出された各文字矩形を構成する各画素が、文字画素であるか背景画素であるかを判定し、文字矩形内の文字画素の形状に基づいて文字を認識する。なお、以下に説明する実施形態では、変換元の画像が「サンプル画像」という文字を含んでいるが、文字認識の結果、「サンプル面像」という文字が認識された場合を例示する(すなわち、変換元画像の「画」が「面」であると誤って認識されたものとする)。
【0042】
図5(c)は、認識された各文字の確信度および背景画素の色の均一性の評価を示している。変換設定部320は、確信度および均一性に基づいて、各文字の文字画素を他の色に置換するか否かの設定をする(
図4のステップS1003~S1006参照)。
【0043】
図5(c)に示す例では、「サ」、「ン」、「プ」、「ル」、「像」の各文字は、変換元の画像の文字を正確に認識していることから、確信度が高いものとして評価される。一方で、
図5(c)の「面」の文字は、変換元の画像の文字「画」を誤認識したものであることから、確信度が低いものとして評価される。なお、
図5(c)の例では、確信度は「高」と「低」の2段階で評価されているが、特に実施形態を限定するものではない。したがって、確信度は、その値に応じた3段階以上の評価としてもよい。
【0044】
また、
図5(c)に示す例では、「サ」、「プ」、「ル」、「面」の各文字は、背景が均一であると評価される。一方で、
図5(c)の「ン」、「像」の各文字は、背景が非均一であると評価される。なお、背景画素の均一性は、一例として、以下のような算出方法で求めることができる。すなわち、矩形領域内の背景画素の色の平均値に対する各背景画素の色の差の絶対値の総和を算出し、その値と所定の閾値とを比較することで、背景画素の均一性を求めることができる。但し、上述した方法は一例であって、特に実施形態を限定するものではなく、背景画素の均一性は種々の方法によって算出され得る。
【0045】
変換設定部320は、上記のようにして判定された確信度および背景画素の色の均一性に基づいて、各文字画素を他の色に置換するか否かを設定する。
図5(c)に示す例では、「サ」、「プ」、「ル」の各文字は、確信度が高く、かつ背景画素の色が均一であることから、文字画素を他の色に置換するものとして設定される。また、「ン」、「像」の各文字は、背景画素の色が非均一であることから、文字画素の色を他の色に置換すると背面画像の再利用性が低下するため、文字画素を他の色に置換しないものとして設定される。また、「面」の文字は、文字確信度が低いことから、文字画素の色を他の色に置換すると文字の誤認識を把握しにくくなるため、文字画素を他の色に置換しないものとして設定される。
【0046】
図5(d)は、
図5(c)の設定に基づいて、文字画素を置換した例を示している。すなわち、「サ」、「プ」、「ル」の各文字の文字画素が、各文字矩形の背景画素の色に置換されている。テキストファイル変換部330は、
図5(d)に示す画像を背面画像とし、当該背面画像にテキストデータを重畳することで、画像をテキストファイルに変換する。
【0047】
図5(e)は、文字認識部310が認識したテキストデータを示している。説明する実施形態の例では、「サンプル面像」という文字が認識されていることから、当該文字をテキストデータとして、背面画像に重畳する。
【0048】
図5(f)は、本実施形態のテキストファイル変換部330が画像を変換して生成したテキストファイルの例を示している。すなわち、テキストファイル変換部330は
図5(f)に示すように、
図5(d)の背面画像に、
図5(e)のテキストデータを重畳したテキストファイルを出力する。説明する実施形態において変換されたテキストファイルは、
図5(f)に示すように、背面画像の「画」の文字画素と、テキストデータの「面」の文字とが重複している。したがって、ユーザが当該テキストファイルを読んだ際に文字の不自然さから文字認識に誤りがあったことを把握しやすくなる。また、背面画像には「画」の文字画素が残っていることから、ユーザは変換元の画像に含まれていた文字を知ることができ、テキストファイルを再編集して文字認識の誤りを修正することができる。
【0049】
なお、
図5に示した文字画素の置換は一例であって、文字画素を置換する方法は上述したものに限定されない。以下では、文字画素の置換の他の例について
図6を以て説明する。
図6は、本実施形態において文字画素を置換する種々の例を示す図である。
【0050】
まず、
図6(a)の例について説明する。
図6(a)は、背景画素の色が均一であって、文字認識の確信度が中程度である場合における、文字画素を置換する例を示している。
図6(a)は、
図5(a)の画像を文字認識した例を示している。ここで、変換元の画像に含まれる「サンプル画像」という文字のうち、「サ」、「プ」、「ル」、「画」の各文字が中程度の確信度で認識された場合について考える。
【0051】
図5における文字画素の置換は、文字認識の確信度が高い場合には文字画素を置換する設定にし、確信度が低い場合には文字画素を残す設定にするものであった。しかしながら、文字認識の確信度が中程度である場合には、背景画素の色に置換するか、文字画素を残すかを択一的に設定するよりも、背景画素の色以外の色に置換することが好ましい場合がある。例えば、文字画素を下記式(1-1)~(1-3)のようにして算出される色に置換することで、再利用性と誤認識の把握とを両立した背面画像とすることができる。
【0052】
【0053】
上記の式(1-1)~(1-3)におけるR,G,Bは、文字画素を置換する色のRGB値を示している。式中のRback,Gback,Bbackは、変換元の画像における背景画素の色のRGB値を示している。式中のRchar,Gchar,Bcharは、変換元の画像における文字画素の色のRGB値を示している。上記式(1-1)~(1-3)では、背景画素の色と文字画素の色とを3:1の割合で混合した色に置換する例を示している。確信度が中程度の文字画素を背景画素の割合が高い色に置換することで、確信度が低い文字画素との差異を出しやすくできる。なお、背景画素と文字画素とを混合する割合は、任意に設定することができる。
【0054】
確信度が中程度の文字画素を、上記式(1-1)~(1-3)で算出された色に置換することで、
図6(a)に示すように、「サ」、「プ」、「ル」、「画」の文字画素が背景画素とは異なる色に置換された画像が背面画像となる。したがって、中程度の確信度で認識された文字が間違っていた場合(例えば「画」の文字が「面」として認識された場合など)には、テキストファイルの変換処理においてテキストデータを重畳すると、背面画像の文字画素とテキストデータの重複によってユーザが誤認識を把握しやすくなる。また、文字同士の干渉が小さいため、テキストが見やすくなる。一方で、文字認識が間違っていない文字については、背面画像の再利用性を確保しつつ、容易に文字の再編集を行うことができる。
【0055】
次に
図6(b)の例について説明する。
図6(b)は、背景画素の色が非均一である文字矩形における、文字画素を置換する例を示している。
図6(b)は、
図5(a)の画像を文字認識した例を示している。ここで、変換元の画像に含まれる「サンプル画像」という文字のうち、「ン」、「像」の各文字の背景画素の色が非均一であって、確信度が中程度以上で認識された場合について考える。
【0056】
図5における文字画素の置換は、背景画素の色が均一である場合には文字画素を置換する設定にし、非均一である場合には文字画素を残す設定にするものであった。
図6(b)に示す例では、背景画素の色が非均一であっても、文字認識の確信度がある程度高い場合には、文字画素の色を、背景画素の色と文字画素の色との中間程度の色に置換する。例えば、文字画素を下記式(2-1)~(2-3)のようにして算出される色に置換する。
【0057】
【0058】
上記の式(2-1)~(2-3)におけるR,G,B,Rback,Gback,Bback,Rchar,Gchar,Bcharは、式(1-1)~(1-3)のものと同様である。上記式(2-1)~(2-3)では、背景画素の色と文字画素の色とを平均化した色に置換する例を示している。
【0059】
背景画素の色が非均一であって、文字認識の確信度が比較的高い文字画素を上記式(2-1)~(2-3)で産出された色に置換することで、
図6(b)に示すように、「ン」、「像」の各文字画素は、背景画素の色に近い色に置換される。
【0060】
なお、本実施形態の情報処理装置110が変換したテキストファイルを他の装置に送信する場合には、テキストファイルの送信先における再利用性を考慮して、変換設定部320は、文字画素を消去しない形態で置換することとしてもよい。すなわち、変換したテキストファイルを他の装置に送信するモードである場合に、変換設定部320は、
図5(d)の「サ」、「プ」、「ル」などの文字画素のように背景画素と同じ色に置換する設定とせず、
図6(a),(b)などのように、変換元の文字画素が認識できる形態で置換する設定とする。テキストファイルを他の装置に送信する場合には、テキストファイルを受信する他の装置では変換元の画像の内容を知り得ないことから、文字画素の置換を上述したように設定することで、文字認識に誤りがあった場合にも、テキストファイルの受信者が適切に修正することができる。
【0061】
ここまで説明した実施形態は、文字画素を他の色に置換するか否かの設定を文字ごとに行うものであった。しかしながら、上述した説明は特に実施形態を限定するものではない。したがって、他の好ましい事しい形態においては、例えば文字列ごとに設定を行うものであってもよい。以下では、文字列ごとに文字画素の置換を行うか否かを設定する実施形態について、
図7を以て説明する。
図7は、他の実施形態において画像からテキストファイルに変換する処理を示すフローチャートである。なお、
図7の説明において、
図4で説明した処理と共通する処理は、適宜詳細を省略する。
【0062】
情報処理装置110は、ステップS2000から、画像からテキストファイルに変換する処理を開始する。ステップS2001では、文字認識部310は、
図4のステップS1001の処理と同様にして、画像に含まれる文字を認識する。また、文字認識部310は、ステップS2001において、認識した各文字の近接関係などに基づいて、複数の文字から構成される文字列を抽出する。なお、文字列の抽出をする方法は、上述したものに限られず、既知の方法を採用することができる。抽出された文字列は、情報処理装置110の記憶領域に格納される。
【0063】
次に、ステップS2002において変換設定部320は、ステップS2001で記憶領域に格納された文字列から、処理対象とする文字列を取得する。
【0064】
その後、ステップS2003では、処理対象の文字列の背景画素が均一であるか否かによって処理を分岐する。文字列を構成する各文字の背景画素色の均一性が所定の閾値よりも小さいである場合には、当該背景画素色が非均一であるとして(NO)、ステップS2006に進む。一方で、文字列を構成する各文字の背景画素の均一性が所定の閾値以上である場合には、当該背景画素が均一であるとして(YES)、ステップS2004に進む。
【0065】
ステップS2004では、処理対象の文字列を構成する各文字のうち、所定の確信度よりも高い文字の割合(以下、「高確信度文字率」として参照する)が、所定の閾値以上であるか否かによって処理を分岐する。高確信度文字率が閾値よりも小さい場合には(NO)、ステップS2006に進む。高確信度文字率が閾値以上である場合には(YES)、ステップS2005に進む。ステップS2005では、変換設定部320は、処理対象の文字列について、当該文字列を構成する各文字の文字画素を他の色に変換するものと設定する。
【0066】
一方で、ステップS2003において背景画素が均一でない場合(NO)、またはステップS2004において高確信度文字率が閾値よりも小さい場合(NO)には、変換設定部320は、ステップS2006の処理を行う。ステップS2006では、変換設定部320は、処理対象の文字列について、当該文字列を構成する各文字の文字画素を残すものと設定する。
【0067】
ステップS2005またはS2006において、文字画素の変換設定を行った後、ステップS2007に進む。ステップS2007では、ステップS2001において記憶領域に格納された全ての文字列について、文字画素の変換設定をしたか否かによって処理を分岐する。全ての文字列の変換設定をしていない場合(NO)、すなわち処理対象となる文字列が残っている場合には、ステップS2002に戻り、全ての文字列について変換設定が完了するまで上述したステップS2002~S2006の処理を繰り返す。一方で、全ての文字列の変換設定をした場合には(YES)、ステップS2008に進む。
【0068】
ステップS2008では、テキストファイル変換部330は、変換設定部320が設定した文字画素の変換設定および文字認識部310が認識したテキストに基づいて、画像をテキストファイルに変換する。ステップS2008の処理は、
図4のステップS1008の処理と同様である。その後、ステップS1009において、情報処理装置110は、画像からテキストファイルに変換する処理を終了する。
【0069】
図7に示した処理によって、情報処理装置110は、文字画素を他の色に置換するか否を文字列ごとにまとめて設定できることから、均一な背景に対して文字列中の1または2以上の文字の文字画素だけが残るような背面画像となるのを防止できる。
【0070】
以上、説明した本発明の実施形態によれば、文字認識処理において背面画像の再利用性を向上したテキストファイルを出力する情報処理装置およびプログラムを提供することができる。
【0071】
上述した本発明の実施形態の各機能は、C、C++、C#、Java(登録商標)等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、DVD、フレキシブルディスク、EEPROM(登録商標)、EPROM等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【0072】
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュールなどのデバイスを含むものとする。
【0073】
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0074】
00…システム、110…情報処理装置、120…MFP、130…ネットワーク、210…CPU、220…RAM、230…ROM、240…記憶装置、250…通信I/F、260…ディスプレイ、270…入力装置、310…文字認識部、320…変換設定部、330…テキストファイル変換部、340…ファイル送信部
【先行技術文献】
【特許文献】
【0075】