IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-24
(45)【発行日】2024-10-02
(54)【発明の名称】情報処理装置およびプログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240925BHJP
   H04N 1/387 20060101ALI20240925BHJP
【FI】
G06V30/12 J
H04N1/387 110
【請求項の数】 9
(21)【出願番号】P 2020125740
(22)【出願日】2020-07-22
(65)【公開番号】P2022021875
(43)【公開日】2022-02-03
【審査請求日】2023-05-11
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】井上 美佳
【審査官】▲柳▼谷 侑
(56)【参考文献】
【文献】特開2014-232930(JP,A)
【文献】特開2015-026289(JP,A)
【文献】特開2008-152700(JP,A)
【文献】特開平05-182014(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/12
H04N 1/387
(57)【特許請求の範囲】
【請求項1】
原画像を、画像および前記原画像に対する文字認識後のフォントを含む編集可能な電子文書に変換する情報処理装置であって、
前記文字認識の確信度に基づいて、設定された第1処理形式により、前記フォントの色である第1色を決定する第1決定部と、
前記確信度に基づいて、設定された第2処理形式により、前記原画像から前記文字認識により認識された文字の部分の画素である文字画素の色を置換するための色である第2色を決定する第2決定部と、
を備え
前記第1決定部は、前記確信度が高いほど前記フォントの視認性を高くし、該確信度が低いほど該フォントの視認性を低くする正の相関に基づく処理形式、または、該確信度が低いほど該フォントの視認性を高くし、該確信度が高いほど該フォントの視認性を低くする負の相関に基づく処理形式のうち、設定された処理形式を前記第1処理形式として前記第1色を決定する情報処理装置。
【請求項2】
前記第2決定部は、前記確信度が高いほど前記文字画素の消去具合を高くし、該確信度が低いほど該文字画素の消去具合を低くする正の相関に基づく処理形式、または、該確信度が低いほど該文字画素の消去具合を高くし、該確信度が高いほど該文字画素の消去具合を低くする負の相関に基づく処理形式のうち、設定された処理形式を前記第2処理形式として前記第2色を決定する請求項に記載の情報処理装置。
【請求項3】
原画像を、画像および前記原画像に対する文字認識後のフォントを含む編集可能な電子文書に変換する情報処理装置であって、
前記文字認識の確信度に基づいて、設定された第1処理形式により、前記フォントの色である第1色を決定する第1決定部と、
前記確信度に基づいて、設定された第2処理形式により、前記原画像から前記文字認識により認識された文字の部分の画素である文字画素の色を置換するための色である第2色を決定する第2決定部と、
を備え、
前記第1決定部は、前記確信度が高いほど前記フォントの視認性を高くし、該確信度が低いほど該フォントの視認性を低くする正の相関に基づく処理形式、該確信度が低いほど該フォントの視認性を高くし、該確信度が高いほど該フォントの視認性を低くする負の相関に基づく処理形式、前記文字画素の色の第1補色に基づく処理形式、または、前記原画像の前記文字画素以外の部分の画素値に基づく背景色の第2補色に基づく処理形式のうち、設定された処理形式を前記第1処理形式として前記第1色を決定す情報処理装置。
【請求項4】
前記第2決定部は、前記確信度が高いほど前記文字画素の消去具合を高くし、該確信度が低いほど該文字画素の消去具合を低くする正の相関に基づく処理形式、該確信度が低いほど該文字画素の消去具合を高くし、該確信度が高いほど該文字画素の消去具合を低くする負の相関に基づく処理形式、前記文字画素の色の第1補色に基づく処理形式、または、前記原画像の前記文字画素以外の部分の画素値に基づく背景色の第2補色に基づく処理形式のうち、設定された処理形式を前記第2処理形式として前記第2色を決定する請求項1またはに記載の情報処理装置。
【請求項5】
原画像を、画像および前記原画像に対する文字認識後のフォントを含む編集可能な電子文書に変換する情報処理装置であって、
前記文字認識の確信度に基づいて、設定された第1処理形式により、前記フォントの色である第1色を決定する第1決定部と、
前記確信度に基づいて、設定された第2処理形式により、前記原画像から前記文字認識により認識された文字の部分の画素である文字画素の色を置換するための色である第2色を決定する第2決定部と、
を備え、
前記第1決定部による前記第1色の決定処理、および前記第2決定部の前記第2色の決定処理のうち少なくともいずれかにおいて、特定の確信度を転換点として、前記確信度に対して前記フォントの視認性または前記文字画素の消去具合についての正の相関、または該確信度に対して該フォントの視認性または該文字画素の消去具合についての負の相関に基づく処理形式と、前記文字画素の色の第1補色、または前記原画像の前記文字画素以外の部分の画素値に基づく背景色の第2補色に基づく処理形式とが切り替えられ情報処理装置。
【請求項6】
前記第1処理形式および前記第2処理形式は、互いに独立した処理形式である請求項1~のいずれか一項に記載の情報処理装置。
【請求項7】
入力部に対する操作内容に応じて、前記第1処理形式および前記第2処理形式を設定する設定部を、さらに備えた請求項1~のいずれか一項に記載の情報処理装置。
【請求項8】
前記原画像に対して、前記第2決定部により決定された前記第2色の前記文字画素を重畳し、さらに前記第1決定部により決定された前記第1色の前記フォントを重畳して、前記電子文書を生成する重畳部を、さらに備えた請求項1~のいずれか一項に記載の情報処理装置。
【請求項9】
原画像を、画像および前記原画像に対する文字認識後のフォントを含む編集可能な電子文書に変換するコンピュータに、
前記文字認識の確信度に基づいて、設定された第1処理形式により、前記フォントの色である第1色を決定する第1決定ステップと、
前記確信度に基づいて、設定された第2処理形式により、前記原画像から前記文字認識により認識された文字の部分の画素である文字画素の色を置換するための色である第2色を決定する第2決定ステップと、
を実行させ
前記第1決定ステップでは、前記確信度が高いほど前記フォントの視認性を高くし、該確信度が低いほど該フォントの視認性を低くする正の相関に基づく処理形式、または、該確信度が低いほど該フォントの視認性を高くし、該確信度が高いほど該フォントの視認性を低くする負の相関に基づく処理形式のうち、設定された処理形式を前記第1処理形式として前記第1色を決定するためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置およびプログラムに関する。
【背景技術】
【0002】
印刷した紙文書を、印刷前の電子文書(ドキュメントデータ)に戻せるとしたら再利用上利便性が高い。そこで、印刷した文書をスキャナで読み取り、像域分離等を行った後、OCR(Optical Character Recognition:光学文字認識)を施して、例えばMicrosoft Office(登録商標)で採用されているOffice Open XMLドキュメント形式のデータ(ドキュメントデータの一例)に変換する技術がある。
【0003】
この変換技術は、上述の再利用を目的とするため、画像の上に文字が重畳されている場合、当該画像から文字画素を抽出し、当該文字画像上の文字跡を消去すると、画像自体の再利用性が向上して望ましい。または、当該変換技術は、OCR後のフォントを画像の上から重畳するため、当該フォントとの見た目上の干渉を防ぐためにも文字跡を消去することが望ましい。
【0004】
このようなOCR結果に基づく各文字について画像処理をする技術として、OCRで認識された各文字についての確信度に応じて、文字跡を消去の有無を切り替える処理、および確信度によってはフォントおよび文字画像の両方を並列に表示、かつ文字画像の濃度を薄くする技術が開示されている(例えば特許文献1)。
【0005】
また、確信度が予め定めた閾値以下の認識文字を誤認の可能性のある文字と仮定し、該当する文字の表示色を変更して他の認識文字とは異なった表示で表示手段に出力文字と共に表示する動作により、フォントの視認性を変える技術が開示されている(例えば特許文献2)。
【0006】
また、レシート認識システムにおいて、OCRにより必要なデータを正確に抽出するために簡単な操作で効率よく編集データを作成できるようにする目的で、認識処理の基になった文字画素の色(濃度)を確信度によって異ならせる技術が開示されている(例えば特許文献3)。
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1、3に記載された技術では、文字画素の色(濃度)を変化させるのみで、フォントの色との組み合わせによる見やすさが考慮されていないという問題があった。また、特許文献2に記載された技術では、フォントの視認性を変えるのみで、文字画像の色との組み合わせによる見やすさが考慮されていないという問題があった。
【0008】
本発明は、上記に鑑みてなされたものであり、文字画素の色およびフォントの色の制御の組み合わせにより、読み手にとって見やすく、かつ文字認識における誤認識についての自然な注意喚起を実現することができる情報処理装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、本発明は、原画像を、画像および前記原画像に対する文字認識後のフォントを含む編集可能な電子文書に変換する情報処理装置であって、前記文字認識の確信度に基づいて、設定された第1処理形式により、前記フォントの色である第1色を決定する第1決定部と、前記確信度に基づいて、設定された第2処理形式により、前記原画像から前記文字認識により認識された文字の部分の画素である文字画素の色を置換するための色である第2色を決定する第2決定部と、を備え、前記第1決定部は、前記確信度が高いほど前記フォントの視認性を高くし、該確信度が低いほど該フォントの視認性を低くする正の相関に基づく処理形式、または、該確信度が低いほど該フォントの視認性を高くし、該確信度が高いほど該フォントの視認性を低くする負の相関に基づく処理形式のうち、設定された処理形式を前記第1処理形式として前記第1色を決定することを特徴とする。
【発明の効果】
【0010】
本発明によれば、文字画素の色およびフォントの色の制御の組み合わせにより、読み手にとって見やすく、かつ文字認識における誤認識についての自然な注意喚起を実現することができる。
【図面の簡単な説明】
【0011】
図1図1は、実施形態に係る情報処理システムの全体構成の一例を示す図である。
図2図2は、実施形態に係るMFPのハードウェア構成の一例を示す図である。
図3図3は、実施形態に係るMFPの機能ブロックの構成の一例を示す図である。
図4図4は、フォント視認性および文字画素消去具体の確信度についての正の相関を説明する図である。
図5図5は、フォント視認性および文字画素消去具体の確信度についての負の相関を説明する図である。
図6図6は、実施形態に係るMFPの言語処理および第2確信度算出処理の流れの一例を示すフローチャートである。
図7図7は、実施形態に係るMFPのフォント色決定処理、文字画素置換色決定処理およびラップ処理の流れの一例を示すフローチャートである。
図8図8は、実施形態に係るMFPの言語処理の流れの一例を示すフローチャートである。
図9図9は、実施形態に係るMFPの第2確信度算出処理の流れの一例を示すフローチャートである。
図10図10は、実施形態に係るMFPのフォント色決定処理の流れの一例を示すフローチャートである。
図11図11は、実施形態に係るMFPの文字画素置換色決定処理の流れの一例を示すフローチャートである。
図12図12は、オレンジ色の地に赤い文字が記載された原画像の一例を示す図である。
図13図13は、二値化した画像の一例を示す図である。
図14図14は、二値画像から切出し処理を行う動作を説明する図である。
図15図15は、文字単位の確信度制御を行わない場合のフォントの一例を示す図である。
図16図16は、文字単位の確信度制御を行った場合のフォントの一例を示す図である。
図17図17は、文字単位の確信度制御を行わない場合の置換文字画素の一例を示す図である。
図18図18は、文字単位の確信度制御を行った場合の置換文字画素の一例を示す図である。
図19図19は、原画像に文字単位の確信度制御を行わない場合の置換文字画素を重畳させた状態の一例を示す図である。
図20図20は、原画像に文字単位の確信度制御を行わない場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。
図21図21は、原画像に文字単位の確信度制御を行った場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。
図22図22は、文字単位の確信度制御を行わない場合のフォントの一例を示す図である。
図23図23は、文字単位の確信度制御を行った場合のフォントの一例を示す図である。
図24図24は、文字単位の確信度制御を行わない場合の置換文字画素の一例を示す図である。
図25図25は、文字単位の確信度制御を行った場合の置換文字画素の一例を示す図である。
図26図26は、原画像に文字単位の確信度制御を行わない場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。
図27図27は、原画像に文字単位の確信度制御を行った場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。
図28図28は、負の相関に基づいて文字単位の確信度制御を行った場合のフォントの一例を示す図である。
図29図29は、負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素の一例を示す図である。
図30図30は、原画像に負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。
図31図31は、原画像に、負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素、および正の相関に基づいて文字単位の確信度制御を行った場合のフォントを重畳させた状態の一例を示す図である。
図32図32は、白地に赤い文字が記載された原画像の一例を示す図である。
図33図33は、原画像に、負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素、および正の相関に基づいて文字単位の確信度制御を行った場合のフォントを重畳させた状態の一例を示す図である。
図34図34は、処理方式選択画面の一例を示す図である。
図35図35は、正の相関に基づく処理および補色処理の組み合わせの一例を説明する図である。
図36図36は、文字画素置換色およびフォント色に対する処理の組み合わせの結果の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照しながら、本発明に係る情報処理装置およびプログラムを詳細に説明する。また、以下の実施形態によって本発明が限定されるものではなく、以下の実施形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
【0013】
また、コンピュータソフトウェアとは、コンピュータの動作に関するプログラム、その他コンピュータによる処理の用に供する情報であってプログラムに準ずるものをいう(以下、コンピュータソフトウェアは、ソフトウェアという)。アプリケーションソフトとは、ソフトウェアの分類のうち、特定の作業を行うために使用されるソフトウェアの総称である。一方、オペレーティングシステム(OS)とは、コンピュータを制御し、アプリケーションソフト等がコンピュータ資源を利用可能にするためのソフトウェアのことである。オペレーティングシステムは、入出力の制御、メモリやハードディスクなどのハードウェアの管理、プロセスの管理といった、コンピュータの基本的な管理・制御を行っている。アプリケーションソフトウェアは、オペレーティングシステムが提供する機能を利用して動作する。プログラムとは、コンピュータに対する指令であって、一の結果を得ることができるように組み合わせたものをいう。また、プログラムに準ずるものとは、コンピュータに対する直接の指令ではないためプログラムとは呼べないが、コンピュータの処理を規定するという点でプログラムに類似する性質を有するものをいう。例えば、データ構造(データ要素間の相互関係で表される、データの有する論理的構造)がプログラムに準ずるものに該当する。
【0014】
以下では、情報処理装置の一例として、MFP(Multifunction Peripheral:複合機)を例に挙げて説明するが、これに限られるものではない。例えば、情報処理装置としては、スキャナにより読み込んだ画像に対して画像処理を行うPC(Personal Computer)等であってもよい。なお、MFP(複合機)とは、コピー機能、スキャナ機能、プリンタ機能、およびファクス機能等の複数の異なる機能を有する装置である。
【0015】
(情報処理システムの全体構成)
図1は、実施形態に係る情報処理システムの全体構成の一例を示す図である。図1を参照しながら、本実施形態に係る情報処理システム1の全体構成について説明する。
【0016】
図1に示すように、情報処理システム1は、MFP10と、PC(Personal Computer)20と、ファイルサーバ30と、を含み、これらが通信ネットワークNを介して相互にデータの送受信を行うことができる構成となっている。通信ネットワークNは、例えばLAN(Local Area Network)また、イントラネット、インターネットまたはこれらの混合で構成されたネットワークであり、有線ネットワークだけでなく無線ネットワークを含んでいてもよい。
【0017】
MFP10は、原稿を読み取るスキャナ部11と、記録媒体に画像を形成するプリンタ部12と、を備えた複合機であり、スキャナ部11でOCRにより読み込んだ画像から、テキストを抽出し、当該テキストと読み込んだ画像とに基づいて編集可能なドキュメントデータ(例えばOffice Open XMLドキュメント等)に変換する情報処理装置の一例である。スキャナ部11は、ADF(Auto Document Feeder:自動原稿送り装置)が設けられている場合、当該ADFにセットされた原稿を読み取る。プリンタ部12は、操作表示部510を介して利用者からの操作指示を受け付け、または、通信ネットワークを介してPC20またはファイルサーバ30から指示を受け付けることによって、画像データ等に基づいて記録媒体に画像を形成する。
【0018】
PC20は、例えばファイルサーバ30に保存されている画像データまたはドキュメントデータ等を、MFP10へ送信して画像形成処理を実行させる情報処理装置である。なお、図1に示す例では、PC20は1台としているが複数台であってもよい。
【0019】
ファイルサーバ30は、画像データおよびドキュメントデータ等を通信ネットワークN上で共有するために保管しているサーバである。
【0020】
(MFPのハードウェア構成)
図2は、実施形態に係るMFPのハードウェア構成の一例を示す図である。図2を参照しながら、本実施形態に係るMFP10のハードウェア構成について説明する。
【0021】
図2に示すように、本実施形態に係るMFP10は、コントローラ500と、操作表示部510と、FCU(Facsimile Control Unit)520と、プロッタ531と、スキャナ532と、がPCI(Peripheral Component Interface)バスで接続された構成となっている。
【0022】
コントローラ500は、MFP10全体の制御、描画、通信および操作表示部510からの入力を制御する装置である。
【0023】
操作表示部510は、例えば、タッチパネル等であり、コントローラ500に対する入力を受け付ける(入力機能)と共に、MFP10の状態等を表示(表示機能)する装置であり、後述するASIC(Application Specific Integrated Circuit)506に直接接続されている。
【0024】
FCU520は、ファックス機能を実現する装置であり、例えば、PCIバスによってASIC506に接続されている。
【0025】
プロッタ531は、印刷機能を実現する装置であり、例えば、PCIバスによってASIC506に接続されている。スキャナ532は、スキャナ機能を実現する機能であり、例えば、PCIバスによってASIC506に接続されている。
【0026】
コントローラ500は、CPU(Central Processing Unit)501と、システムメモリ(MEM-P)502と、ノースブリッジ(NB)503と、サウスブリッジ(SB)504aと、ネットワークI/F504bと、USB(Universal Serial Bus) I/F504cと、セントロニクスI/F504dと、ASIC506と、ローカルメモリ(MEM-C)507と、補助記憶装置508と、を有している。
【0027】
CPU501は、MFP10の全体制御を行うものであり、システムメモリ502、ノースブリッジ503およびサウスブリッジ504aからなるチップセットに接続され、このチップセットを介して他の機器と接続される。
【0028】
システムメモリ502は、プログラムおよびデータの格納用メモリ、プログラムおよびデータの展開用メモリ、ならびにプリンタの描画用メモリ等として用いるメモリであり、ROM(Read Only Memory)とRAM(Random Access Memory)とを有している。このうち、ROMは、プログラムおよびデータの格納用メモリとして用いる読み出し専用のメモリであり、RAMは、プログラムおよびデータの展開用メモリ、ならびにプリンタの描画用メモリ等として用いる書き込みおよび読み出し可能なメモリである。
【0029】
ノースブリッジ503は、CPU501と、システムメモリ502、サウスブリッジ504aおよびAGP(Accelerated Graphics Port)バス505とを接続するためのブリッジであり、システムメモリ502に対する読み書き等を制御するメモリコントローラと、PCIマスタおよびAGPターゲットとを有する。
【0030】
サウスブリッジ504aは、ノースブリッジ503と、PCIデバイスおよび周辺デバイスとを接続するためのブリッジである。サウスブリッジ504aは、PCIバスを介してノースブリッジ503と接続されており、PCIバスには、ネットワークI/F504b、USB I/F504cおよびセントロニクスI/F504d等が接続されている。
【0031】
ネットワークI/F504bは、イーサネット(登録商標)に対応し、TCP(Transmission Control Protocol)/IP(Internet Protocol)等に準拠した通信が可能なインターフェースである。
【0032】
USB I/F504cは、USB規格に対応した機器とデータ通信を行うためのインターフェースである。セントロニクスI/F504dは、パラレルデータ転送用のインターフェースである。
【0033】
AGPバス505は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインターフェースである。AGPバス505は、システムメモリ502に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にするバスである。
【0034】
ASIC506は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス505、PCIバス、補助記憶装置508およびローカルメモリ507をそれぞれ接続するブリッジの役割を有する。ASIC506は、PCIターゲットおよびAGPマスタと、ASIC506の中核をなすアービタ(ARB)と、ローカルメモリ507を制御するメモリコントローラと、ハードウェアロジック等により画像データの回転等を行う複数のDMAC(Direct Memory Access Controller)と、プロッタ531およびスキャナ532との間でPCIバスを介したデータ転送を行うPCIユニットとから構成される。ASIC506には、例えば、PCIバスを介してFCU520、プロッタ531、およびスキャナ532が接続される。
【0035】
ローカルメモリ507は、コピー用画像バッファおよび符号バッファとして用いるメモリである。
【0036】
補助記憶装置508は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、SD(Secure Digital)カードまたはフラッシュメモリ等の記憶装置であり、画像データの蓄積、プログラムの蓄積、フォントデータの蓄積、およびフォームの蓄積等を行うためのストレージである。
【0037】
なお、上述のMFP10のプログラムは、インストール可能な形式または実行可能な形式のファイルによって、コンピュータで読み取り可能な記録媒体(補助記憶装置508等)に記録されて流通されるようにしてもよい。
【0038】
また、図2に示すMFP10のハードウェア構成は、一例であり、すべての構成機器を備えている必要はなく、また、他の構成機器を備えているものとしてもよい。また、CPU501およびノースブリッジ503は、例えばSoC(System on a Chip)により統合されているものとしてもよい。
【0039】
(MFPの機能ブロック構成および動作)
図3は、実施形態に係るMFPの機能ブロックの構成の一例を示す図である。図4は、フォント視認性および文字画素消去具体の確信度についての正の相関を説明する図である。図5は、フォント視認性および文字画素消去具体の確信度についての負の相関を説明する図である。図3図5を参照しながら、本実施形態に係るMFP10の機能ブロックの構成および構成について説明する。
【0040】
図3に示すように、MFP10は、画像取得部101と、二値化部102と、切出し処理部103と、文字認識部104と、組合せ選択部105と、ルール処理部106と、第1確信度算出部107と、言語処理部108と、第2確信度算出部109と、フォント色決定部110(第1決定部)と、文字画素置換色決定部111(第2決定部)と、ラップ処理部112(重畳部の一例)と、記憶部120と、通信部131と、表示制御部132と、入力部133と、設定部134と、を有する。
【0041】
画像取得部101は、原稿の画像についてスキャナ532により読み取られたデータを、画像データとして取得する機能部である。なお、スキャナ532により読み取られた画像データが記憶部120に記憶されている場合、画像取得部101は、記憶部120から画像データを取得するものとしてもよい。
【0042】
二値化部102は、画像取得部101により取得された画像データ(原画像)を二値化して二値画像を得る機能部である。具体的には、二値化部102は、画像データがカラー画像である場合、周知の輝度-色差変換(YCbCr変換)等により輝度を算出し、周知の判別分析方法で原画像から二値画像を生成する。また、二値化部102は、画像データがグレースケールの場合、輝度算出は不要で、直接、判別分析法で原画像から二値画像を生成する。なお、画像取得部101により取得された画像データ(原画像)および二値化部102により二値化された二値画像は、記憶部120に記憶されるものとすればよい。
【0043】
切出し処理部103は、二値化部102により生成された二値画像に含まれる個々の文字をその外接矩形により切り出す機能部である。例えば、切出し処理部103は、二値画像の行方向の射影を求め、この射影を利用して文字行の切り出しを行い、切り出した各文字行から行と垂直の方向の射影を利用し、または黒画素の連結成分の外接矩形を統合することにより、個々の文字を切り出す。切出し処理部103により切り出された文字の画像部分を文字画像と称するものとする。
【0044】
文字認識部104は、切出し処理部103により切り出された文字画像を正規化してから特徴量を抽出し、当該特徴量と、記憶部120に記憶されているパターン辞書とのマッチングを行うことにより、類似度の大きいまたは相違度(距離)の小さい候補文字を1以上認識(文字認識)する機能部である。この場合、候補文字としては例えば文字コードと特定することによって認識するものとすればよい。
【0045】
組合せ選択部105は、連続した文字について文字認識部104により決定された候補文字の最適な組み合わせ(パス)を選択する機能部である。
【0046】
ルール処理部106は、文字の行内での相対位置についての情報(例えば区切り等を示す「・」、「、」等)、文字も大きさについての情報(例えば「C」、「c」のように大文字小文字の区別に関係する情報等)、文字種の情報(例えばカタカナ文字列中の漢字の「一」があったら長音記号「-」に修正する等)等の一定のルールに従って、文字認識部104により認識された候補文字を修正する機能部である。
【0047】
第1確信度算出部107は、文字認識部104によりに認識された候補文字の評価値(例えばパターン辞書との距離を総輪郭数で除した値等)、組合せ選択部105により最適な組み合わせが選択される場合の評価値、およびルール処理部106により適用されたルールの情報を証拠としてデンプスターシェーファー理論を用い、当該候補文字(またはルールに応じて修正された候補文字)の確信度(第1確信度)を算出する機能部である。ここで、確信度とは、認識された文字がどの程度確からしいかを表す指標値であり、例えば0~100[%]の数値で表される。なお、切出し処理部103による切出し処理から第1確信度算出部107による第1確信度の算出処理までの処理内容は、例えば特開平4-211883号に記載の処理と同様とすればよい。また、切出し処理部103により切り出された文字画像の外接矩形の左上および右下の座標、文字認識部104により認識された候補文字(文字コード)、および第1確信度算出部107により算出された第1確信度は、記憶部120の第1確信度保持部121(後述)に保持されるものとすればよい。
【0048】
言語処理部108は、切出し処理部103により切り出されたすべての文字画像に対応する第1確信度が記憶部120の第1確信度保持部121に保持されると、当該第1確信度保持部121に保持された候補文字(文字コード)の連続である文字列に対して、周知の形態素解析を行って名詞を抽出し、記憶部120の単語辞書122(後述)の辞書内単語と照合し、当該名詞とマッチした辞書内単語で当該名詞を置換する処理部である。また、言語処理部108により辞書内単語に対応するものと決定された名詞は、記憶部120の第2確信度保持部123(後述)に保持されるものとすればよい。なお、言語処理部108による言語処理の詳細は、図6および図8で後述する。
【0049】
第2確信度算出部109は、言語処理部108により辞書内単語に置換された名詞の各文字の第1確信度のうち最大の第1確信度を当該各文字の第2確信度として算出する機能部である。また、第2確信度算出部109により算出された第2確信度は、記憶部120の第2確信度保持部123(後述)に保持されるものとすればよい。なお、第2確信度算出部109による第2確信度算出処理の詳細は、図6および図9で後述する。
【0050】
フォント色決定部110は、フォント視認性が確信度と正の相関があるとした場合、または負の相関があるとした場合等に基づいて、切出し処理部103により切り出された文字画像に対応する原画像の画像部分の文字に対応する画素値から算出される文字色(原文字色)に基づいて、言語処理部108で言語処理がなされた名詞(フォント)のフォント色(第1色)を決定する機能部である。ここで、フォントとは、言語処理部108で言語処理がなされた名詞を示すだけでなく、当該名詞を構成する各文字をも示すものとする。ここで、フォント視認性が確信度と正の相関がある場合とは、図4(a)に示すように、確信度が高くなるほど、フォントの視認性が高くなる関係を示す。一方、フォント視認性が確信度と負の相関がある場合とは、図5(a)に示すように、確信度が高くなるほど、フォントの視認性が低くなる関係を示す。なお、フォント色決定部110によるフォント色決定処理の詳細は、図7および図10で後述する。
【0051】
文字画素置換色決定部111は、原画像での文字画素の消去具合が確信度と正の相関があるとした場合、または負の相関があるとした場合等に基づいて、切出し処理部103により切り出された文字画像に対応する原画像の画像部分以外の画像部分の画素値から算出される原背景色に基づいて、文字画像に対応する原画像の画像部分の文字の色を置換するための文字画素置換色(第2色)を決定する機能部である。ここで、原画像での文字画素の消去具合が確信度と正の相関がある場合とは、図4(b)に示すように、確信度が高くなるほど、文字画素の消去具合が高くなる関係を示す。一方、原画像での文字画素の消去具合が確信度と負の相関がある場合とは、図5(b)に示すように、確信度が高くなるほど、原画像での文字画素の消去具合が低くなる関係を示す。なお、文字画素置換色決定部111による文字画素置換色決定処理の詳細は、図7および図11で後述する。
【0052】
ラップ処理部112は、原画像に対して、フォント色決定部110により決定された文字画素置換色の置換文字画素、および文字画素置換色決定部111により決定されたフォント色のフォントを重畳し、XMLラップ処理等の周知のファイルラップ処理を行う機能部である。ラップ処理部112によるファイルラップ処理により生成されるドキュメントデータのファイルフォーマットは、例えばOffice Open XMLフォーマットである。当該フォーアットは、複数のファイルおよびフォルダから構成されており、例えばテキストのコンテンツを記述する「document.xml」、使用するフォントを規定する「fontTable.xml」、テキストのスタイルを規定する「styles.xml」等のファイルが含まれている。各ファイルはxml形式のテキストデータであるため、バイナリデータに比べて容易に視認することができ、かつこれら各ファイルを容易に編集することができる。ラップ処理部112、例えば、Office Open XMLフォーマットのデータを構成する各ファイル生成した後、これらをZIP形式に圧縮して1つのファイルにまとめ、当該圧縮したファイルに「docx」の拡張子を付与して文書ファイル(ドキュメントデータ)(電子文書)を生成する。
【0053】
記憶部120は、各種データおよびプログラム等を記憶する機能部である。具体的には、記憶部120は、例えばスキャナ532により読み取られた画像データ(原画像)、二値化部102により二値化された二値画像、および文字認識部104の認識処理に用いるパターン辞書等を記憶する。また、記憶部120は、図3に示すように、第1確信度保持部121と、単語辞書122と、第2確信度保持部123と、処理方式設定情報124と、を含む。
【0054】
第1確信度保持部121は、切出し処理部103により切り出された文字画像の外接矩形の左上および右下の座標、文字認識部104により認識された候補文字(文字コード)、および第1確信度算出部107により算出された第1確信度を保持する記憶領域である。単語辞書122は、言語処理部108の言語処理で用いる各種単語を含む辞書である。第2確信度保持部123は、第2確信度算出部109により算出された第2確信度、および言語処理部108により辞書内単語に対応するものと決定された名詞を保持する記憶領域である。処理方式設定情報124は、後述する設定部134により設定されたフォント色決定処理および文字画素置換色決定処理の処理方式についての設定情報である。
【0055】
記憶部120は、図2に示すシステムメモリ502、ローカルメモリ507および補助記憶装置508のうち少なくともいずれかによって実現される。
【0056】
通信部131は、外部機器(例えばPC20およびファイルサーバ30等)とデータ通信を行う機能部である。通信部131は、図2に示すネットワークI/F504bおよびCPU501によりプログラムが実行されることによって実現される。
【0057】
表示制御部132は、操作表示部510の表示動作を制御する機能部である。
【0058】
入力部133は、ユーザからの操作入力を受け付ける機能部である。入力部133は、図2に示す操作表示部510の入力機能により実現される。
【0059】
設定部134は、フォント色決定処理の処理方式(第1処理方式)および文字画素置換色決定処理の処理方式(第2処理方式)を設定する機能部である。なお、設定部134による設定処理の詳細は、図34で後述する。
【0060】
上述の画像取得部101、二値化部102、切出し処理部103、文字認識部104、組合せ選択部105、ルール処理部106、第1確信度算出部107、言語処理部108、第2確信度算出部109、フォント色決定部110、文字画素置換色決定部111、ラップ処理部112、表示制御部132および設定部134は、例えば図2に示すCPU501によりプログラムが実行されることによって実現される。なお、上述の各機能部のうち少なくともいずれかは、ASICまたはFPGA(Field-Programmable Gate Array)等の集積回路によって実現されるものとしてもよい。
【0061】
また、図3に示したMFP10の各機能部は、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図3に示したMFP10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図3に示したMFP10の1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
【0062】
(言語処理および第2確信度算出処理の繰り返し処理について)
図6は、実施形態に係るMFPの言語処理および第2確信度算出処理の流れの一例を示すフローチャートである。図6に示すように、MFP10の言語処理および第2確信度算出処理の繰り返し処理について説明する。
【0063】
<ステップS11>
言語処理部108は、第1確信度保持部121に言語処理を行っていない候補文字の連続である文字列が残っているか否か判定する。文字列が残っている場合(ステップS11:Yes)、ステップS12へ移行し、文字列が残っていない場合(ステップS11:No)、繰り返し処理を終了する。
【0064】
<ステップS12>
言語処理部108は、第1確信度保持部121から言語処理を行っていない候補文字の連続である文字列を入力し、言語処理を実行する。なお、言語処理部108による言語処理の詳細は、図8で後述する。そして、ステップS13へ移行する。
【0065】
<ステップS13>
第2確信度算出部109は、言語処理部108で単語とマッチした名詞の各文字の第1確信度を第1確信度保持部121から入力し、当該各文字の第1確信度に基づいて、当該各文字の第2確信度を算出する。第2確信度算出部109は、算出した第2確信度を第2確信度保持部123に保持させる。なお、第2確信度算出部109による第2確信度算出処理の詳細は、図9で後述する。そして、ステップS11へ戻る。
【0066】
(フォント色決定処理および文字画素置換色決定処理の繰り返し処理について)
図7は、実施形態に係るMFPのフォント色決定処理、文字画素置換色決定処理およびラップ処理の流れの一例を示すフローチャートである。図7に示すように、MFP10のフォント色決定処理、文字画素置換色決定処理およびラップ処理の繰り返し処理について説明する。
【0067】
<ステップS21>
フォント色決定部110は、第2確信度保持部123にフォント色決定処理を行っていない、第2確信度算出部109により第2確信度が算出された文字が残っているか否か判定する。文字が残っている場合(ステップS21:Yes)、ステップS22へ移行し、文字が残っていない場合(ステップS21:No)、繰り返し処理を終了する。
【0068】
<ステップS22>
フォント色決定部110は、第2確信度保持部123からフォント色決定処理を行っていない文字等を入力し、当該文字についてフォント色決定処理を実行する。なお、フォント色決定部110によるフォント色決定処理の詳細は、図10で後述する。そして、ステップS23へ移行する。
【0069】
<ステップS23>
文字画素置換色決定部111は、フォント色決定部110によりフォント色決定処理が行われた文字の文字画像に対応する原画像の画像部分の文字の色を決定する文字画素置換色決定処理を実行する。なお、文字画素置換色決定部111による文字画素置換色決定処理の詳細は、図11で後述する。そして、ステップS24へ移行する。
【0070】
<ステップS24>
ラップ処理部112は、原画像に対して、フォント色決定部110により決定された文字画素置換色の置換文字画素、および文字画素置換色決定部111により決定されたフォント色のフォントを重畳し、XMLラップ処理等のラップ処理を行う。そして、ステップS21へ戻る。
【0071】
(言語処理の詳細)
図8は、実施形態に係るMFPの言語処理の流れの一例を示すフローチャートである。図8を参照しながら、MFP10の言語処理部108による言語処理の詳細について説明する。
【0072】
<ステップS121>
言語処理部108は、切出し処理部103により切り出されたすべての文字画像に対応する第1確信度が記憶部120の第1確信度保持部121に保持されると、当該第1確信度保持部121から候補文字(文字コード)の連続である文字列を入力する。そして、言語処理部108は、入力した文字列から周知の形態素解析を行って名詞を抽出する。そして、ステップS122へ移行する。
【0073】
<ステップS122>
言語処理部108は、抽出した名詞のうち、記憶部120の単語辞書122に含まれる単語(辞書内単語)と比較していない名詞があるか否かを判定する。辞書内単語と比較していない名詞がある場合(ステップS122:Yes)、ステップS123へ移行し、比較していない名詞がない場合(ステップS122:No)、ステップS129bへ移行する。
【0074】
<ステップS123>
言語処理部108は、抽出した名詞の文字数kをカウントし、かつ、第1確信度の和の最大値Smaxを0にリセットする。そして、ステップS124へ移行する。
【0075】
<ステップS124>
言語処理部108は、カウントした文字数kが、例えば3≦k≦5(3文字以上5文字以下)であるか否かを判定する。3≦k≦5を満たす場合(ステップS124:Yes)、ステップS125へ移行し、3≦k≦5を満たさない場合(ステップS124:No)、ステップS122へ戻る。なお、抽出した名詞の文字数kの範囲判定としては、3≦k≦5とは異なる範囲で判定を行ってもよい。
【0076】
<ステップS125>
言語処理部108は、単語辞書122に含まれる辞書内単語のうち、比較を行っていない辞書内単語があるか否かを判定する。比較が行われていない辞書内単語がある場合(ステップS125:Yes)、ステップS126へ移行し、比較が行われていない辞書内単語がない場合(ステップS125:No)ステップS129bへ移行する。
【0077】
<ステップS126>
言語処理部108は、単語辞書122に含まれる辞書内単語のうち、文字数kと同じ文字数の辞書内単語を探索する。そして、ステップS127へ移行する。
【0078】
<ステップS127>
言語処理部108は、検索した辞書内単語の文字と、文字数kの名詞の文字とを比較し、一致した文字数が、例えば0.6×kより大きいか否かを判定する。一致した文字数が0.6×kよりも大きい場合(ステップS127:Yes)、ステップS128へ移行し、一致した文字数が0.6×k以下である場合(ステップS127:No)、ステップS125へ戻る。なお、一致した文字数と比較する0.6×kの係数0.6は、これに限定されるものではなく、他の値であってもよい。
【0079】
<ステップS128>
言語処理部108は、名詞を構成する文字のうち、辞書内単語の文字と一致した文字のみについての第1確信度の和を計算して、当該和を確信度和Sとする。そして、ステップS129へ移行する。
【0080】
<ステップS129>
言語処理部108は、確信度和Sが最大値Smaxよりも大きいか否かを判定する。確信度和Sが最大値Smaxよりも大きい場合(ステップS129:Yes)、ステップS129aへ移行し、確信度和Sが最大値Smax以下である場合(ステップS129:No)、ステップS125へ戻る。
【0081】
<ステップS129a>
言語処理部108は、確信度和Sを新たな最大値Smaxとし、当該確信度和Sに対応する名詞を保持する。そして、ステップS125へ戻る。
【0082】
<ステップS129b>
言語処理部108は、最大値Smaxが最大となった辞書内単語(最大値Smax=確信度和Sとなる、名詞とマッチした辞書内単語)を、名詞とマッチ(一致)した単語と決定し、当該名詞の文字列を当該辞書内単語で置換する。また、S=0の場合、言語処理部108は、名詞とマッチ(一致)した辞書内単語がないものと判断し、当該名詞をそのまま利用する。そして、言語処理部108による言語処理を終了する。
【0083】
(第2確信度算出処理の詳細)
図9は、実施形態に係るMFPの第2確信度算出処理の流れの一例を示すフローチャートである。図9を参照しながら、MFP10の第2確信度算出部109による第2確信度処理の詳細について説明する。
【0084】
<ステップS131>
言語処理部108により抽出された名詞が辞書内単語とマッチ(一致)した場合(すなわち、確信度和S>0の場合)(ステップS131:Yes)、ステップS132へ移行し、マッチ(一致)していない場合(すなわち、確信度和S=0の場合)(ステップS131:No)、ステップS133へ移行する。
【0085】
<ステップS132>
第2確信度算出部109は、言語処理部108により辞書内単語に置換された名詞の各文字の第1確信度のうち最大の第1確信度を当該各文字の第2確信度として算出し、当該第2確信度を第2確信度保持部123に保持させる。そして、第2確信度算出部109による第2確信度算出処理を終了する。
【0086】
<ステップS133>
第2確信度算出部109は、言語処理部108により抽出された名詞が辞書内単語とマッチ(一致)していない場合、当該名詞の第1確信度のうち最小の第1確信度を当該各文字の第2確信度として算出し、当該第2確信度を第2確信度保持部123に保持させる。そして、第2確信度算出部109による第2確信度算出処理を終了する。
【0087】
(フォント色決定処理の詳細)
図10は、実施形態に係るMFPのフォント色決定処理の流れの一例を示すフローチャートである。図10を参照しながら、MFP10のフォント色決定部110によるフォント色決定処理の詳細について説明する。
【0088】
なお、図10の例では、フォント色決定部110は、フォント視認性が確信度と正の相関があるとした場合に基づいてフォント色を決定する動作について説明する。すなわち、正の相関があるとした場合、確信度が高いほど、注意喚起が重要であると捉えてフォント色を濃くし、確信度が低いほど、注意喚起が重要でないと捉えてフォント色を薄くする。また、切出し処理部103により切り出された外接矩形内の二値の文字画像は文字の形を表すことになるので、当該外接矩形内の文字画像が表す文字の画素と同じ位置にある原画像の画素の画素値の平均を算出することにより、確信度(例えば第2確信度)を反映する前の、原文字色(Rc,Gc,Bc)を得ることができる。ここで、サフィックスcは「character」に由来する。この場合、言語処理部108で言語処理がなされた名詞(フォント)のフォント色(Rf,Gf,Bf)は、以下の式(1)および(2)により、原文字色(Rc,Gc,Bc)に基づいて算出されて決定される。ここで、サフィックスfは「font」に由来する。
【0089】
(確信度C≧Thの場合)
Rf=Rc,Gf=Gc,Bf=Bc ・・・(1)
(それ以外の場合)
Rf=Rc+(255-Rc)×{(100-C)/100}^0.5 ・・・(2)
Gf=Gc+(255-Gc)×{(100-C)/100}^0.5
Bf=Bc+(255-Bc)×{(100-C)/100}^0.5
【0090】
上記の確信度Cは、0~100の値をとり、閾値Thは、例えば85とする。なお、式(2)中のべき乗を0.5乗としているが、これに限定されるものではなく、例えば1/3乗~1/2乗としてもよい。
【0091】
<ステップS221>
フォント色決定部110は、第1確信度保持部121からフォント色の決定の対象となる外接矩形(座標情報)を取得する。そして、ステップS222へ移行する。
【0092】
<ステップS222>
フォント色決定部110は、第1確信度保持部121から、取得した外接矩形の座標に対応した二値画像の画像部分(すなわち文字画像)、および原画像を取得する。そして、ステップS223へ移行する。
【0093】
<ステップS223>
フォント色決定部110は、外接矩形内の文字画像が表す文字の画素と同じ位置にある原画像の画素の画素値の平均を算出して原文字色(Rc,Gc,Bc)とする。そして、ステップS224へ移行する。
【0094】
<ステップS224>
フォント色決定部110は、算出した原文字色(Rc,Gc,Bc)に基づいて、上述の式(1)および(2)を用いてフォント色(Rf,Gf,Bf)を算出して決定する。具体的には、フォント色決定部110は、対象となる文字画像に対応する第2確信度を第2確信度保持部123から取得し、当該第2確信度を確信度Cとし、当該確信度Cが閾値Th(例えば85)以上である場合、上述の式(1)を用いてフォント色(Rf,Gf,Bf)を決定する。また、フォント色決定部110は、確信度Cが閾値Thよりも小さい場合、上述の式(2)を用いてフォント色(Rf,Gf,Bf)を算出して決定する。そして、フォント色決定部110によるフォント色決定処理を終了する。
【0095】
(文字画素置換色決定処理の詳細)
図11は、実施形態に係るMFPの文字画素置換色決定処理の流れの一例を示すフローチャートである。図11を参照しながら、MFP10の文字画素置換色決定部111による文字画素置換色決定処理の詳細について説明する。
【0096】
なお、図11の例では、文字画素置換色決定部111は、原画像での文字画素の消去具合が確信度と正の相関があるとした場合に基づいて文字画素置換色を決定する動作について説明する。すなわち、正の相関があるとした場合、確信度が高いほど、原画像の文字画素の色を原背景色から近い色(文字画素の消去具合が高い傾向)に置換し、確信度が低いほど、原画像の文字画素の色を原背景色から遠い色(文字画素の消去具合が低い傾向)に置換する。また、切出し処理部103により切り出された外接矩形内の文字画像が表す文字の画素とは別の位置にある原画像の画素の画素値の平均を算出することにより、文字画素置換色(Rr,Gr,Br)の算出の基となる原背景色(Rb,Gb,Bb)を得ることができる。ここで、サフィックスrは「replace」に由来し、サフィックスbは「back ground」に由来する。この場合、原画像において文字画像が示す文字の部分の画素と置換するための画素(置換文字画素)の色(画素値)である文字画素置換色(Rr,Gr,Br)は、以下の式(3)および(4)により、原背景色(Rb,Gb,Bb)に基づいて算出されて決定される。
【0097】
(確信度C≧Thの場合)
Rr=Rb,Gr=Gb,Br=Bb ・・・(3)
(それ以外の場合)
Rr=Rb+(255-Rb)×{(100-C)/100}^0.5 ・・・(4)
Gr=Gb+(255-Gb)×{(100-C)/100}^0.5
Br=Bb+(255-Bb)×{(100-C)/100}^0.5
【0098】
上述と同様に、確信度Cは、0~100の値をとり、閾値Thは、例えば85とする。なお、式(4)中のべき乗を0.5乗としているが、これに限定されるものではなく、例えば1/3乗~1/2乗としてもよい。
【0099】
<ステップS231>
文字画素置換色決定部111は、上述のステップS221でフォント色決定部110により取得された外接矩形内の文字画像が表す文字の画素とは別の位置にある原画像の画素の画素値の平均を算出することにより、文字画素置換色(Rr,Gr,Br)の算出の基となる原背景色(Rb,Gb,Bb)とする。そして、ステップS232へ移行する。
【0100】
<ステップS232>
文字画素置換色決定部111は、算出した原背景色(Rb,Gb,Bb)に基づいて、上述の式(3)および(4)を用いて文字画素置換色(Rr,Gr,Br)を算出して決定する。具体的には、文字画素置換色決定部111は、ステップS224でフォント色決定部110により取得された第2確信度を確信度Cとし、当該確信度Cが閾値Th(例えば85)以上である場合、上述の式(3)を用いて文字画素置換色(Rr,Gr,Br)を決定する。また、文字画素置換色決定部111は、確信度Cが閾値Thよりも小さい場合、上述の式(4)を用いて文字画素置換色(Rr,Gr,Br)を算出して決定する。そして、文字画素置換色決定部111による文字画素置換色決定処理を終了する。
【0101】
(原画像から文字画像を切り出すまでの処理の具体例)
図12は、オレンジ色の地に赤い文字が記載された原画像の一例を示す図である。図13は、二値化した画像の一例を示す図である。図14は、二値画像から切出し処理を行う動作を説明する図である。図12図14を参照しながら、MFP10における原画像から文字画像を切り出すまでの処理の具体例について説明する。
【0102】
図12に示す画像は、オンレジ色の地に赤い文字「とまと」が記載された原画像の一例である。画像取得部101は、スキャナ532により読み取られた画像データとして、例えば図12に示す原画像を取得する。
【0103】
次に、二値化部102は、図12に示す原画像を二値化することにより、図13に示す二値画像を得る。そして、切出し処理部103は、図14に示すように、二値化部102により生成された二値画像に含まれる個々の文字「と」、「ま」、「と」をその外接矩形により切り出す。
【0104】
(文字認識処理から第2確信度算出処理までの具体例)
上述の切出し処理部103により外接矩形により切り出された「と」、「ま」、「と」の文字画像に対して、引き続き、文字認識部104による文字認識処理、組合せ選択部105による候補文字の最適な組み合わせ(パス)の選択処理、およびルール処理部106による一定のルールに従った候補文字の修正処理が実行される。
【0105】
まず、第1確信度算出部107は、ルール処理部106により修正処理まで行われた候補文字「と」、「ま」、「と」に対して、下記の(表1)に示すように、第1確信度としてそれぞれ80[%]、85[%]、82[%]と算出した場合を例に説明する。
【0106】
【表1】
【0107】
単語辞書122に3文字の単語(辞書内単語)として「とまと」が含まれている場合、言語処理部108は、形態素解析により得られた名詞「とまと」と、当該辞書内単語との一致率が3文字/3文字=100[%]であり、上述の「0.6×k」が示す60[%]よりも大きいため、一致した文字についての第1確信度の和(この場合「247」)を計算する。そして、言語処理部108は、当該名詞と、単語辞書122内の辞書内単語のすべてとの比較が終了すると、最大値Smaxを決定し、名詞「とまと」を、最大値Smaxに対応する辞書内単語「とまと」で置換する。
【0108】
次に、第2確信度算出部109は、言語処理部108により辞書内単語「とまと」に置換された名詞「とまと」の各文字の第1確信度のうち最大の第1確信度「85」を当該各文字の第2確信度として算出し、名詞「とまと」の各文字に対して、下記の(表2)に示すように、第2確信度として85[%]に統一する。
【0109】
【表2】
【0110】
このように、名詞の各文字の第2確信度が同一の値になる結果、フォントの視認性、および原画像での文字画素の消去具合は、当該名詞内で同一となる。すなわち、名詞単位でフォント色決定処理および文字画素置換色決定処理が実行される。ここで、上述の(表1)および(表2)の各文字に対する第1確信度および第2確信度の結果パターンを、パターン(1)と称するものとする。
【0111】
次に、第1確信度算出部107は、ルール処理部106により修正処理まで行われた候補文字「と」、「ま」、「て」に対して、下記の(表3)に示すように、第1確信度としてそれぞれ80[%]、85[%]、60[%]と算出した場合を例に説明する。
【0112】
【表3】
【0113】
単語辞書122に3文字の単語(辞書内単語)として「とまと」が含まれている場合、言語処理部108は、形態素解析により得られた名詞「とまて」と、当該辞書内単語との一致率が2文字/3文字≒67[%]であり、上述の「0.6×k」が示す60[%]よりも大きいため、一致した文字についての第1確信度の和(この場合「225」)を計算する。そして、言語処理部108は、当該名詞と、単語辞書122内の辞書内単語のすべてとの比較が終了すると、最大値Smaxが「225」である場合、名詞「とまて」を、最大値Smaxに対応する辞書内単語「とまと」で置換する。
【0114】
次に、第2確信度算出部109は、言語処理部108により辞書内単語「とまと」に置換された名詞「とまと」の各文字の第1確信度のうち最大の第1確信度「85」を当該各文字の第2確信度として算出し、名詞「とまと」の各文字に対して、下記の(表4)に示すように、第2確信度として85[%]に統一する。
【0115】
【表4】
【0116】
このように、名詞の各文字の第2確信度が同一の値になる結果、フォントの視認性、および原画像での文字画素の消去具合は、当該名詞内で同一となる。すなわち、名詞単位でフォント色決定処理および文字画素置換色決定処理が実行される。ここで、上述の(表3)および(表4)の各文字に対する第1確信度および第2確信度の結果パターンを、パターン(2)と称するものとする。
【0117】
次に、第1確信度算出部107は、ルール処理部106により修正処理まで行われた候補文字「て」、「ま」、「て」に対して、下記の(表5)に示すように、第1確信度としてそれぞれ35[%]、85[%]、40[%]と算出した場合を例に説明する。
【0118】
【表5】
【0119】
単語辞書122に3文字の単語(辞書内単語)として「とまと」が含まれている(「てまて」は含まれていない)場合、言語処理部108は、形態素解析により得られた名詞「てまて」と、当該辞書内単語との一致率が1文字/3文字≒33[%]であり、上述の「0.6×k」が示す60[%]よりも小さく、その他の辞書内単語との一致率も60[%]を超えない場合、名詞「てまて」と一致する辞書内単語がないものと判断し、置換を行わず当該名詞「てまて」をそのまま利用する。
【0120】
次に、第2確信度算出部109は、名詞「てまて」が辞書内単語とマッチ(一致)していない場合、当該名詞「てまて」の第1確信度のうち最小の第1確信度「40」を、ペナルティを課すために当該各文字の第2確信度として算出し、名詞「てまて」の各文字に対して、下記の(表6)に示すように、第2確信度として40[%]に統一する。
【0121】
【表6】
【0122】
このように、名詞の各文字の第2確信度が同一の値になる結果、フォントの視認性、および原画像での文字画素の消去具合は、当該名詞内で同一となる。すなわち、名詞単位でフォント色決定処理および文字画素置換色決定処理が実行される。ここで、上述の(表5)および(表6)の各文字に対する第1確信度および第2確信度の結果パターンを、パターン(3)と称するものとする。
【0123】
なお、上述の説明では、名詞の各文字の第2確信度を同一の値とすることにより、名詞単位でフォント色決定処理および文字画素置換色決定処理が実行されるものとしたが、文字単位の処理であってもよい。文字単位で処理を行うためには、例えば、名詞の各文字と辞書内単語の各文字とについて、一致した文字の場合、第2確信度=第1確信度×1.1(ただし、最大で「100」)とし、一致しない文字の場合、第2確信度=第1確信度×0.9とすればよい。また、例えば、名詞の各文字と辞書内単語の各文字とについて、一致した文字の場合、第2確信度=第1確信度+5(ただし、最大で「100」)とし、一致しない文字の場合、第2確信度=第1確信度-10(ただし、最小で「0」)とすればよい。このように第2確信度を算出することによって、誤り訂正はされる一方で、各文字の第1確信度の名詞内での大小関係は、第2確信度でも維持されることになる。
【0124】
(パターン(1):正の相関に基づくフォント色決定処理および文字画素置換色決定処理の具体例)
図15は、文字単位の確信度制御を行わない場合のフォントの一例を示す図である。図16は、文字単位の確信度制御を行った場合のフォントの一例を示す図である。図17は、文字単位の確信度制御を行わない場合の置換文字画素の一例を示す図である。図18は、文字単位の確信度制御を行った場合の置換文字画素の一例を示す図である。図19は、原画像に文字単位の確信度制御を行わない場合の置換文字画素を重畳させた状態の一例を示す図である。図20は、原画像に文字単位の確信度制御を行わない場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。図21は、原画像に文字単位の確信度制御を行った場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。図15図21を参照しながら、パターン(1)の場合の正の相関に基づくフォント色決定処理および文字画素置換色決定処理の具体例について説明する。
【0125】
言語処理部108により確定した名詞「とまと」の3文字の第1確信度および第2確信度の組み合わせは、上述のパターン(1)、すなわち、下記の(表7)に示すパターンであるものとする。
【0126】
【表7】
【0127】
フォント色決定部110は、第1確信度保持部121から、フォント色の決定の対象となる外接矩形(座標情報)を取得し、当該外接矩形の座標に対応した二値画像の画像部分(すなわち文字画像)、および原画像を取得する。そして、フォント色決定部110は、外接矩形内の文字画像が表す文字の画素と同じ位置にある原画像の画素の画素値の平均を算出した結果、3文字とも原文字色(Rc,Gc,Bc)=(250,34,22)とする。なお、原文字色(Rc,Gc,Bc)は、外接矩形ごとに異なる場合もある。
【0128】
この場合、フォント色決定部110は、上記の(表7)の第1確信度を確信度Cとした場合に、上述の式(1)および(2)を用いて、フォント色(Rf,Gf,Bf)を算出した結果は、以下のようになる。
【0129】
確信度C=85の場合、(Rf,Gf,Bf)=(250,34,22)
確信度C=80の場合、(Rf,Gf,Bf)=(252,133,126)
確信度C=82の場合、(Rf,Gf,Bf)=(252,128,121)
【0130】
上記のように、第1確信度を確信度Cとした場合に算出されるフォント色(Rf,Gf,Bf)は、それぞれ異なるものとなり、フォント色決定部110により文字単位でフォント色決定処理が行われた場合のフォントおよびフォント色は、図15に示したものとなる。
【0131】
一方、「85」に統一された第2確信度を確信度Cとした場合に算出されるフォント色(Rf,Gf,Bf)は、同一のものとなり、フォント色決定部110により名詞単位でフォント色決定処理が行われた場合のフォントおよびフォント色は、図16に示したように統一したものとなる。
【0132】
続いて、文字画素置換色決定部111は、上述のステップS221でフォント色決定部110により取得された外接矩形内の文字画像が表す文字の画素とは別の位置にある原画像の画素の画素値の平均を算出した結果、3つの外接矩形とも原背景色(Rb,Gb,Bb)=(255,230,153)とする。
【0133】
この場合、文字画素置換色決定部111は、上記の(表7)の第1確信度をCとした場合に、上述の式(3)および(4)を用いて、文字画素置換色(Rr,Gr,Br)を算出した結果は、以下のようになる。
【0134】
確信度C=85の場合、(Rr,Gr,Br)=(255,230,153)
確信度C=80の場合、(Rr,Gr,Br)=(255,241,199)
確信度C=82の場合、(Rr,Gr,Br)=(255,241,196)
【0135】
上記のように、第1確信度を確信度Cとした場合に算出される文字画素置換色(Rr,Gr,Br)は、それぞれ異なるものとなり、文字画素置換色決定部111により文字単位で文字画素置換色決定処理が行われた場合の置換文字画素および文字画素置換色は、図17に示したものとなる。
【0136】
一方、「85」に統一された第2確信度を確信度Cとした場合に算出される文字画素置換色(Rr,Gr,Br)は、同一のものとなり、文字画素置換色決定部111により名詞単位で文字画素置換色決定処理が行われた場合の置換文字画素および文字画素置換色は、図18に示したように統一したものとなる。
【0137】
続いて、名詞単位で処理をしない場合(文字単位で処理をする場合)、ラップ処理部112により、図12に示した原画像に対して、図17に示した置換文字画素が重畳された場合、図19に示したものとなる。さらに、ラップ処理部112により、図19に示した画像に対して、図15に示したフォントが重畳された場合、図20に示したものとなる。
【0138】
一方、名詞単位で処理をする場合、ラップ処理部112により、図12に示した原画像に対して、図18に示した置換文字画素が重畳され、さらにその上から図16に示したフォントが重畳された場合、図21に示したものとなる。
【0139】
(パターン(3):正の相関に基づくフォント色決定処理および文字画素置換色決定処理の具体例)
図22は、文字単位の確信度制御を行わない場合のフォントの一例を示す図である。図23は、文字単位の確信度制御を行った場合のフォントの一例を示す図である。図24は、文字単位の確信度制御を行わない場合の置換文字画素の一例を示す図である。図25は、文字単位の確信度制御を行った場合の置換文字画素の一例を示す図である。図26は、原画像に文字単位の確信度制御を行わない場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。図27は、原画像に文字単位の確信度制御を行った場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。図22図27を参照しながら、パターン(3)の場合の正の相関に基づくフォント色決定処理および文字画素置換色決定処理の具体例について説明する。
【0140】
言語処理部108により確定した名詞「てまて」の3文字の第1確信度および第2確信度の組み合わせは、上述のパターン(3)、すなわち、下記の(表8)に示すパターンであるものとする。
【0141】
【表8】
【0142】
フォント色決定部110は、第1確信度保持部121から、フォント色の決定の対象となる外接矩形(座標情報)を取得し、当該外接矩形の座標に対応した二値画像の画像部分(すなわち文字画像)、および原画像を取得する。そして、フォント色決定部110は、外接矩形内の文字画像が表す文字の画素と同じ位置にある原画像の画素の画素値の平均を算出した結果、3文字とも原文字色(Rc,Gc,Bc)=(250,34,22)とする。なお、原文字色(Rc,Gc,Bc)は、外接矩形ごとに異なる場合もある。
【0143】
この場合、フォント色決定部110は、上記の(表8)の第1確信度を確信度Cとした場合に、上述の式(1)および(2)を用いて、フォント色(Rf,Gf,Bf)を算出した結果は、以下のようになる。
【0144】
確信度C=35の場合、(Rf,Gf,Bf)=(254,212,210)
確信度C=85の場合、(Rf,Gf,Bf)=(250,34,22)
確信度C=40の場合、(Rf,Gf,Bf)=(252,205,202)
【0145】
上記のように、第1確信度を確信度Cとした場合に算出されるフォント色(Rf,Gf,Bf)は、それぞれ異なるものとなり、フォント色決定部110により文字単位でフォント色決定処理が行われた場合のフォントおよびフォント色は、図22に示したものとなる。
【0146】
一方、「40」に統一された第2確信度を確信度Cとした場合に算出されるフォント色(Rf,Gf,Bf)は、同一のものとなり、フォント色決定部110により名詞単位でフォント色決定処理が行われた場合のフォントおよびフォント色は、図23に示したように統一したものとなる。
【0147】
続いて、文字画素置換色決定部111は、上述のステップS221でフォント色決定部110により取得された外接矩形内の文字画像が表す文字の画素とは別の位置にある原画像の画素の画素値の平均を算出した結果、3つの外接矩形とも原背景色(Rb,Gb,Bb)=(255,230,153)とする。
【0148】
この場合、文字画素置換色決定部111は、上記の(表8)の第1確信度をCとした場合に、上述の式(3)および(4)を用いて、文字画素置換色(Rr,Gr,Br)を算出した結果は、以下のようになる。
【0149】
確信度C=35の場合、(Rr,Gr,Br)=(255,250,235)
確信度C=85の場合、(Rr,Gr,Br)=(255,230,153)
確信度C=40の場合、(Rr,Gr,Br)=(255,249,232)
【0150】
上記のように、第1確信度を確信度Cとした場合に算出される文字画素置換色(Rr,Gr,Br)は、それぞれ異なるものとなり、文字画素置換色決定部111により文字単位で文字画素置換色決定処理が行われた場合の置換文字画素および文字画素置換色は、図24に示したものとなる。
【0151】
一方、「40」に統一された第2確信度を確信度Cとした場合に算出される文字画素置換色(Rr,Gr,Br)は、同一のものとなり、文字画素置換色決定部111により名詞単位で文字画素置換色決定処理が行われた場合の置換文字画素および文字画素置換色は、図25に示したように統一したものとなる。
【0152】
続いて、名詞単位で処理をしない場合(文字単位で処理をする場合)、ラップ処理部112により、図12に示した原画像に対して、図24に示した置換文字画素が重畳され、さらにその上から図22に示したフォントが重畳された場合、図26に示したものとなる。
【0153】
一方、名詞単位で処理をする場合、ラップ処理部112により、図12に示した原画像に対して、図25に示した置換文字画素が重畳され、さらにその上から図23に示したフォントが重畳された場合、図27に示したものとなる。
【0154】
以上のように、フォント視認性が確信度と正の相関があるとした場合、確信度が高いほど、注意喚起が重要であると捉えてフォント色を目立たせるため濃くし、確信度が低いほど、注意喚起が重要でないと捉えてフォント色を目立たせないように薄くする。また、原画像での文字画素の消去具合が確信度と正の相関があるとした場合、確信度が高いほど、原画像の文字画素の色を原背景色から近い色(正解の文字が見えにくいような文字画素の消去具合が高い傾向)に置換し、確信度が低いほど、原画像の文字画素の色を原背景色から遠い色(正解の文字が見えやすいような文字画素の消去具合が低い傾向)に置換する。
【0155】
(パターン(3):負の相関に基づくフォント色決定処理および文字画素置換色決定処理の具体例)
図28は、負の相関に基づいて文字単位の確信度制御を行った場合のフォントの一例を示す図である。図29は、負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素の一例を示す図である。図30は、原画像に負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素およびフォントを重畳させた状態の一例を示す図である。図31は、原画像に、負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素、および正の相関に基づいて文字単位の確信度制御を行った場合のフォントを重畳させた状態の一例を示す図である。図28図31を参照しながら、パターン(3)の場合の負の相関に基づくフォント色決定処理および文字画素置換色決定処理の具体例について説明する。すなわち、フォント色決定部110は、フォント視認性が確信度と負の相関があるとした場合に基づいてフォント色を決定する。すなわち、負の相関があるとした場合、確信度が高いほど、注意喚起が重要でないと捉えてフォント色を薄くし、確信度が低いほど、注意喚起が重要であると捉えてフォント色を濃くする。また、文字画素置換色決定部111は、原画像での文字画素の消去具合が確信度と負の相関があるとした場合に基づいて文字画素置換色を決定する。すなわち、負の相関があるとした場合、確信度が高いほど、原画像の文字画素の色を原背景色から遠い色(文字画素の消去具合が低い傾向)に置換し、確信度が低いほど、原画像の文字画素の色を原背景色から近い色(文字画素の消去具合が高い傾向)に置換する。
【0156】
この場合、言語処理部108で言語処理がなされた名詞(フォント)のフォント色(Rf,Gf,Bf)は、以下の式(5)および(6)により、原文字色(Rc,Gc,Bc)に基づいて算出されて決定される。
【0157】
(確信度C≧Thの場合)
Rf=Rc,Gf=Gc,Bf=Bc ・・・(5)
(それ以外の場合)
Rf=Rc-Rc×{(100-C)/100}^0.5 ・・・(6)
Gf=Gc-Gc×{(100-C)/100}^0.5
Bf=Bc-Bc×{(100-C)/100}^0.5
【0158】
上記の確信度Cは、0~100の値をとり、閾値Thは、例えば85とする。なお、式(6)中のべき乗を0.5乗としているが、これに限定されるものではなく、例えば1/3乗~1/2乗としてもよい。
【0159】
この場合、原画像において文字画像が示す文字の部分の画素と置換するための画素(置換文字画素)の色(画素値)である文字画素置換色(Rr,Gr,Br)は、以下の式(7)および(8)により、原背景色(Rb,Gb,Bb)に基づいて算出されて決定される。
【0160】
(確信度C≧Thの場合)
Rr=Rb,Gr=Gb,Br=Bb ・・・(7)
(それ以外の場合)
Rr=Rb-Rb×{(100-C)/100}^0.5 ・・・(8)
Gr=Gb-Gb×{(100-C)/100}^0.5
Br=Bb-Bb×{(100-C)/100}^0.5
【0161】
上述と同様に、確信度Cは、0~100の値をとり、閾値Thは、例えば85とする。なお、式(8)中のべき乗を0.5乗としているが、これに限定されるものではなく、例えば1/3乗~1/2乗としてもよい。
【0162】
言語処理部108により確定した名詞「てまて」の3文字の第1確信度および第2確信度の組み合わせは、上述のパターン(3)、すなわち、上述の(表8)に示すパターンであるものとする。
【0163】
フォント色決定部110は、第1確信度保持部121から、フォント色の決定の対象となる外接矩形(座標情報)を取得し、当該外接矩形の座標に対応した二値画像の画像部分(すなわち文字画像)、および原画像を取得する。そして、フォント色決定部110は、外接矩形内の文字画像が表す文字の画素と同じ位置にある原画像の画素の画素値の平均を算出した結果、3文字とも原文字色(Rc,Gc,Bc)=(250,34,22)とする。なお、原文字色(Rc,Gc,Bc)は、外接矩形ごとに異なる場合もある。
【0164】
この場合、フォント色決定部110は、上記の(表8)の「40」に統一された第2確信度を確信度Cとした場合に、上述の式(5)および(6)を用いて、フォント色(Rf,Gf,Bf)を算出した結果は、以下のようになる。
【0165】
確信度C=40の場合、(Rf,Gf,Bf)=(250,8,5)
【0166】
このように、「40」に統一された第2確信度を確信度Cとした場合に算出されるフォント色(Rf,Gf,Bf)は、同一のものとなり、フォント色決定部110により名詞単位でフォント色決定処理が行われた場合のフォントおよびフォント色は、図28に示したように統一したものとなる。
【0167】
続いて、文字画素置換色決定部111は、上述のステップS221でフォント色決定部110により取得された外接矩形内の文字画像が表す文字の画素とは別の位置にある原画像の画素の画素値の平均を算出した結果、3つの外接矩形とも原背景色(Rb,Gb,Bb)=(255,230,153)とする。
【0168】
この場合、文字画素置換色決定部111は、上記の(表8)の「40」に統一された第2確信度をCとした場合に、上述の式(7)および(8)を用いて、文字画素置換色(Rr,Gr,Br)を算出した結果は、以下のようになる。
【0169】
確信度C=40の場合、(Rr,Gr,Br)=(255,52,35)
【0170】
このように、「40」に統一された第2確信度を確信度Cとした場合に算出される文字画素置換色(Rr,Gr,Br)は、同一のものとなり、文字画素置換色決定部111により名詞単位で文字画素置換色決定処理が行われた場合の置換文字画素および文字画素置換色は、図29に示したように統一したものとなる。
【0171】
続いて、名詞単位で処理をしない場合(文字単位で処理をする場合)、ラップ処理部112により、図12に示した原画像に対して、図24に示した置換文字画素が重畳され、さらにその上から図22に示したフォントが重畳された場合、図26に示したものとなる。
【0172】
続いて、名詞単位で処理をする場合、ラップ処理部112により、図12に示した原画像に対して、図29に示した置換文字画素が重畳され、さらにその上から図28に示したフォントが重畳された場合、図30に示したものとなる。
【0173】
以上のように、フォント視認性が確信度と負の相関があるとした場合、確信度が高いほど、注意喚起が重要でないと捉えて薄くし、確信度が低いほど、注意喚起が重要でないと捉えて濃くする。また、原画像での文字画素の消去具合が確信度と負の相関があるとした場合、確信度が高いほど、原画像の文字画素の色を原背景色から遠い色(文字画素の消去具合が低い傾向)に置換し、確信度が低いほど、原画像の文字画素の色を原背景色から近い色(文字画素の消去具合が高い傾向)に置換する。
【0174】
なお、図30では、フォント色決定処理および文字画素置換色決定処理は、共に負の相関に基づいた処理の結果を示しているが、それぞれの処理形式は互いに独立とすることができるため、処理の際の条件(原画像および文字の確信度)は同一として、各処理について正の相関または負の相関の別々に設定して行われるようにしてもよい。例えば、フォント色決定処理は正の相関に基づくものとし、文字画素置換色決定処理は負の相関に基づくものとした場合に、原画像(図12に示した原画像)に対して、文字画素置換色決定処理が行われた置換文字画素(図29に示したもの)を重畳し、フォント色決定処理が行われたフォント(図23に示したもの)を重畳した結果を、図31に示す。
【0175】
また、フォント色決定処理および文字画素置換色決定処理について、正の相関または負の相関だけでなく、確信度に対して相関を持たない、例えばある確信度からある確信度までは正の相関、他の確信度では負の相関といったように、相関を自由に設定できるようにしてもよい。これによって、視覚的な注意喚起のバリエーションが増え、読み手にとって見やすく、便利で、自然な態様でのドキュメントデータへの出力が可能となる。
【0176】
(パターン(3):白地の原画像に対応したフォント色決定処理および文字画素置換色決定処理の具体例)
図32は、白地に赤い文字が記載された原画像の一例を示す図である。図33は、原画像に、負の相関に基づいて文字単位の確信度制御を行った場合の置換文字画素、および正の相関に基づいて文字単位の確信度制御を行った場合のフォントを重畳させた状態の一例を示す図である。図32および図33を参照しながら、パターン(3)の場合であって、かつ原画像の地が白色である場合に対応したフォント色決定処理および文字画素置換色決定処理の具体例について説明する。
【0177】
原背景色の地が白色である場合、すなわち原背景色(Rb,Gb,Bb)=(255,255,255)である場合に、上述の式(3)および(4)で文字画素置換色を算出すると、確信度Cによらずに、文字画素置換色(Rr,Gr,Br)=(255,255,255)と一定になり、注意喚起の効果を全く奏さなくなる。この場合、フォント色決定処理および文字画素置換色決定処理は、原文字色(Rc,Gc,Bc)と原背景色(Rb,Gb,Bb)との関係を考慮して設定する必要がある。
【0178】
上述の式(7)および(8)を適用すると、白以外の原背景色は、R、G、Bのうちいずれかが最大値をとる場合は,原文字色を保持するが,白地の場合は,その限定を入れると白のまま置換されないため,原背景色(Rb,Gb,Bb)=(255,255,255)の場合のみ限定条件はとって文字画素置換色決定処理を行えば注意喚起の効果を期待できる。
【0179】
例えば、原画像が、図32に示すように、背景が白地で赤い文字「とまと」が記載された画像であるものとする。言語処理部108により確定した名詞「てまて」の3文字の第1確信度および第2確信度の組み合わせは、上述のパターン(3)、すなわち、上述の(表8)に示すパターンであるものとする。
【0180】
フォント色決定部110は、第1確信度保持部121から、フォント色の決定の対象となる外接矩形(座標情報)を取得し、当該外接矩形の座標に対応した二値画像の画像部分(すなわち文字画像)、および原画像を取得する。そして、フォント色決定部110は、外接矩形内の文字画像が表す文字の画素と同じ位置にある原画像の画素の画素値の平均を算出した結果、3文字とも原文字色(Rc,Gc,Bc)=(250,34,22)とする。
【0181】
この場合、フォント色決定部110は、上記の(表8)の「40」に統一された第2確信度を確信度Cとした場合に、上述の式(1)および(2)を用いて、正の相関に基づいてフォント色(Rf,Gf,Bf)を算出した結果は、以下のようになる。
【0182】
確信度C=40の場合、(Rf,Gf,Bf)=(254,205,202)
【0183】
この場合、フォント色決定部110により名詞単位で正の相関に基づいてフォント色決定処理が行われた場合のフォントおよびフォント色は、図23に示したように統一したものとなる。
【0184】
続いて、文字画素置換色決定部111は、上記の(表8)の「40」に統一された第2確信度をCとした場合に、R、G、Bそれぞれに均一に黒側に濃くしていく方向に処理すると仮定して(負の相関に基づくものとして)、上述の式(7)および(8)を用いて、文字画素置換色(Rr,Gr,Br)を算出した結果は、以下のようになる。
【0185】
確信度C=40の場合、(Rr,Gr,Br)=(58,58,58)
【0186】
続いて、ラップ処理部112により、図32に示した原画像に対して、上述の文字画素置換色決定処理で文字画素置換色(Rr,Gr,Br)が決定された置換文字画素が重畳され、さらにその上から図23に示したフォントが重畳された場合、図33に示したものとなる。
【0187】
なお、上述の白地の原画像についての文字画素置換色決定処理では、文字画素置換色を黒側に濃くしていく動作を説明したが、これに限定されるものではなく、例えば、原背景色(Rb,Gb,Bb)のいずれか1成分または2成分が「255」を保持して、それ以外を置換するものとすれば、一次色または二次色で濃くしていくこともできる。例えば、文字画素置換色(Rr,Gr,Br)は、上述の式(7)および(8)からの派生で、以下の式(9)および(10)により算出されて決定される。
【0188】
(確信度C≧Thの場合)
Rr=255,Gr=255,Br=255 ・・・(9)
(それ以外の場合)
Rr=255-255×{(100-C)/100}^0.5 ・・・(10)
Gr=255-255×{(100-C)/100}^0.5
Br=255
【0189】
これによって、白地の原画像についての文字画素置換色決定処理により、文字画素置換色を青色に濃くしていく動作とすることができる。
【0190】
(原文字色および原背景色の補色を用いたフォント色決定処理および文字画素置換色決定処理の具体例)
次に、原文字色および原背景色から、フォント色および文字画素置換色を全く異なる色に置き換えることにより、注意喚起をより効果的に行う動作について説明する。
【0191】
例えば、言語処理部108で言語処理がなされた名詞(フォント)のフォント色(Rf,Gf,Bf)を、以下の式(11)~(13)により、原文字色(Rc,Gc,Bc)の補色(Rcc,Gcc,Bcc)(第1補色)に基づいて算出されて決定される。ここで、後の位置のサフィックスcは「complementary」に由来する。
【0192】
(確信度C≧Thの場合)
Rf=Rcc,Gf=Gcc,Bf=Bcc ・・・(11)
(それ以外の場合:確信度Cが低いほど濃くする)
Rf=Rcc+255×(C/100)^0.5 ・・・(12)
Gf=Gcc+255×(C/100)^0.5
Bf=Bcc+255×(C/100)^0.5
(それ以外の場合:確信度Cが低いほど薄くする)
Rf=Rcc+255×{(100-C)/100}^0.5 ・・・(13)
Gf=Gcc+255×{(100-C)/100}^0.5
Bf=Bcc+255×{(100-C)/100}^0.5
【0193】
上記の確信度Cは、0~100の値をとり、閾値Thは、例えば85とする。なお、式(12)および(13)中のべき乗を0.5乗としているが、これに限定されるものではなく、例えば1/3乗~1/2乗としてもよい。
【0194】
同様に、原画像において文字画像が示す文字の部分の画素と置換するための画素(置換文字画素)の色(画素値)である文字画素置換色(Rr,Gr,Br)は、以下の式(14)~(16)により、原背景色(Rb,Gb,Bb)の補色(Rbc,Gbc,Bbc)(第2補色)に基づいて算出されて決定される。ここで、後の位置のサフィックスcは「complementary」に由来する。
【0195】
(確信度C≧Thの場合)
Rr=Rbc,Gr=Gbc,Br=Bbc ・・・(14)
(それ以外の場合:確信度Cが低いほど濃くする)
Rr=Rbc+255×(C/100)^0.5 ・・・(15)
Gr=Gbc+255×(C/100)^0.5
Br=Bbc+255×(C/100)^0.5
(それ以外の場合:確信度Cが低いほど薄くする)
Rr=Rbc+255×{(100-C)/100}^0.5 ・・・(16)
Gr=Gbc+255×{(100-C)/100}^0.5
Br=Bbc+255×{(100-C)/100}^0.5
【0196】
上記の確信度Cは、0~100の値をとり、閾値Thは、例えば85とする。なお、式(15)および(16)中のべき乗を0.5乗としているが、これに限定されるものではなく、例えば1/3乗~1/2乗としてもよい。
【0197】
以上の、原文字色および原背景色の補色に基づいて、フォント色決定処理および文字画素置換色決定処理を実行するにより、注意喚起をより効果的に行うことができる。
【0198】
なお、上述の説明では、フォント色を原文字色の補色を用いて決定し、文字画素置換色を原背景色の補色を用いて決定するものとしているが、これに限定されるものではない。例えば、フォント色を原背景色の補足を用いて決定し、文字画素置換色を原文字色の補色を用いて決定するものとしてもよい。これによって、見やすさおよび注意喚起のバリエーションを増やすことができる。
【0199】
(フォント色決定処理および文字画素置換色決定処理の処理方式の選択設定)
図34は、処理方式選択画面の一例を示す図である。図34を参照しながら、フォント色決定処理および文字画素置換色決定処理の処理方式を選択して設定する動作について説明する。
【0200】
上述のように、フォント色決定処理および文字画素置換色決定処理の処理方式として、確信度に対する正の相関、負の相関、原文字色の補色、または原背景色の補色に基づいた方式により実行する動作を説明したが、これらが自由に選択して設定できるようにしてもよい。図34に示す処理方式選択画面1000は、表示制御部132による制御に従って操作表示部510に表示される画面であり、フォント色決定処理および文字画素置換色決定処理の処理方式を選択して設定するための画面である。処理方式選択画面1000は、図34に示すように、フォント色用選択ラジオボタン1001と、文字画素置換色用選択ラジオボタン1002と、OKボタン1011と、キャンセルボタン1012と、を含む。
【0201】
フォント色用選択ラジオボタン1001は、フォント色決定部110によるフォント色決定処理について、確信度(第1の確信度または第2の確信度)に対する正の相関、負の相関、原文字色の補色、または原背景色の補色に基づいた処理方式のうちいずれの処理方式により実行するのかを選択するためのラジオボタンである。
【0202】
文字画素置換色用選択ラジオボタン1002は、文字画素置換色決定部111による文字画素置換色決定処理について、確信度(第1の確信度または第2の確信度)に対する正の相関、負の相関、原文字色の補色、または原背景色の補色に基づいた処理方式のうちいずれの処理方式により実行するのかを選択するためのラジオボタンである。
【0203】
OKボタン1011は、フォント色用選択ラジオボタン1001および文字画素置換色用選択ラジオボタン1002それぞれで選択された処理方式の設定内容を確定するためのボタンである。入力部133を介してOKボタン1011が押下されると、設定部134は、フォント色用選択ラジオボタン1001で選択された処理方式をフォント色決定処理に対して設定し、文字画素置換色用選択ラジオボタン1002で選択された処理方式を文字画素置換色決定処理に対して設定する。このとき、設定部134は、フォント色設定処理および文字画素置換色決定処理に対して設定した処理方式の情報を、記憶部120に記憶させる。そして、フォント色決定部110は、記憶部120に記憶されたフォント色決定処理の処理方式の設定内容に基づいて、フォント色決定処理を実行し、文字画素置換色決定部111は、記憶部120に記憶された文字画素置換色決定処理の処理方式の設定内容に基づいて、文字画素置換色決定処理を実行する。
【0204】
キャンセルボタン1012は、フォント色用選択ラジオボタン1001および文字画素置換色用選択ラジオボタン1002で選択した内容をキャンセルするためのボタンである。
【0205】
なお、上述では、処理方式選択画面1000によりユーザが手動で、フォント色決定処理および文字置換色決定処理の処理方式を設定するものとしているが、これに限定されるものではなく、所定の条件に応じて、自動で処理方式が設定されるものとしてもよい。
【0206】
以上のように、本実施形態に係るMFP10では、フォント色決定処理および文字画素置換色決定処理において、原画像の原文字色、原背景色に基づいた処理方式を設定可能としている。これによって、文字画素(置換文字画素)の色およびフォントの色の制御(処理方式)の組み合わせにより、読み手にとって見やすく、かつ文字認識における誤認識についての自然な注意喚起を実現することができる。
【0207】
また、本実施形態に係るMFP10では、フォント色決定処理および文字画素置換色決定処理の処理方式として、例えば確信度に対する正の相関、負の相関、原文字色の補色、または原背景色の補色のいずれかに基づいた処理方式を設定できるものとしている。これによって、視覚的な注意喚起のバリエーションが増え、読み手にとって見やすく、便利で、自然な態様でのドキュメントデータへの出力が可能となる。
【0208】
(変形例)
変形例に係るMFP10について、上述の本実施形態に係るMFP10とは異なる動作を中心に説明する。本変形例では、特定の確信度を転換点として、確信度に対する正の相関または負の相関に基づく処理方式と、補色に基づいた処理方式とを切り替える動作について説明する。なお、本変形例に係るMFP10のハードウェア構成および機能ブロックの構成は、上述の実施形態に係るMFP10と同様である。
【0209】
図35は、正の相関に基づく処理および補色処理の組み合わせの一例を説明する図である。図36は、文字画素置換色およびフォント色に対する処理の組み合わせの結果の一例を示す図である。図35および図36を参照しながら、本変形例に係るMFP10のフォント色決定処理および文字画素置換色決定処理について説明する。
【0210】
上述の実施形態では、フォント色決定処理および文字画素置換色決定処理に対して、それぞれ確信度に対する正の相関、負の相関、原文字色の補色、または原背景色の補色のいずれかの処理方式を設定して、処理を行うものとして説明した。これに対して、本変形例では、フォント色決定処理および文字画素置換色決定処理の少なくともいずれかに対して、特定の確信度を転換点として、確信度に対する正の相関または負の相関に基づく処理方式と、補色に基づいた処理方式とを切り替える動作について説明する。例えば、フォント色決定処理(または文字画素置換色決定処理)について、特定の確信度を転換点として、転換点よりも上の確信度では、文字単位または名詞単位で、正の相関または負の相関に基づいて処理を行い、当該転換点よりも下の確信度では、文字単位または名詞単位で、原文字色または原背景色の補色に基づいて処理を行うものとしてもよい。これによって、原画像と比較して、OCRによる文字認識の結果との差分が見やすくなる。なお、転換点を境にして、正の相関または負の相関に基づく処理と、原文字色または原背景色の補色に基づく処理とが、逆であってもよい。
【0211】
図35に示す例では、確信度の転換点を「50」とし、確信度の閾値Thを「80」とし、原文字色または原背景色が赤色とした仮定した場合、確信度が転換点よりも高い場合、確信度が高いほど濃く、確信度が低いほど薄くなっていく正の相関をする処理を行い、確信度が転換点よりも低い場合、原文字色または原背景色の補色に基づいて、確信度が高いほど薄くし、確信度が低いほど濃くする処理を行う動作を示している。この図35に示す処理の組み合わせを用いて、図12に示した原画像に対してフォント色決定処理および文字画素置換色決定処理を行った場合の例を、図36に示す。
【0212】
図36に示す左側の例では、確信度「40」が転換点「50」よりも低いことにより、フォント色決定処理について、原文字色の補色に基づく処理方式により処理を行い、文字画素置換色決定処理については、正の相関に基づく処理方式により処理を行った場合の例を示す。図36に示す右側の例では、確信度「40」が転換点「50」よりも低いことにより、文字画素置換色決定処理について、原背景色の補色に基づく処理方式により処理を行い、フォント色決定処理については、正の相関に基づく処理方式により処理を行った場合の例を示す。
【0213】
これによって、文字画素(置換文字画素)の色およびフォントの色の制御(処理方式)の組み合わせのバリエーションがさらに増え、読み手にとって見やすく、かつ文字認識における誤認識についての自然な注意喚起を実現することができる。
【0214】
なお、原背景色を閾値として処理の転換点を変えてもよく、特定の確信度において、原背景色よりも文字画素置換色が薄くなってしまう場合は、薄くなる手前の確信度の文字画素置換色を保持するといった処理にしてもよい。逆に、原背景色よりも濃くなってしまう場合は、濃くなる手間の確信度の文字画素置換色を保持するといった処理にしてもよい。これによって、原背景色、フォント色、文字置換色間の色の被りを防ぐことができ、より見やすくなることが期待できる。
【0215】
また、本変形例のように、転換点を境にして、確信度に対して相関を有する処理と、補色に基づく処理とを切り替えて処理する動作については、上述の処理方式選択画面1000において、自由に設定ができるものとしてもよい。この場合、転換点をどの程度にするか等についても設定できるものとしてもよい。
【0216】
なお、上述の実施形態および変形例において、言語処理部108による形態素解析により抽出されるものとして名詞を取り上げて説明したが、これに限定されず、形容詞、動詞、副詞、助詞、接続詞等のように広く品詞を抽出するものとしてもよい。
【0217】
また、上述の実施形態および変形例の各機能は、一または複数の処理回路によって実現することが可能である。ここで、「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上述した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field-Programmable Gate Array)、SoC(System on a Chip)、GPU(Graphics Processing Unit)や従来の回路モジュール等のデバイスを含むものとする。
【0218】
また、上述の実施形態および変形例において、MFP10の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施形態および変形例に係るMFP10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk-Recordable)、DVDまたはSD(Secure Digital)カード等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述の実施形態および変形例に係るMFP10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施形態および変形例に係るMFP10で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施形態および変形例に係るMFP10で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPUが上述の記憶装置からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置上にロードされて生成されるようになっている。
【符号の説明】
【0219】
1 情報処理システム
10 MFP
11 スキャナ部
12 プリンタ部
20 PC
30 ファイルサーバ
101 画像取得部
102 二値化部
103 切出し処理部
104 文字認識部
105 組合せ選択部
106 ルール処理部
107 第1確信度算出部
108 言語処理部
109 第2確信度算出部
110 フォント色決定部
111 文字画素置換色決定部
112 ラップ処理部
120 記憶部
121 第1確信度保持部
122 単語辞書
123 第2確信度保持部
124 処理方式設定情報
131 通信部
132 表示制御部
133 入力部
134 設定部
500 コントローラ
501 CPU
502 システムメモリ(MEM-P)
503 ノースブリッジ(NB)
504a サウスブリッジ(SB)
504b ネットワークI/F
504c USB I/F
504d セントロニクスI/F
505 AGP
506 ASIC
507 ローカルメモリ(MEM-C)
508 補助記憶装置
510 操作表示部
520 FCU
531 プロッタ
532 スキャナ
1000 処理方式選択画面
1001 フォント色用選択ラジオボタン
1002 文字画素置換色用選択ラジオボタン
1011 OKボタン
1012 キャンセルボタン
N ネットワーク
【先行技術文献】
【特許文献】
【0220】
【文献】特開2005-352735号公報
【文献】特開平10-069517号公報
【文献】特開2014-137605号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33
図34
図35
図36