IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

<>
  • 特許-情報処理装置およびプログラム 図1
  • 特許-情報処理装置およびプログラム 図2
  • 特許-情報処理装置およびプログラム 図3
  • 特許-情報処理装置およびプログラム 図4
  • 特許-情報処理装置およびプログラム 図5
  • 特許-情報処理装置およびプログラム 図6
  • 特許-情報処理装置およびプログラム 図7
  • 特許-情報処理装置およびプログラム 図8
  • 特許-情報処理装置およびプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】情報処理装置およびプログラム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240910BHJP
   H04N 1/387 20060101ALI20240910BHJP
【FI】
G06V30/12 J
H04N1/387 110
【請求項の数】 8
(21)【出願番号】P 2020121135
(22)【出願日】2020-07-15
(65)【公開番号】P2022018202
(43)【公開日】2022-01-27
【審査請求日】2023-05-11
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(74)【代理人】
【識別番号】100110607
【弁理士】
【氏名又は名称】間山 進也
(72)【発明者】
【氏名】作山 宏幸
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開平04-315278(JP,A)
【文献】特開2005-259017(JP,A)
【文献】特開2003-108919(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/12
H04N 1/387
(57)【特許請求の範囲】
【請求項1】
画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
を含み、
前記単語処理手段は、
前記単語が辞書データベースに記憶されている単語と一致すると判定した場合に、当該単語を構成する各文字の確信度のうち最も高い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
情報処理装置。
【請求項2】
画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
を含み、
前記単語処理手段は、
前記単語が辞書データベースに記憶されている単語と一致しないと判定した場合に、当該単語を構成する各文字の確信度のうち最も低い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
報処理装置。
【請求項3】
前記単語処理手段は、文字認識の確信度に応じて前記単語の文字色を設定する、請求項1または2に記載の情報処理装置。
【請求項4】
前記単語処理手段は、文字認識の確信度に基づいて辞書データベースを参照して、前記文字列を単語化する、請求項1~3のいずれか1項に記載の情報処理装置。
【請求項5】
前記出力手段は、
前記認識手段によって認識された文字を、前記画像データに含まれる文字の画素に重畳したファイルを出力する、
請求項1~のいずれか1項に記載の情報処理装置。
【請求項6】
前記出力手段は、前記画像データに含まれる文字の画素の色を文字認識の確信度に応じた色に変換する、
請求項1~のいずれか1項に記載の情報処理装置。
【請求項7】
画像データに含まれる文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色または文字の画素の変換色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
として機能させ
前記単語処理手段は、
前記単語が辞書データベースに記憶されている単語と一致すると判定した場合に、当該単語を構成する各文字の確信度のうち最も高い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
プログラム。
【請求項8】
画像データに含まれる文字を認識する認識手段を備える情報処理装置が実行するプログラムであって、前記情報処理装置を
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色または文字の画素の変換色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
として機能させ、
前記単語処理手段は、
前記単語が辞書データベースに記憶されている単語と一致しないと判定した場合に、当該単語を構成する各文字の確信度のうち最も低い値の確信度を当該単語の確信度として、当該単語の文字色または文字の画素の変換色を設定する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像に含まれる文字列のテキストファイルを出力する情報処理装置およびプログラムに関する。
【背景技術】
【0002】
文書が印刷された用紙をスキャンし、OCRなどの文字認識によって当該文書の内容をOffice Open XML Document形式のファイルに変換する処理が知られている。かかる処理によって、紙ベースの文書をテキストデータのファイルに変換できるため、パソコンなどによって文書の再編集を行うことができる。
【0003】
文字認識によってテキストデータを生成する技術として、例えば特開2015-060470号公報(特許文献1)が挙げられる。特許文献1では、手書き入力された文字に、テキストデータを重畳して表示する技術が開示されている。特許文献1は、入力された文字の色を薄くしたうえで、認識した文字を重畳して表示する構成を示している。
【0004】
ところで、文字認識によって画像データからテキストファイルを出力すると、画像内の文字が正しく検出されない場合がある。かかる場合において、特許文献1を始めとする従来技術においては、上述したような文字の色を薄くするなどの処理が単語単位ではなく文字単位で行われるため、ユーザたる読み手が誤検出された文字を認識しにくく、テキストを再編集する観点から、利便性が損なわれていた。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記従来技術における課題に鑑みてなされたものであり、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
すなわち、本発明によれば、
画像データに含まれる文字を認識する認識手段を備える情報処理装置であって、
前記認識手段が認識した複数の文字から構成される文字列を単語化し、単語ごとに文字色を設定する単語処理手段と、
前記単語処理手段による設定に基づいて、前記画像データに含まれる文字をテキストデータに変換したファイルを出力する出力手段と
を含む、情報処理装置が提供される。
【発明の効果】
【0007】
本発明によれば、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムが提供できる。
【図面の簡単な説明】
【0008】
図1】本実施形態におけるシステム全体のハードウェアの概略構成を示す図。
図2】本実施形態の情報処理装置に含まれるハードウェア構成を示す図。
図3】本実施形態の情報処理装置に含まれるソフトウェアブロック図。
図4】本実施形態においてテキストファイルを出力する処理を示すフローチャート。
図5】本実施形態における文字認識を説明する図。
図6】本実施形態における単語確信度を説明する図。
図7】本実施形態の単語処理部が実行する色設定処理を示すフローチャート。
図8】本実施形態の色設定処理がされたテキストデータの例を示す図。
図9】本実施形態の色設定処理がされたテキストデータの例を示す図。
【発明を実施するための形態】
【0009】
以下、本発明を、実施形態をもって説明するが、本発明は後述する実施形態に限定されるものではない。なお、以下に参照する各図においては、共通する要素について同じ符号を用い、適宜その説明を省略するものとする。
【0010】
図1は、本実施形態におけるシステム100全体のハードウェアの概略構成を示す図である。図1では、例として、情報処理装置110と、MFP(Multi-Function Peripheral)120とが、インターネットやLANなどのネットワーク130を介して接続された環境を例示している。なお、情報処理装置110やMFP120から、ネットワーク130へ接続する方法は、有線または無線のどちらでもよい。
【0011】
情報処理装置110は、パソコン端末などの装置である。情報処理装置110は、MFP120への印刷ジョブの送信、MFP120がスキャンした画像の取得、当該画像のテキストファイル化、テキストファイルの表示、編集などの処理を行うことができる。
【0012】
MFP120は、印刷ジョブに基づくプリント処理や、用紙を読み取ることによるスキャン処理などを行う。なお、他の実施形態では、MFP120が画像を処理し、画像内の文字列をテキストファイルに変換することとしてもよい。
【0013】
次に、情報処理装置110のハードウェア構成について説明する。図2は、本実施形態の情報処理装置110に含まれるハードウェア構成を示す図である。情報処理装置110は、CPU210と、RAM220と、ROM230と、記憶装置240と、通信I/F250と、ディスプレイ260と、入力装置270とを含んで構成され、各ハードウェアはバスを介して接続されている。
【0014】
CPU210は、情報処理装置110の動作を制御するプログラムを実行し、所定の処理を行う装置である。RAM220は、CPU210が実行するプログラムの実行空間を提供するための揮発性の記憶装置であり、プログラムやデータの格納用、展開用として使用される。ROM230は、CPU210が実行するプログラムやファームウェアなどを記憶するための不揮発性の記憶装置である。
【0015】
記憶装置240は、情報処理装置110を機能させるOSや種々のソフトウェア、設定情報、各種データなどを記憶する、読み書き可能な不揮発性の記憶装置である。記憶装置240の一例としては、HDD(Hard Disk Drive)やSSD(Solid State Drive)などが挙げられる。
【0016】
通信I/F250は、情報処理装置110とネットワーク130とを接続し、ネットワーク130を介して他の装置との通信を可能にする。ネットワーク130を介した通信は、有線通信または無線通信のいずれであってもよく、TCP/IPなどの所定の通信プロトコルを使用し、各種データを送受信できる。
【0017】
ディスプレイ260は、各種データや情報処理装置110の状態などを、ユーザに対して表示する装置であり、例として、LCD(Liquid Crystal Display)などが挙げられる。入力装置270は、ユーザが情報処理装置110を操作するための装置であり、例として、キーボード、マウスなどが挙げられる。なお、ディスプレイ260と入力装置270は、それぞれ別個の装置であってもよいし、タッチパネルディスプレイのような両方の機能を備えるものであってもよい。
【0018】
以上、本実施形態の情報処理装置110に含まれるハードウェア構成について説明した。次に、本実施形態における各ハードウェアによって実行される機能手段について、図3を以て説明する。
【0019】
図3は、本実施形態の情報処理装置110に含まれるソフトウェアブロック図である。本実施形態の情報処理装置110は、文字認識部310、文字列解析部320、単語処理部330、テキストファイル出力部340、辞書データベース記憶部350の各モジュールを含む。
【0020】
文字認識部310は、画像データに対してOCR(Optical Character Recognition)処理を行い、画像に含まれる文字を認識する手段である。文字認識の対象となる画像データは特に限定されず、例えば、MFP120などがスキャンしたデータ、カメラで撮影したデータ、タッチパネルディスプレイを介して描画されたデータなどが挙げられる。文字認識部310は、文字の位置、大きさ、文字種などといった言語のルール(以下、単に「ルール」として参照する場合がある)に基づいて、文字を認識することができる。また、本実施形態の文字認識部310は、認識した各文字における文字認識の確からしさを示す確信度(以下、「文字確信度」として参照する)を算出できる。
【0021】
文字列解析部320は、文字認識部310によって認識された複数の文字から構成される文字列を解析する手段である。文字列解析部320は、例えば形態素解析を行うことで、文字列を意味のある単語に区切る(以下、「単語化」として参照する)。また、本実施形態の文字列解析部320は、ルールや組み合わせなどの要素を総合的に判断して、単語を生成することができる。
【0022】
単語処理部330は、文字列解析部320が生成した単語に対して、テキストデータ化する際の文字色を設定する処理を行う手段である。単語処理部330は、文字列解析部320が生成した単語が、後述する辞書データベース記憶部350に登録されている単語(以下、「登録単語」として参照する)であるか否か、単語を構成する文字の文字確信度などに基づいて、文字色を設定する。
【0023】
テキストファイル出力部340は、変換元となる画像に含まれる文字をテキストデータに変換して、Office Open XML Document形式のファイルを出力する手段である。テキストファイル出力部340が出力するテキストファイルは、単語処理部330が設定した文字色で以て文字列をテキストデータに変換する。テキストファイル出力部340が出力したテキストファイルは、テキストの再編集の用に供される。
【0024】
辞書データベース記憶部350は、記憶装置240を制御し、辞書データベースを記憶する手段である。本実施形態における辞書データベースは、生成された単語を置き換えるための登録単語を格納することができる。また、本実施形態では、辞書データベースの容量を節約する観点から、辞書データベースに格納される登録単語は、品詞や文字数などに制限が設けられてもよい。一例として、本実施形態の辞書データベースには、3文字以上5文字以下の名詞が登録される。
【0025】
なお、本実施形態の辞書データベースは、機械学習の学習効果によって生成されたものでもよい。また、認識された文字列に含まれうるキーワードと変換候補となる登録単語とを機械学習にて分類付けすることで、辞書データベースを使用しなくてもよい。
【0026】
ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを,事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0027】
なお、上述したソフトウェアブロックは、CPU210が本実施形態のプログラムを実行することで、各ハードウェアを機能させることにより、実現される機能手段に相当する。また、各実施形態に示した機能手段は、全部がソフトウェア的に実現されても良いし、その一部または全部を同等の機能を提供するハードウェアとして実装することもできる。
【0028】
さらに、上述した各機能手段は、必ずしも全てが図3に示すような構成で含まれていなくてもよい。例えば、他の好ましい実施形態では、各機能手段は、情報処理装置110と、MFP120との協働によって実現されてもよい。
【0029】
次に、上述した各機能手段が実行する処理について、図4を以て説明する。図4は、本実施形態においてテキストファイルを出力する処理を示すフローチャートである。
【0030】
本実施形態の情報処理装置110は、ステップS1000からテキストファイルを出力する処理を開始する。ステップS1001では、文字認識部310は、画像に含まれる文字を認識する。また、ステップS1001において文字認識部310は、文字認識を行うとともに、各文字の文字確信度を算出する。ここで、本実施形態における文字認識について図5を以て説明する。図5は、本実施形態における文字認識を説明する図である。
【0031】
図5(a)は、変換元となる画像の例を示している。以下の説明は、図5(a)に示すように、濃い色の背景に「はがき」という黒色の文字が含まれる画像をテキストファイルに変換する場合を例示する。文字認識部310は、図5(a)の変換元画像が入力されると、図5(b)のように、文字に外接する矩形を抽出する。
【0032】
文字認識部310は、文字矩形を抽出したあと、図5(c)に示すように、文字画素と背景画素とを分離する。図5(c)の上段は、文字矩形に相当する背景画素が分離された例(但し、原文字画素の色を背景と同じ色に変換している)を示している。また、図5(c)の下段は、文字矩形内の文字画素(「は」、「が」、「き」)が分離された例を示している。
【0033】
その後、文字認識部310は、図5(c)下段に示す文字画素「はがき」について文字の認識をする。また、文字認識部310は、文字の認識に伴い、各文字の文字確信度を算出する。文字確信度は、正しく文字を認識した確率を示し、0から1の間の値を取るものとする。本実施形態の文字確信度は、例えば、ルールに適合しているか否かなどの情報を証拠として、デンプスター・シェーファーの確率理論などによって算出することができる。図5(d-1)~(d-3)は、文字認識結果および算出された文字確信度の例を示している。
【0034】
図5(d-1)は、文字画素「はがき」に対して「はがき」という文字が認識された例を示している。また、図5(d-1)は、「は」の文字確信度が0.80、「が」の文字確信度が0.85、「き」の文字確信度が「0.82」と評価された場合の例を示している。図5(d-1)に示す各文字の文字確信度は、文字画素「はがき」に対して「はがき」という文字が認識されていることから、比較的高い値が算出される。
【0035】
図5(d-2)は、文字画素「はがき」に対して「はがさ」という文字が認識された例を示している。また、図5(d-3)は、「は」の文字確信度が0.80、「が」の文字確信度が0.85、「さ」の文字確信度が「0.60」と評価された場合の例を示している。図5(d-2)に示す例では、文字画素「はがき」に対して「はがさ」という文字が認識されていることから、「は」および「が」の文字確信度は比較的高い値が算出される一方で、「さ」の文字確信度は比較的低い値が算出される。
【0036】
図5(d-3)は、文字画素「はがき」に対して「ほがさ」という文字が認識された例を示している。また、図5(d-3)は、「ほ」の文字確信度が0.35、「が」の文字確信度が0.85、「さ」の文字確信度が「0.40」と評価された場合の例を示している。図5(d-3)に示す例では、文字画素「はがき」に対して「ほがさ」という文字が認識されていることから、「が」の文字確信度は比較的高い値が算出される一方で、「ほ」および「さ」の文字確信度は比較的低い値が算出される。
【0037】
なお、上述した一連の文字認識処理における方法は特に限定されず、例えば、像域分離やパターンマッチングなど既知の方法を採用することができる。
【0038】
説明を図4に戻す。ステップS1001において文字を認識したあと、ステップS1002では、文字列解析部320は、認識された複数の文字から構成される文字列を単語化する。ステップS1002における単語化は、例えば、形態素解析などによって行われ得る。ステップS1002で生成された単語は、一時的に記憶装置240に格納されてもよい。
【0039】
その後、ステップS1003以降の処理において、単語処理部330は、生成された単語について、テキストデータに変換するための処理を行う。ステップS1003では、単語処理部330は、複数の単語のうち未処理の単語を取得する。続くステップS1004では、取得した単語が検索対象の単語であるか否かによって処理が分岐する。ここで、検索対象の単語であるか否かの判定は、例えば、取得した単語の品詞や文字数などに基づいて行うことができる。このようにして、検索対象であるか否かを判定することで、辞書データベースに登録されていない単語に対しては検索を行わないため、単語の変換処理を効率化できる。取得した単語が検索対象でない場合には(NO)、ステップS1010に進む。ステップS1010についての詳細は後述する。また、取得した単語が検索対象である場合には(YES)、ステップS1005に進む。
【0040】
ステップS1005では、単語処理部330は検索対象の単語に基づいて辞書データベースを検索し、マッチする登録単語が辞書データベースに格納されているか否かによって処理を分岐する。なお、登録単語とマッチするか否かの判定は、例えば、単語を構成する文字と登録単語の文字とが一致する割合が所定の閾値よりも高いか否かに基づいて行われ得る。以下に説明する実施形態の一例では、閾値を60%とし、文字マッチ率が閾値よりも高い場合には登録単語とマッチすると判定する。
【0041】
ステップS1005において辞書データベースにマッチする登録単語が格納されている場合には(YES)、ステップS1006に進む。単語処理部330はステップS1006において、辞書データベースに格納されている登録単語のうち、処理対象の単語とのマッチ率が最も高い登録単語を抽出し、処理対象の単語を当該登録単語に置換する。その後、単語処理部330は、ステップS1007において、処理対象となっている単語の確からしさを示す確信度(以下、「単語確信度」として参照する)の値を、当該単語を構成する文字の文字確信度のうち最も高い文字確信度の値のものに設定する。
【0042】
一方で、ステップS1005において辞書データベースにマッチする登録単語が格納されていない場合には(NO)、ステップS1008に進む。ステップS1008では、単語処理部330は、処理対象の単語の単語確信度の値を、当該単語を構成する文字の文字確信度のうち最も低い文字確信度の値のものに設定する。
【0043】
ここで、ステップS1007およびS1008における単語確信度の設定について、図6を以て説明する。図6は、本実施形態における単語確信度を説明する図である。図6では、図5(d-1)~(d-3)のように認識された文字について、辞書データベースを検索し、単語確信度を設定する例を図6(a-1)~(a-3)にそれぞれ示している。なお、図6における実施形態の説明では、辞書データベースには登録単語として「はがき」が格納されているものとする。
【0044】
まず、図6(a-1)について説明する。図5(d-1)のように「はがき」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「はがき」と登録単語「はがき」とは、3文字中3文字が一致していることから、図6(a-1)のように、文字マッチ率が100%であると判定される。したがって、文字マッチ率の閾値である60%を超えていることから、検索対象の文字列「はがき」は、登録単語「はがき」と一致するものとして置換される。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も高い値である文字「が」の0.85が、当該単語の単語確信度として設定される。
【0045】
次に、図6(a-2)について説明する。図5(d-2)のように「はがさ」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「はがさ」と登録単語「はがき」とは、3文字中2文字が一致していることから、図6(a-2)のように、文字マッチ率が67%であると判定される。したがって、文字マッチ率の閾値である60%を超えていることから、検索対象の文字列「はがさ」は、登録単語「はがき」と一致するものとして置換される。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も高い値である文字「が」の0.85が、当該単語の単語確信度として設定される。
【0046】
次に、図6(a-3)について説明する。図5(d-3)のように「ほがさ」と認識された文字列を検索対象として、登録単語「はがき」が格納された辞書データベースを検索する場合について考える。かかる場合には、文字列「ほがさ」と登録単語「はがき」とは、3文字中1文字が一致していることから、図6(a-3)のように、文字マッチ率が33%であると判定される。したがって、文字マッチ率の閾値である60%以下であることから、検索対象の文字列「はがさ」は、登録単語との置換が行われない。また、このとき、検索対象の文字列「はがき」の各文字確信度のうち最も低い値である文字「ほ」の0.35が、当該単語の単語確信度として設定される。
【0047】
なお、検索の結果、文字マッチ率が同じである登録単語が複数抽出された場合には、例えば、文字確信度の和を比較することで、登録単語との置換の正確性を向上できる。
【0048】
再び説明を図4に戻す。ステップS1007では、単語処理部330は、図6(a-1)、(a-2)のようにして単語確信度を設定する。また、ステップS1008では、単語処理部330は、図6(a-3)のようにして単語確信度を設定する。ステップS1007またはS1008にて単語確信度を設定した後、単語処理部330は、ステップS1009においてテキストデータに変換される単語の色設定処理を行う。ステップS1009では、単語処理部330は、各単語について、単語確信度に応じた文字色を設定する。なお、ステップS1009の色設定処理の詳細は後述する。
【0049】
ステップS1009の色設定処理の後、または、ステップS1004において取得した単語が検索対象でないと判定した後、単語処理部330は、ステップS1010の処理を行う。ステップS1010では、未処理の単語があるか否かによって処理を分岐する。未処理の単語がある場合には(YES)、ステップS1003の処理に戻り、上述した各処理を未処理の単語がなくなるまで繰り返す。一方で、未処理の単語がない場合には(NO)、ステップS1011に進む。
【0050】
ステップS1011では、テキストファイル出力部340は、変換元となる画像に含まれる文字を、文字認識部310が認識した文字のテキストデータに変換したテキストファイルを出力する。また、ステップS1011で出力されるテキストファイルの文字色は、ステップS1009において設定された色とすることができる。その後、情報処理装置110は、ステップS1012においてテキストファイルを出力する処理を終了する。
【0051】
図4において説明した処理によって、情報処理装置110は、単語単位で文字色が設定されたテキストデータに変換することができ、文字認識の誤検出があった場合には、ユーザたる読み手が誤検出を把握しやすくできる。
【0052】
ここまで、本実施形態の情報処理装置110が実行するテキストファイルを出力する基本的な処理について説明した。以下では、本実施形態のテキストファイルを生成する処理における、色設定処理(ステップS1009)について図7を以て説明する。図7は、本実施形態の単語処理部330が実行する色設定処理を示すフローチャートである。なお、以下の図7の説明に際しては、適宜図8および図9を参照するものとする。図8および図9は、本実施形態の色設定処理がされたテキストデータの例を示す図である。
【0053】
単語処理部330は、ステップS2000から色設定処理を開始する。なお、本実施形態の単語処理部330は、図4におけるステップS1009を契機にして、ステップS2000の処理を開始する。続くステップS2001では、処理対象の単語の単語確信度が所定の閾値よりも大きいか否かによって処理を分岐する。単語確信度が所定の閾値よりも大きい場合(YES)、処理はステップS2002に進む。一方で単語確信度が所定の閾値以下である場合(NO)、処理はステップS2004に進む。
【0054】
まず、単語確信度が所定の閾値よりも大きい場合(YES)について説明する。かかる場合、単語処理部330は、ステップS2002において、画像における当該単語の文字画素部分の色を背景色と同じ色に設定する。また、単語処理部330は、ステップS2003において、当該単語のフォント色を、画像データの文字画素と同じ色に設定する。なお、ステップS2002およびS2003の処理は、図7の順序と逆の順序で行われてもよいし、並列して行われてもよい。その後、ステップS2006において単語処理部330は色設定処理を終了する。色設定処理が終了すると、情報処理装置110は、図4のステップS1010の処理に移行する。
【0055】
ここで、図8を参照しながら色の設定について説明する。なお、図8における引き出し線および引き出し線に付随するRGB値などは、説明のために記載したものであって、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。
【0056】
図8(a)は、変換元となる画像の例を示しており、ここでは、背景画素の色がR=191、G=191、B=191である背景に、文字画素の色がR=0、G=0、B=0である文字「はがき」が含まれる画像を示している。図8(a)に示す画像に対してテキストファイル出力処理を行い、単語確信度が所定の閾値よりも大きい場合について考える。
【0057】
かかる場合には、単語処理部330は図7のステップS2002において、文字画素部分の色を背景画素と同じ色に設定する。図8(b)は、文字画素部分の色を背景色と同じ色にした例である。図8(b)に示すように、文字画素部分の色は、背景画素の色と同じR=191、G=191、B=191となっている。なお、図8(b)における文字の輪郭は説明の便宜のために図示したものであり、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。
【0058】
また、単語処理部330は図7のステップS2003において、単語のフォント色を、変換元の画像の文字画素と同じ色に設定する。したがって、単語「はがき」のフォント色は、図8(a)の文字画素の色と同じR=0、G=0、B=0となる。このようにして設定されたフォント色の単語を、図8(b)のような背景の画像に重畳して出力することで、テキストファイル出力部340は、図8(c)に示すような形態のテキストファイルを出力できる。
【0059】
なお、単語処理部330は、出力される単語のフォントのサイズを、元のサイズよりも太くする設定を行うこととしてもよい。文字画素の色を変換する処理の際にフォントサイズが小さく認識される場合があることから、上記のように文字を太くすることで、情報処理装置110は、より自然に視認できるテキストファイルを出力することができる。
【0060】
説明を図7に戻す。図7のステップS2001において単語確信度が所定の閾値以下である場合(NO)、処理はステップS2004に進む。ステップS2004では、単語処理部330は、画像における当該単語の文字画素部分の色を、単語確信度に応じた色に設定する。ここで、単語確信度に応じて設定される文字画素部分の色は、例えば下記式(1-1)~(1-3)のようにして算出することができる。
【0061】
【数1】
【0062】
上記の式(1-1)~(1-3)におけるRr,Gr,Brは、設定される文字画素部分の色のRGB値を示している。式中のRb,Gb,Bbは、変換元の画像の背景画素の色のRGB値を示している。式中のCは、単語確信度の値である。式中のxは、色設定処理における確信度の重みを示しており、典型的には1/3~1/2程度の値を取る。
【0063】
ステップS2004の後、単語処理部330はステップS2005において、単語のフォント色を当該単語の単語確信度に応じた色に設定する。ここで、単語確信度に応じて設定されるフォント色は、例えば下記式(2-1)~(2-3)のようにして算出することができる。
【0064】
【数2】
【0065】
上記の式(2-1)~(2-3)におけるRf,Gf,Bfは、設定されるフォント色のRGB値を示している。式中のRc,Gc,Bcは、変換元の画像の文字画素の色のRGB値を示している。式中のCは、単語確信度の値である。式中のxは、色設定処理における確信度の重みを示しており、典型的には1/3~1/2程度の値を取る。
【0066】
なお、ステップS2004およびS2005の処理は、図7の順序と逆の順序で行われてもよいし、並列して行われてもよい。また、上記の式(1-1)~(1-3)および式(2-1)~(2-3)で示した色の設定は一例であって、特に実施形態を限定するものではない。ステップS2005の後、ステップS2006において単語処理部330は色設定処理を終了する。色設定処理が終了すると、情報処理装置110は、図4のステップS1010の処理に移行する。
【0067】
ここで、図9を参照しながら色の設定について説明する。なお、図9における引き出し線および引き出し線に付随するRGB値などは、説明のために記載したものであって、変換される画像やテキストファイルの内容を構成するものではない点に留意されたい。
【0068】
図9(a)は、図8(a)と同様に変換元となる画像の例を示しており、ここでは、背景画素の色がR=191、G=191、B=191である背景に、文字画素の色がR=0、G=0、B=0である文字「はがき」が含まれる画像を示している。図9(a)に示す画像に対してテキストファイル出力処理を行い、単語「ほがさ」として文字認識され、当該単語の単語確信度が所定の閾値以下の0.35である場合について考える。
【0069】
かかる場合には、単語処理部330は図7のステップS2004において、上記の式(1-1)~(1-3)を用いて、文字画素部分の色を単語確信度に応じた色に設定する。説明する実施形態の例において上記の式(1-1)~(1-3)を用いると、文字画素部分の色は、R=243、G=243、B=243と算出される。図9(b)は、文字画素部分の色をR=243、G=243、B=243に設定して変換した例である。
【0070】
また、単語処理部330は図7のステップS2005において、上記の式(2-1)~(2-3)を用いて、単語のフォント色を、単語確信度に応じた色に設定する。説明する実施形態の例において上記の式(2-1)~(2-3)を用いると、フォント色は、R=206、G=206、B=206と算出される。このようにして単語「ほがさ」のフォント色を設定し、図9(b)のような背景の画像に重畳して出力することで、テキストファイル出力部340は、図9(c)に示すような形態のテキストファイルを出力できる。単語確信度が所定の閾値よりも低い場合に出力されるテキストファイルは、図9(c)に示すように、当該単語が不自然な形態で表示される。したがって、読み手は、誤検出の可能性が高い単語を認識しやすくなる。
【0071】
図7において説明した処理によって、単語処理部330は単語確信度に応じた色の設定を行うことができ、ユーザたる読み手が誤検出を把握しやすくできる。
【0072】
以上、説明した本発明の実施形態によれば、テキストの誤検出を認識しやすいファイルを出力する情報処理装置およびプログラムを提供することができる。
【0073】
上述した本発明の実施形態の各機能は、C、C++、C#、Java(登録商標)等で記述された装置実行可能なプログラムにより実現でき、本実施形態のプログラムは、ハードディスク装置、CD-ROM、MO、DVD、フレキシブルディスク、EEPROM(登録商標)、EPROM等の装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。
【0074】
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュールなどのデバイスを含むものとする。
【0075】
以上、本発明について実施形態をもって説明してきたが、本発明は上述した実施形態に限定されるものではなく、当業者が推考しうる実施態様の範囲内において、本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0076】
00…システム、110…情報処理装置、120…MFP、130…ネットワーク、210…CPU、220…RAM、230…ROM、240…記憶装置、250…通信I/F、260…ディスプレイ、270…入力装置、310…文字認識部、320…文字列解析部、330…単語処理部、340…テキストファイル出力部、350…辞書データベース記憶部
【先行技術文献】
【特許文献】
【0077】
【文献】特開2015-060470号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9