(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】画像処理装置および画像形成装置
(51)【国際特許分類】
G06V 30/26 20220101AFI20240910BHJP
G06V 30/12 20220101ALI20240910BHJP
【FI】
G06V30/26
G06V30/12 Z
(21)【出願番号】P 2020184534
(22)【出願日】2020-11-04
【審査請求日】2023-10-27
(73)【特許権者】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】110003443
【氏名又は名称】弁理士法人TNKアジア国際特許事務所
(74)【代理人】
【識別番号】100129997
【氏名又は名称】田中 米藏
(72)【発明者】
【氏名】ジェザー・ヴィンヤーロン
【審査官】岡本 俊威
(56)【参考文献】
【文献】特開2000-155795(JP,A)
【文献】特開2019-148941(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/424
(57)【特許請求の範囲】
【請求項1】
原稿画像を記憶する原稿画像記憶部と、
予め定められた複数の登録単語を含む辞書データを記憶する辞書データ記憶部と、
フォントを構成する全文字の画像を予め記憶するフォント記憶部と、
前記原稿画像記憶部に記憶された前記原稿画像における文字領域を特定する文字領域特定部と、
前記原稿画像から前記文字領域の画像を取得する画像取得部と、
前記画像取得部が取得した前記文字領域の画像からテキストを抽出するテキスト抽出部と、
前記テキスト抽出部が抽出したテキストに含まれる複数の単語をそれぞれ特定する単語特定部と、
前記単語特定部が特定した前記複数の単語のそれぞれが、前記辞書データに含まれる前記複数の登録単語の何れかの登録単語と一致するか否かを判定する単語判定部と、
前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する対象文字を、前記フォント記憶部に記憶された前記フォントを構成する全文字の画像のうちで、当該対象文字に対応する前記文字領域の対象文字画像に類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字に置換することにより、前記テキストの前記不一致単語の対象文字を前記置換後文字に置換した修正後テキストを生成する生成部と、を備える画像処理装置。
【請求項2】
前記フォント記憶部は、複数種類のフォントを予め記憶し、
前記生成部は、前記単語判定部が一致と判定した一致単語がある場合、前記一致単語を構成する文字をフォント判定用文字とし、前記フォント判定用文字に対応する前記文字領域の判定用文字画像と前記フォント記憶部に記憶された前記複数のフォントごとの当該フォント判定用文字と同じ文字の画像との類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示すフォントを特定し、前記テキストの前記不一致単語を構成する対象文字を、前記フォント記憶部に記憶された前記複数のフォントのうちで前記特定されたフォントを構成する全文字の画像のうちで、当該対象文字に対応する前記文字領域の対象文字画像に類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字に置換する請求項1に記載の画像処理装置。
【請求項3】
前記生成部は、前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する前記対象文字に対応する前記文字領域の対象文字画像を文字単位で区切って生成された矩形状の境界ボックスと、前記フォント記憶部に記憶された前記複数種類のフォントのうちで前記特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、前記複数の矩形状の文字ボックスのうちで前記境界ボックスに対するピクセル領域の一致度が最も高い文字ボックスを特定し、前記対象文字を前記最も高い文字ボックスの文字に置換する請求項2に記載の画像処理装置。
【請求項4】
前記生成部は、前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する前記対象文字に対応する前記文字領域の対象文字画像を文字単位で区切って生成された矩形状の境界ボックスと、前記フォント記憶部に記憶された前記複数種類のフォントのうちで前記特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、前記複数の矩形状の文字ボックス毎に前記境界ボックスに対するピクセル領域の一致度をそれぞれ算出し、これらの一致度のうちで最も高い一致度が、(i)予め定められた第1閾値以上である場合、当該最も高い一致度を示す文字ボックスを、完全な文字を示す第1境界ボックスに対応する第1文字ボックスとして特定し、前記対象文字を前記第1文字ボックスの文字に置換せず、(ii)前記予め定められた第1閾値未満で、かつ、前記予め定められた第1閾値よりも小さい予め定められた第2閾値以上である場合、当該最も高い一致度を示す文字ボックスを、壊れた文字を示す第2境界ボックスに対応する第2文字ボックスとして特定し、前記対象文字を前記第2文字ボックスの文字に置換する請求項2に記載の画像処理装置。
【請求項5】
前記生成部は、前記最も高い一致度が、(iii)前記予め定められた第2閾値未満である場合、当該最も高い一致度を示す文字ボックスを、置換候補とならない第3文字ボックスとして特定し、前記対象文字を前記第3文字ボックスの文字に置換せず、当該対象文字を他の文字とは異なる表示態様に変更する請求項4に記載の画像処理装置。
【請求項6】
前記生成部は、前記不一致単語の前又は後に前記一致単語が位置する場合、当該一致単語を構成する文字を前記フォント判定用文字とし、前記不一致単語の前及び後に前記一致単語が位置する場合、当該前の一致単語又は前記後の一致単語を構成する文字を前記フォント判定用文字とし、前記不一致単語の前又は後に前記一致単語が位置していない場合、当該不一致単語を含む文に有する前記一致単語を構成する文字を前記フォント判定用文字とする請求項2に記載の画像処理装置。
【請求項7】
請求項1乃至請求項6の何れかに記載の画像処理装置と、
原稿画像を読み取る画像読取部と、
前記画像読取部が読み取った前記原稿画像を前記原稿画像記憶部に記憶させる制御部と、
記録媒体に画像を形成する画像形成部と、を備える画像形成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置および画像形成装置に関し、特に、OCR処理で得られるテキスト中における誤変換の文字又は文字列の検出及び修正を可能にする技術に関する。
【背景技術】
【0002】
下記特許文献1には、原稿読取台に載置された複数の原稿(例えば、名刺など)を一度のスキャンで画像読取部にて読み取り、前記画像読取部が取得したスキャン画像に対して、既知のOCR(optical character recognition)処理を行って、文字データを取得する画像形成装置が記載されている。例えば、原稿読取台に載置された複数の原稿の一部が互いに重なっていた場合、又は、原稿の一部が原稿読取台のスキャン領域からはみ出ていた場合において、スキャン画像における原稿画像に一部欠損が生じる。このため、当該スキャン画像に対するOCR処理で得られる文字データにも、当然、欠損部分が存在することになる。そこで、上記の画像形成装置では、前記文字データの欠損部分を、他の原稿の文字データから類推した修正候補の文字データに修正することが可能となっている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上記の特許文献1の画像形成装置又は一般的な画像形成装置では、原稿読取台への原稿の載置が良好であっても、OCR処理で得られるテキスト中に、誤変換の文字又は文字列が含まれることがあるが、テキスト中のどの文字又は文字列が誤変換であるかが分からない。このように、上記の各画像形成装置では、テキスト中のどの文字又は文字列が誤変換であるかが分からないので、誤変換の文字又は文字列を適切な文字又は文字列に修正することもできない。また、原稿画像中に、字体の一部が欠損、損壊した文字画像(以下、「壊れた文字画像」と適宜に呼ぶ)が含まれている場合、このような原稿画像に対してOCR処理を行うと、少なくとも壊れた文字画像については、誤変換の文字又は文字列とされる蓋然性が高い。
【0005】
本発明は、上記の事情に鑑みてなされたものであり、OCR処理で得られるテキスト中における誤変換の文字又は文字列の検出及び修正を行うことを可能にすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の一局面に係る画像処理装置は、原稿画像を記憶する原稿画像記憶部と、予め定められた複数の登録単語を含む辞書データを記憶する辞書データ記憶部と、フォントを予め記憶するフォント記憶部と、前記原稿画像記憶部に記憶された前記原稿画像における文字領域を特定する文字領域特定部と、前記原稿画像から前記文字領域の画像を取得する画像取得部と、前記画像取得部が取得した前記文字領域の画像からテキストを抽出するテキスト抽出部と、前記テキスト抽出部が抽出したテキストに含まれる複数の単語をそれぞれ特定する単語特定部と、前記単語特定部が特定した前記複数の単語のそれぞれが、前記辞書データに含まれる前記複数の登録単語の何れかの登録単語と一致するか否かを判定する単語判定部と、前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する対象文字を、前記フォント記憶部に記憶された前記フォントを構成する全文字の画像のうちで、当該対象文字に対応する前記文字領域の対象文字画像に類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字に置換することにより、前記テキストの前記不一致単語の対象文字を前記置換後文字に置換した修正後テキストを生成する生成部と、を備えるものである。
【0007】
本発明の一局面に係る画像形成装置は、上記画像処理装置と、原稿画像を読み取る画像読取部と、前記画像読取部が読み取った前記原稿画像を前記原稿画像記憶部に記憶させる制御部と、記録媒体に画像を形成する画像形成部と、を備えるものである。
【発明の効果】
【0008】
本発明によれば、OCR処理で得られるテキスト中における誤変換の文字又は文字列の検出及び修正を行うことができる。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態に係る画像形成装置の斜視図である。
【
図2】実施形態の画像形成装置の構成を示すブロック図である。
【
図3】実施形態に係る画像形成装置にて行われる、原稿画像から抽出されたテキスト中の誤変換文字を修正した修正後テキストを生成する処理を概念的に示す図である。
【
図4】画像形成装置の表示部の表示画面の一例を示す図である。
【
図5】実施形態に係る誤変換文字修正処理の一例を示すフローチャートである。
【
図6】(A)はレイアウト解析された原稿画像の一例を示す図、(B)は原稿画像において特定された文字領域の一例を示す図である。
【
図7】(A)は原稿画像から抽出されたテキストの一例を示す図、(B)はテキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。
【
図8】修正後テキスト生成処理の一例を示すフローチャートである。
【
図9】対象文字に最も類似するフォントを特定する処理の一例を示す図である。
【
図10】フォント判定用文字の境界ボックスと複数のフォント毎の当該フォント判定用文字と同じ文字の文字ボックスとのピクセル領域の一致度を用いてフォントを特定する一例を示す図である。
【
図11】置換処理の一例を示すフローチャートである。
【
図12】対象文字に最も類似する文字を特定する一例を示す図である。
【
図13】対象文字の境界ボックスと特定されたフォントの全文字の文字ボックスとのピクセル領域の一致度を用いて対象文字に最も類似する文字を特定する一例を示す図である。
【
図14】テキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。
【
図15】テキスト中において修正できなかった誤変換文字の表示態様の一例を示す図である。
【
図16】変形例に係る修正後テキストの生成の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明に係る画像処理装置および画像形成装置の一実施形態について図面を参照して説明する。
図1は、本発明の実施形態に係る画像形成装置の斜視図である。
図2は、実施形態の画像形成装置の構成を示すブロック図である。
【0011】
実施形態の画像形成装置10は、制御ユニット11と、表示部12と、操作部14と、タッチパネル15と、通信部16と、画像読取部17と、画像形成部18と、データ記憶部19とを備える。これらの構成要素は、互いにバスを通じてデータ又は信号の送受信が可能とされている。
【0012】
画像読取部17は、例えば、自動原稿送り装置により搬送される原稿G1(
図3参照)又はフラットベッド上に載置された原稿G1(
図3参照)を光学的に読み取るスキャナーとしてのCCD(Charge Coupled Device)を有する読取機構であり、原稿G1を示す原稿画像D1(
図3参照)を生成する。原稿画像D1は、上記の読取機構の構成上、外形が矩形状である。
【0013】
画像形成部18は、感光体ドラムの表面を均一帯電させ、感光体ドラムの表面を露光して、感光体ドラムの表面に静電潜像を形成し、感光体ドラムの表面の静電潜像をトナー像に現像して、感光体ドラムの表面のトナー像(画像)を記録紙に転写して定着させる。例えば、画像読取部17による原稿G1の読取で得られた原稿画像を記録紙に印刷する。
【0014】
なお、画像処理装置は、例えば、画像形成装置10から画像読取部17と画像形成部18とを除いた構成である。
【0015】
表示部12は、例えば、液晶ディスプレイ(Liquid Crystal Display)、有機EL(Organic Light-Emitting Diode)ディスプレイなどの表示装置である。
【0016】
操作部14は、ユーザーからの操作指示の入力を受け付けるものであり、メニューを呼び出すメニューキー、メニューを構成するGUI(Graphical User Interface)におけるフォーカスを移動させる矢印キー、メニューを構成するGUIに対して確定操作を行う決定キー、スタートキーなどのハードキーを備える。
【0017】
タッチパネル15は、所謂抵抗膜方式や静電容量方式等のタッチパネルである。タッチパネル15は、表示部12の画面に配置され、表示部12の画面に対する指などの接触をその接触位置と共に検知する。タッチパネル15は、指などの接触を検知すると、その接触位置の座標を示す検知信号を制御ユニット11の制御部21などに出力する。従って、タッチパネル15は、表示部12の画面に対するユーザー操作が入力される操作部としての役割を果たす。
【0018】
通信部16は、通信モジュールを備える通信インターフェイスであり、LAN(Local Area Network)や公衆回線などからなるネットワークNを通じて、外部装置30(例えば、パーソナルコンピューター、サーバー、携帯情報端末など)との間でデータ送受信を行う。
【0019】
データ記憶部19は、HDD(Hard Disk Drive)などの大容量の記憶装置である。データ記憶部19は、画像読取部17による原稿読取で得られた原稿G1の原稿画像D1(つまり、画像データ)を記憶する原稿画像記憶部19aを備える。
【0020】
図3は、実施形態に係る画像形成装置にて行われる、原稿画像から抽出されたテキスト中の誤変換文字を修正した修正後テキストを生成する処理を概念的に示す図である。実施形態の画像形成装置10は、
図3に示すように、例えば原稿G1を読み取った原稿画像D1からテキストTXを抽出し、テキストTX中の誤変換文字を修正した修正後テキストCTを生成する処理を実行するための構成を備える。構成の詳細については、以下に説明する。
【0021】
データ記憶部19は、更に、複数種類のフォントを予め記憶するフォント記憶部19bを備える。フォント記憶部19bは、例えば、「Arial」、「Courier New」、「Times New Roman」等の複数種類のフォントデータ(フォントを構成する全文字(例えば、英語であれば、「a」~「z」のアルファベット、「.」、「-」などの記号など)のそれぞれの画像のデータ)を記憶する。
【0022】
データ記憶部19は、更に、予め定められた複数の登録単語を含む辞書データを記憶する辞書データ記憶部19cを備える。辞書データには、英語用辞書データ、日本語用辞書データなど、1又は複数の予め定められた言語の辞書データが含まれる。本実施形態では、辞書データには英語用辞書データが含まれているとする。この英語用辞書データは、「You」、「they」、…、「that」、…、「should」、「may」、…、「kingdom」、「country」などの英語の複数の登録単語(例えば、数十万語)が記憶されている。
【0023】
制御ユニット11は、プロセッサー、RAM(Random Access Memory)、及びROM(Read Only Memory)などから構成される。プロセッサーは、例えば、CPU(Central Processing Unit)、MPU、ASICである。この制御ユニット11は、データ記憶部19に記憶された制御プログラムが上記のプロセッサーで実行されることにより、制御部21、文字領域特定部22、画像取得部23、テキスト抽出部24、単語特定部25、単語判定部26、及び生成部27として機能する。なお、制御ユニット11の上記制御部21、文字領域特定部22、画像取得部23、テキスト抽出部24、単語特定部25、単語判定部26、及び生成部27は、上記制御プログラムに基づく動作によらず、それぞれハード回路により構成されてもよい。
【0024】
制御部21は、画像形成装置10の全体的な動作制御を司る。
図4は、画像形成装置の表示部の表示画面の一例を示す図である。例えば、制御部21は、
図4に示す操作画面を表示部12に表示させる。制御部21は、
図4に示す操作画面へのユーザーによるタッチ操作に従って、コピー、印刷、スキャン、ファクシミリ、スキャン後誤変換修正などの各種の実行処理に関する制御を行う。
【0025】
文字領域特定部22は、原稿画像記憶部19aに記憶された原稿画像D1(つまり、原稿G1のスキャンにより取得された画像データ)における文字領域CA(後述の
図6(B)参照)を特定する。文字領域CAは、文字が記載された領域である。例えば、文字領域特定部22は、原稿画像D1に対して、既知のOCR(optical character recognition)処理に含まれるレイアウト解析を行うことにより、原稿画像D1における文字領域CAを特定することが可能である。なお、文字領域特定部22は、原稿画像D1における文字領域CAを特定したレイアウト結果をデータ記憶部19に記憶させる。
【0026】
画像取得部23は、原稿画像D1から、文字領域特定部22によって特定された文字領域CAの画像を取得する。例えば、画像取得部23は、原稿画像D1に対して特定された文字領域CAの画像を取得する。なお、画像取得部23は、原稿画像D1に対して既知の画像切出し(トリミング)処理を行うことにより、原稿画像D1から文字領域CAの画像を切り出して取得してもよい。
【0027】
テキスト抽出部24は、文字領域CAにおけるテキストを抽出する。つまり、テキスト抽出部24は、文字領域CAのテキスト中の各文字データとその位置情報とを関連付けて抽出する。具体的には、テキスト抽出部24は、画像取得部23が取得した文字領域CAの画像についてOCR処理を行い、文字領域CAにおけるテキスト中の各文字データとその位置情報とをそれぞれ関連付けて抽出する。
【0028】
テキスト抽出部24が抽出したテキスト中の各文字データの位置情報は、原稿画像D1における文字データの位置を示す情報であり、例えば原稿画像D1の座標位置で特定される座標位置情報である。後述する
図6(A)に示すように、原稿画像D1は、その左上角部の位置が座標位置(0,0)、右上角部の位置が座標位置(x,0)、左下角部の位置が座標位置(0,y)、右下角部の位置が座標位置(x,y)に設定されている。テキスト抽出部24は、後述する
図6(B)に示す文字領域CAにおける例えば「They」の「T」の文字の場合、「T」の文字データと、当該「T」の文字を含む矩形領域の4隅の位置情報(対角線上の2隅の位置情報のみとしてもよい)とを関連付けて抽出する。文字領域CAに複数の文字があるので、複数の文字と当該複数の文字毎の位置情報とがそれぞれ関連付けて抽出される。テキスト抽出部24は、原稿画像D1の文字領域CAにおける各文字データとその位置情報とを対応付けて、原稿画像記憶部19aに記憶させる。
【0029】
単語特定部25は、テキスト抽出部24が抽出したテキストTXに含まれる複数の単語Wをそれぞれ特定する。例えば、単語特定部25は、後述する
図7(A)に示すテキストTXを構成する文字データの並び方向(
図7(A)では横方向)を特定し、文字データの並び方向において空白の文字スペースで挟まれた1つまたは複数の纏まった文字データを単語として特定する。例えば、
図7(A)に示すテキストTXの場合、単語特定部25は、「They」、「said」、「thal」、「Mark」、「snou.d」、…、「him」、「away」などの各単語Wをそれぞれ特定する。なお、単語特定部25は、テキストTXを構成する各文字データとその位置情報とを用いて、複数の単語Wをそれぞれ特定するとしてもよい。なおここでは、単語特定部25が特定した各単語Wには、誤変換文字を含む単語(
図7(A)では、「thal」、「snou.d」)が含まれている。これは、原稿G1の紙面の擦れ、傷などの劣化がある場合、OCR処理で得られるテキスト中に、誤変換の文字又は文字列が含まれるためである。
【0030】
単語判定部26は、単語特定部25が特定した複数の単語Wのそれぞれが、辞書データ記憶部19cの辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを判定する。
【0031】
具体的には、単語判定部26は、単語特定部25が特定した複数の単語W、つまり、「They」、「said」、「thal」、「Mark」、「snou.d」、…、「him」、「away」などの各単語Wのそれぞれが、辞書データ記憶部19cの辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを、単語ごとに順番に判定する。
【0032】
単語判定部26は、
図7(A)に示すテキストTXにおいて、単語特定部25にて特定された「They」が、辞書データの登録単語である「They」と一致すると判定し、テキストTXの「They」を一致単語MWと判定する。これと同様に、単語判定部26は、「said」、「Mark」、…、「him」、「away」などについては、辞書データの複数の登録単語である「said」、「Mark」、…、「him」、「away」とそれぞれ一致すると判定し、テキストTXの「said」、「Mark」、…、「him」、「away」などを一致単語MWと判定する。
【0033】
一方、単語判定部26は、
図7(A)に示すテキストTXにおいて、単語特定部25にて特定された「thal」が、辞書データに含まれる複数の登録単語の「that」と不一致であり、他の登録単語のいずれにも一致しないと判定し、テキストTXの「thal」を不一致単語MSWと判定する。また、単語判定部26は、
図7(A)に示すテキストTXにおいて、単語特定部25にて特定された「snou.d」が、辞書データに含まれる複数の登録単語の「should」と不一致であり、他の登録単語のいずれにも一致しないと判定し、テキストTXの「snou.d」を不一致単語MSWと判定する。
【0034】
生成部27は、単語判定部26が不一致と判定した不一致単語MSWがある場合、テキストTXの不一致単語MSWを構成する対象文字TCを、フォント記憶部19bに記憶されたフォントを構成する全文字の画像のうちで、当該対象文字TCに対応する文字領域CAの対象文字画像TCIに類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字RPCに置換することにより、テキストTXの不一致単語MSWの対象文字TCを置換後文字RPCに置換した修正後テキストCT(後述する
図7(B)を参照)を生成する。
【0035】
例えば、生成部27は、単語判定部26が一致と判定した一致単語MWがある場合、一致単語MWを構成する文字をフォント判定用文字FJCとする。具体的には、生成部27は、不一致単語MSWの前又は後に一致単語MWが位置する場合、当該一致単語MWを構成する文字をフォント判定用文字FJCとする。また、生成部27は、不一致単語MSWの前及び後に一致単語MWが位置する場合、当該前の一致単語MW又は前記後の一致単語MWを構成する文字をフォント判定用文字FJCとする。また、生成部27は、不一致単語MSWの前又は後に一致単語MWが位置していない場合、当該不一致単語MSWを含む文に有する一致単語MWを構成する文字をフォント判定用文字FJCとする。
【0036】
続いて、生成部27は、フォント判定用文字FJCに対応する文字領域CAの判定用文字画像JCIと、フォント記憶部19bに記憶された複数のフォントごとの当該フォント判定用文字FJCと同じ文字の画像との類似する割合が予め定められた割合(例えば90%)以上であって最も割合の高い文字の画像が示すフォントを特定し、テキストTXの不一致単語MSWを構成する対象文字TCを、フォント記憶部19bに記憶された複数のフォントのうちで特定されたフォントを構成する全文字の画像のうちで、当該対象文字TCに対応する文字領域CAの対象文字画像TCIに類似する割合が予め定められた割合(例えば90%)以上であって最も割合の高い文字の画像が示す置換後文字RPCに置換する。
【0037】
具体的には、生成部27は、単語判定部26が不一致と判定した不一致単語MSWがある場合、テキストTXの不一致単語MSWを構成する対象文字TCに対応する文字領域CAの対象文字画像TCIを文字単位で区切って生成された矩形状の境界ボックスBBと、フォント記憶部19bに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスCBとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックス毎に境界ボックスBBに対するピクセル領域の一致度をそれぞれ算出する。
【0038】
続いて、生成部27は、これらの一致度のうちで最も高い一致度HMが、(i)予め定められた第1閾値TH1(例えば97%)以上である場合、当該最も高い一致度HMを示す文字ボックスを、完全な文字を示す第1境界ボックスに対応する第1文字ボックスとして特定し、対象文字TCを第1文字ボックスの文字に置換しない。
【0039】
また、生成部27は、前記最も高い一致度HMが、(ii)第1閾値TH1(例えば97%)未満で、かつ、第1閾値TH1よりも小さい予め定められた第2閾値TH2(例えば90%)以上である場合、当該最も高い一致度HMを示す文字ボックスCBを、壊れた文字を示す第2境界ボックスに対応する第2文字ボックスとして特定し、対象文字TCを第2文字ボックスの文字に置換する。
【0040】
また、生成部27は、前記最も高い一致度HMが、(iii)第2閾値TH2(例えば90%)未満である場合、当該最も高い一致度HMを示す文字ボックスCBを、置換候補とならない第3文字ボックスとして特定し、対象文字TCを第3文字ボックスの文字に置換せず、当該対象文字を他の文字とは異なる表示態様に変更する。
【0041】
制御部21は、修正後テキストCTを表示部12に表示させる。そして、制御部21は、ユーザーによる印刷指示の操作が操作部14に対して行われると、画像形成部18に、生成部27が生成した修正後テキストCT示す画像を記録紙に画像形成させる。また、制御部21は、ユーザーによるデータ出力指示の操作が操作部14に対して行われると、通信部16に、生成部27が生成した修正後テキストCTを外部装置30に送信(出力)させる。
【0042】
続いて、画像形成装置10によるテキスト中の誤変換文字を修正した修正後テキストを生成する処理について説明する。
図5は、実施形態に係る誤変換文字修正処理の一例を示すフローチャートである。
【0043】
制御部21は、表示部12に
図4に示す表示画面が表示された状態において、ユーザーが「スキャン後誤変換修正」と表示されたキーKBを押下すると、
図5に示す誤変換文字修正処理を開始する。具体的には、ユーザーがキーKBを押下すると、タッチパネル15がキーKBの押下を受け付け、誤変換文字修正処理の開始信号を制御部21に出力する。制御部21は、タッチパネル15からの誤変換文字修正処理の開始信号に基づいて誤変換文字修正処理を開始させる。
【0044】
制御部21は、
図3に示す原稿G1が、ユーザーにより画像読取部17にセットされた状態において、操作部14のスタートボタンが押下されると、画像読取部17に原稿G1を読み取らせる(S1)。制御部21は、画像読取部17が読み取った原稿画像D1を示す画像データを原稿画像記憶部19aに記憶させる。
【0045】
図6(A)は、レイアウト解析された原稿画像の一例を示す図である。
図6(B)は、原稿画像において特定された文字領域の一例を示す図である。文字領域特定部22は、
図6(A)に示す原稿画像D1に対して、OCR処理に含まれるレイアウト解析を行うことにより、
図6(B)に示すように、原稿画像D1における文字領域CAを特定する(S2)。
図6(B)に示す原稿画像D1において、文字領域CAが特定される。また、文字領域特定部22は、原稿画像D1の座標位置情報に基づいて、原稿画像D1における文字領域CAの各位置を示す情報も取得する。例えば、文字領域特定部22は、文字領域CAの左上角部、右上角部、左下角部、及び右下角部の各座標位置P1、P2、P3、P4を示す情報を取得する。
【0046】
画像取得部23は、
図6(B)に示す原稿画像D1から、文字領域特定部22によって特定された文字領域CAの画像を取得する(S3)。
【0047】
テキスト抽出部24は、画像取得部23が取得した文字領域CAの画像についてOCR処理を行い、文字領域CAにおけるテキスト中の各文字データとその位置情報とをそれぞれ関連付けて抽出する(S4)。
図7(A)は、原稿画像から抽出されたテキストの一例を示す図である。具体的には、テキスト抽出部24は、
図7(A)に示すテキストTXの最初の「They」について言えば、「T」、「h」、「e」、「y」の各文字データとそれらの位置情報とを、文字データごとに関連付けてそれぞれ抽出する。これと同様に、テキスト抽出部24は、「They」の後に続く残りの各文字データとその位置情報とを関連付けて抽出する。
【0048】
単語特定部25は、テキスト抽出部24が抽出したテキストTXに含まれる複数の単語Wをそれぞれ特定する(S5)。単語特定部25は、
図7(A)に示すように、「They」、「said」、「thal」、「Mark」、「snou.d」、…、「him」、「away」などの各単語Wをそれぞれ特定する。
【0049】
単語判定部26は、単語特定部25が特定した複数の単語Wのそれぞれが、辞書データ記憶部19cの辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを判定する(S6)。
【0050】
図7(A)に示すテキストTXの場合には、単語判定部26は、単語特定部25が特定した複数の単語Wのうち、「They」、「said」、「Mark」、…、「him」、「away」などについては、辞書データの複数の登録単語である「They」、「said」、「Mark」、…、「him」、「away」とそれぞれ一致すると判定し、テキストTXの「They」、「said」、「Mark」、…、「him」、「away」などを一致単語MWと判定する。
【0051】
一方、単語判定部26は、「thal」及び「snou.d」の単語Wについては、辞書データに含まれる複数の登録単語のいずれにも一致しないと判定し、テキストTXの「thal」及び「snou.d」をそれぞれ不一致単語MSWと判定する。
【0052】
生成部27は、修正後テキスト生成処理を行う(S7)。
図8は、修正後テキスト生成処理の一例を示すフローチャートである。
図9は、対象文字に最も類似するフォントを特定する処理の一例を示す図である。
【0053】
生成部27は、
図8に示すように、単語判定部26が一致と判定した一致単語MWがある場合、一致単語MWを構成する文字をフォント判定用文字FJCとする(S71)。ここでは、生成部27は、
図9に示すように、不一致単語MSWである「thal」の前及び後に一致単語MWである「said」及び「Mark」が位置しており、当該後の一致単語MWである「Mark」を構成する文字のうちで予め定められた順番(例えば、1番目)の文字である「M」をフォント判定用文字FJCとする。なお、予め定められた順番の文字は、1番目以外の任意の順番の文字であってもよいし、最後尾の文字(例えば、「Mark」であれば「k」)であってもよい。
【0054】
生成部27は、
図9に示すように、フォント判定用文字FJCに対応する文字領域CAの判定用文字画像JCI(「M」の画像)と、フォント記憶部19bに記憶された複数種類のフォント(例えば、「Arial」、「Courier New」、「Times New Roman」など)ごとの当該フォント判定用文字FJCと同じ文字の画像(「M」の画像)との類似する割合が予め定められた割合(例えば90%)以上であって最も割合の高い文字の画像が示すフォントを特定する(S72)。
【0055】
図10は、フォント判定用文字の境界ボックスと複数のフォント毎の当該フォント判定用文字と同じ文字の文字ボックスとのピクセル領域の一致度を用いてフォントを特定する一例を示す図である。
【0056】
具体的には、生成部27は、
図10に示すように、フォント判定用文字FJCの画像(「M」の画像)の矩形状の境界ボックスBBと、複数種類のフォントの「M」の画像毎の矩形状の文字ボックスCBとを、予め定められた縦数×横数(例えば22×22)のグリッドで格子状に分割した縦数×横数(例えば22×22)からなるピクセル領域に分割し、複数の文字ボックスCB毎に境界ボックスBBに対するピクセル領域の一致度をそれぞれ算出する。
【0057】
生成部27は、
図10では、フォント判定用文字FJCに対応する文字領域CAの判定用文字画像JCI(「M」の画像)の境界ボックスBBと、「Arial」、「Courier New」の各フォントの「M」の文字ボックスCBとの類似度スコアを、それぞれ94.38%、80.79%である算出している。また、「Times New Roman」フォントの「M」の文字ボックスCBとの類似度スコアについては、
図10には図示していないが、94.38%よりも低い値であった。このため、「Arial」のフォントの「M」の文字ボックスCBの類似度スコアは、94.38%であり、予め定められた割合(例えば90%)以上であって最も割合の高い。よって、生成部27は、フォント判定用文字FJCに対応する文字領域CAの判定用文字画像JCI(「M」の画像)の境界ボックスBBに最も類似するフォントを、「Arial」に特定する。
【0058】
図8に戻って、生成部27は、テキストTXの不一致単語MSWである「thal」及び「snou.d」をそれぞれ正しい単語に置換する置換処理を行う(S73)。
図11は、置換処理の一例を示すフローチャートである。
図12は、対象文字に最も類似する文字を特定する一例を示す図である。
【0059】
生成部27は、不一致単語MSWが複数ある場合には、複数の不一致単語MSWを、その並び順に置換処理を行う。具体的には、生成部27は、「thal」を正しい単語に置換し、次に、「snou.d」を正しい単語に置換する。ここでは、説明の便宜上の理由から、不一致単語MSWである「snou.d」を例に挙げて説明することにする。
【0060】
生成部27は、テキストTXの不一致単語MSWである「snou.d」を構成する対象文字TCに対応する文字領域CAの対象文字画像TCIを文字単位で区切って生成された矩形状の境界ボックスBBをそれぞれ生成する(S730)。具体的には、
図12に示すように、生成部27は、「snou.d」の各文字を対象文字TCとし、「s」、「n」、「o」、「u」、「.」、「d」に対応する文字領域CAの各対象文字画像TCIの境界ボックスBBをそれぞれ生成する。すなわち、「s」の境界ボックスBBと、「n」の境界ボックスBBと、「o」の境界ボックスBBと、「u」の境界ボックスBBと、「.」の境界ボックスBBと、「d」の境界ボックスBBとが生成される。
【0061】
生成部27は、「s」の境界ボックスBBと、フォント記憶部19bに記憶されている上記の特定された「Arial」のフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスCBとを、予め定められた縦数×横数(例えば22×22)のグリッドで格子状に分割した縦数×横数(例えば22×22)からなるピクセル領域に分割し、複数の矩形状の文字ボックスCB毎に境界ボックスBBに対するピクセル領域の一致度をそれぞれ算出する(S731)。
【0062】
ここでは、「Arial」のフォントの全文字(「a」~「z」のアルファベット、「.」、「-」などの記号など)の画像のうちで、「Arial」のフォントの「s」の文字の類似度スコアが99%と算出され、「Arial」のフォントの「s」以外の各文字の類似度スコアが90%未満であったと算出されたとする。
【0063】
生成部27は、これらの一致度のうちで最も高い一致度HM(つまり、上記の99%)が、第1閾値TH1(例えば97%)以上であるか否かを判定する(S732)。ここでは、生成部27は、当該最も高い一致度HM(上記の99%)が、第1閾値TH1(例えば97%)以上であると判定し(S732でYES)、当該最も高い一致度HM(上記の99%)を示す文字ボックスCBを、完全な文字を示す第1境界ボックスに対応する第1文字ボックスとして特定し(S733)、対象文字TCを第1文字ボックスの文字に置換しない(S734)。すなわち、テキストTXの不一致単語MSWである「snou.d」における「s」については、誤変換文字ではないため、置換されない。
【0064】
続いて、生成部27は、S734のあと、次の対象文字の有無を判定する(S734A)。ここでは、テキストTXの不一致単語MSWである「snou.d」における「s」の後の対象文字である「n」があるので、次の対象文字ありと判定し(S734AでYES)、S731に進む。
【0065】
図13は、対象文字の境界ボックスと特定されたフォントの全文字の文字ボックスとのピクセル領域の一致度を用いて対象文字に最も類似する文字を特定する一例を示す図である。
【0066】
図13に示すように、生成部27は、「n」の境界ボックスBBと、フォント記憶部19bに記憶されている上記の特定された「Arial」のフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスCBとを、予め定められた縦数×横数(例えば22×22)のグリッドで格子状に分割した縦数×横数(例えば22×22)からなるピクセル領域に分割し、複数の矩形状の文字ボックスCB毎に境界ボックスBBに対するピクセル領域の一致度をそれぞれ算出する(S731)。
【0067】
「n」の境界ボックスBBの画像が示す字体の一部が欠損、損壊した文字画像(壊れた文字画像)となっている。このような原稿画像に対してOCR処理を行うと、当該壊れた文字画像については、誤変換の文字又は文字列とされる蓋然性が高いことは言うまでもない。
【0068】
ここでは、
図13に示すように、「Arial」のフォントの全文字(「a」~「z」のアルファベット、「.」、「-」などの記号など)の画像のうちで、「Arial」のフォントの「b」、「h」、「n」の文字との類似度スコアが、それぞれ87.80%、94.74%、81.82%と算出されている。
【0069】
生成部27は、これらの一致度のうちで最も高い一致度HM(つまり、上記の94.74%)が、第1閾値TH1(例えば97%)以上であるか否かを判定する(S732)。ここでは、生成部27は、当該最も高い一致度HM(上記の94.74%)が、第1閾値TH1(例えば97%)以上でないと判定する(S732でNO)。
【0070】
続いて、生成部27は、当該最も高い一致度HM(上記の94.74%)が、第1閾値TH1(例えば97%)未満で、かつ、第2閾値TH2(例えば90%)以上であるか否かを判定する(S735)。ここでは、生成部27は、当該最も高い一致度HM(上記の94.74%)が、第1閾値TH1(例えば97%)未満で、かつ、第2閾値TH2(例えば90%)以上であると判定し(S735でYES)、当該最も高い一致度HM(上記の94.74%)を示す文字ボックスCBを、壊れた文字を示す第2境界ボックスに対応する第2文字ボックスとして特定し(S736)、対象文字TCを第2文字ボックスの文字に置換する(S737)。すなわち、テキストTXの不一致単語MSWである「snou.d」における「n」については、誤変換文字であり、「h」の文字に置換される。
【0071】
続いて、生成部27は、S737のあと、次の対象文字の有無を判定する(S734A)。ここでは、テキストTXの不一致単語MSWである「snou.d」における「n」の後の対象文字である「o」があるので、次の対象文字ありと判定し(S734AでYES)、S731に進む。
【0072】
上記と同様に、テキストTXの不一致単語MSWである「snou.d」における残りの各境界ボックスBB、つまり、「o」の境界ボックスBBと、「u」の境界ボックスBBと、「.」の境界ボックスBBと、「d」の境界ボックスBBとについて、置換処理(S73)が実行される。
【0073】
なお、不一致単語MSWである「snou.d」における「o」、「u」、「d」については、誤変換文字ではない。このため、生成部27は、「o」、「u」及び「d」については、当該最も高い一致度HMが、第1閾値TH1以上であると判定し、「o」、「u」及び「d」については、置換後文字RPCに置換されない。
【0074】
一方、不一致単語MSWである「snou.d」における「.」については、誤変換文字である。このため、生成部27は、「.」については、当該最も高い一致度HMが、第1閾値TH1(例えば97%)未満で、かつ、第2閾値TH2(例えば90%)以上であると判定したとし(S735でYES)、当該最も高い一致度HMを示す文字ボックスCB(ここでは、「l」:小文字のエル)を、壊れた文字を示す第2境界ボックスに対応する第2文字ボックスとして特定し(S736)、対象文字TCを第2文字ボックスの文字(ここでは、「l」)に置換したとする(S737)。すなわち、テキストTXの不一致単語MSWである「snou.d」における「.」については、誤変換文字であり、「l」の文字(小文字のエル)に置換される。
【0075】
上記では、生成部27は、不一致単語MSWである「snou.d」における「.」については、当該最も高い一致度HMが、第1閾値TH1(例えば97%)未満で、かつ、第2閾値TH2(例えば90%)以上であると判定した(S735でYES)としているが、第2閾値TH2(例えば90%)未満であった場合について以下に説明する。
【0076】
生成部27は、不一致単語MSWである「snou.d」における「.」については、当該最も高い一致度HMが、第2閾値TH2(例えば90%)未満であると判定すると(S735でNO)、当該最も高い一致度HMを示す文字ボックスCBを、置換候補とならない第3文字ボックスとして特定し(S738)、対象文字TCを第3文字ボックスの文字に置換せず、
図15に示すように、当該対象文字を他の文字とは異なる表示態様に変更し(S739)、S734Aに進む。
【0077】
図15は、テキスト中において修正できなかった誤変換文字の表示態様の一例を示す図である。生成部27は、不一致単語MSWである「snou.d」における「.」については、当該「.」の背景を、他の文字の背景とは異なる色(
図15では、ハッチングで示している)の表示態様に変更する。
【0078】
続いて、生成部27は、次の対象文字の有無を判定する(S734A)。ここでは、テキストTXの不一致単語MSWである「snou.d」における「d」の後の対象文字がないので、次の対象文字なしと判定し(S734AでNO)、
図8のS74に進む。
【0079】
生成部27は、次の不一致単語の有無を判定する(S74)。生成部27は、次の不一致単語があれば(S74でYES)、不一致単語が同じ文内の単語であるか否かを判定する(S75)。例えば、
図7(A)に示すテキストTXの不一致単語MSWである「snou.d」の後に、別の不一致単語MSWがあった場合、別の不一致単語MSWが、「they … kingdom.」の文に存在するものであるか否かを判定する。生成部27は、別の不一致単語MSWが、「they … kingdom.」の文に存在すると判定すると(S75でYES)、S73に進み、「they … kingdom.」の文に存在しないと判定すると(S75でNO)、S71に進む。
【0080】
制御部21は、生成部27が、次の不一致単語がないと判定すると(S74でNO)、
図8に示す処理を終了させる。
【0081】
図14は、テキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。
図14に示すように、生成部27は、テキストTXの不一致単語MSWである「thal」及び「snou.d」を、正しい単語である「that」及び「should」に置換する。具体的には、生成部27は、不一致単語MSWである「thal」の「l」については、「t」である置換後文字RPCに置換し、テキストTXの不一致単語MSWである「thal」を、正しい単語である「that」に置換する。また、生成部27は、不一致単語MSWである「snou.d」の「n」及び「.」については、「h」である置換後文字RPCと、「l」である置換後文字RPCとにそれぞれ置換し、テキストTXの不一致単語MSWである「snou.d」を、正しい単語である「should」に置換する。
【0082】
図5に戻って、制御部21は、
図7(B)に示す修正後テキストCTを表示部12に表示させる(S8)。
図7(B)は、テキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。
【0083】
制御部21は、ユーザーによる保存又は印刷の指示の有無を判定する(S9)。制御部21は、タッチパネル15により、図示しない「保存」ボタンの押下を検出すると(S9で「保存」)、修正後テキストCTをデータ記憶部19に記憶させ(S10)、本処理を終了させる。一方、制御部21は、タッチパネル15により、図示しない「印刷」ボタンの押下を検出すると(S9で「印刷」)、画像形成部18に、修正後テキストCTの画像を記録紙に画像形成させ(S11)、本処理を終了させる。
【0084】
なお、S9において「送信」の判定を追加してもよい。この場合には、制御部21は、ユーザーによるデータ出力指示の操作が操作部14に対して行われると、通信部16に、修正後テキストCTを外部装置30に送信(出力)させ、本処理を終了させるとしてもよい。
【0085】
このように、上記実施形態によれば、原稿画像記憶部19aは、原稿画像D1を記憶する。辞書データ記憶部19cは、予め定められた複数の登録単語を含む辞書データを記憶する。フォント記憶部19bは、フォントを予め記憶する。文字領域特定部22は、原稿画像記憶部19aに記憶された原稿画像D1における文字領域CAを特定する。画像取得部23は、原稿画像D1から文字領域CAの画像を取得する。テキスト抽出部24は、画像取得部23が取得した文字領域CAの画像からテキストTXを抽出する。単語特定部25は、テキスト抽出部24が抽出したテキストTXに含まれる複数の単語Wをそれぞれ特定する。単語判定部26は、単語特定部25が特定した複数の単語Wのそれぞれが、辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを判定する。生成部27は、単語判定部26が不一致と判定した不一致単語MSWがある場合、テキストTXの不一致単語MSWを構成する対象文字TCを、フォント記憶部19bに記憶されたフォントを構成する全文字の画像のうちで、当該対象文字TCに対応する文字領域CAの対象文字画像TCIに類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字RPCに置換することにより、テキストTXの不一致単語MSWの対象文字TCを置換後文字RPCに置換した修正後テキストCTを生成する。このため、不一致単語MSWがある場合、不一致単語MSWに誤変換の文字が含まれることを検出することができる。言い換えれば、テキストTX中における誤変換の文字又は文字列を検出することができる。そして、テキストTXの不一致単語MSWの対象文字TCを置換後文字RPCに置換した修正後テキストCTを生成するので、OCR処理で得られるテキストTX中における誤変換の文字又は文字列の修正を行うことができる。これにより、OCR処理で得られるテキストTX中における誤変換の文字又は文字列の検出及び修正を行うことができる。
【0086】
また、生成部27は、単語判定部26が一致と判定した一致単語MWがある場合、一致単語MWを構成する文字をフォント判定用文字FJCとし、フォント判定用文字FJCに対応する文字領域CAの判定用文字画像JCIとフォント記憶部19bに記憶された複数のフォントごとの当該フォント判定用文字FJCと同じ文字の画像との類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示すフォントを特定する。このため、OCR処理にて正しく文字認識された完全な文字の画像(フォント判定用文字FJCの画像)を用いてフォントの種類を特定することができ、字体の一部が欠損、損壊した「壊れた文字画像」を用いることを低減できる。これにより、フォントの種類を特定する精度を向上させることができる。また、生成部27は、テキストTXの不一致単語MSWを構成する対象文字TCを、フォント記憶部19bに記憶された複数のフォントのうちで特定されたフォントを構成する全文字の画像のうちで、当該対象文字TCに対応する前記文字領域CAの対象文字画像TCIに類似する割合が予め定められた割合以上であって最も割合の高い置換後文字RPCに置換するに置換することにより、テキストTXの不一致単語MSWの対象文字TCを置換後文字RPCに置換した修正後テキストCTを生成する。このため、OCR処理で得られるテキストTX中における誤変換の文字又は文字列の修正を行うことができる。
【0087】
また、生成部27は、単語判定部26が不一致と判定した不一致単語MSWがある場合、テキストTXの不一致単語MSWを構成する対象文字TCに対応する文字領域CAの対象文字画像TCIを文字単位で区切って生成された矩形状の境界ボックスBBと、フォント記憶部19bに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスCBとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックスCB毎に境界ボックスBBに対するピクセル領域の一致度をそれぞれ算出し、これらの一致度のうちで最も高い一致度が、(i)予め定められた第1閾値以上である場合、当該最も高い一致度を示す文字ボックスCBを、完全な文字を示す第1境界ボックスに対応する第1文字ボックスとして特定し、対象文字TCを第1文字ボックスの文字に置換せず、(ii)予め定められた第1閾値未満で、かつ、予め定められた第1閾値よりも小さい予め定められた第2閾値以上である場合、当該最も高い一致度を示す文字ボックスCBを、壊れた文字を示す第2境界ボックスに対応する第2文字ボックスとして特定し、対象文字TCを第2文字ボックスの文字に置換する。このため、(i)最も高い一致度が、予め定められた第1閾値以上であれば、対象文字TCが完全な文字であることを特定でき、正しく変換された文字であると特定できる。この場合には、対象文字TCを第1文字ボックスの文字に置換する必要がない。このため、生成部27は、対象文字TCを第1文字ボックスの文字に置換しない。このため、OCR処理で得られるテキストTX中における正変換の文字又は文字列の修正を行わないようにすることができる。一方、(ii)最も高い一致度が、予め定められた第1閾値未満で、かつ、第2閾値以上であれば、対象文字TCが壊れた文字であることを特定でき、誤変換された文字であると特定することができる。よって、テキストTX中における誤変換の文字又は文字列を検出することができる。そして、生成部27は、対象文字TCを第2文字ボックスの文字に置換する。このため、OCR処理で得られるテキストTX中における誤変換の文字又は文字列の修正を精度良く行うことができる。
【0088】
また、生成部27は、最も高い一致度が、(iii)予め定められた第2閾値未満である場合、当該最も高い一致度を示す文字ボックスCBを、置換候補とならない第3文字ボックスとして特定し、対象文字TCを第3文字ボックスの文字に置換せず、当該対象文字TCを他の文字とは異なる表示態様に変更する。このため、対象文字TCが誤変換された文字であり、正しく修正されなかったことを特定することができ、その旨をユーザーに注意喚起することができる。
【0089】
また、生成部27は、不一致単語MSWの前又は後に一致単語MWが位置する場合、当該一致単語MWを構成する文字をフォント判定用文字FJCとし、不一致単語MSWの前及び後に一致単語MWが位置する場合、前の一致単語MW又は後の一致単語MWを構成する文字をフォント判定用文字FJCとし、不一致単語MSWの前又は後に一致単語MWが位置しない場合、不一致単語MSWを含む文に有する一致単語MWを構成する文字をフォント判定用文字FJCとする。なお、不一致単語MSWは、当該不一致単語MSWを含む文に有する一致単語MWと同じフォントである蓋然性が高い、更に言えば、当該不一致単語MSWの前又は後の一致単語MWと同じフォントである蓋然性が更に高い。このため、不一致単語MSWの前及び後に位置する一致単語MW、つまり、OCR処理にて正しく文字認識された完全な文字の画像(フォント判定用文字FJCの画像)を用いることができる。これにより、フォントの種類を特定する精度をさらに向上させることができる。
【0090】
次に、変形例に係る画像形成装置について、
図16を用いて説明する。
図16は、変形例に係る修正後テキストの生成の一例を示す図である。
【0091】
上記の実施形態では、生成部27は、上記の最も高い一致度HMが、(i)予め定められた第1閾値TH1(例えば97%)以上である場合、当該最も高い一致度HMを示す文字ボックスを、完全な文字を示す第1境界ボックスに対応する第1文字ボックスとして特定し、対象文字TCを第1文字ボックスの文字に置換しないとしているが、これに限定されない。すなわち、変形例では、生成部27は、対象文字TCを第1文字ボックスの文字に置換する。
【0092】
生成部27は、単語判定部26が不一致と判定した不一致単語MSWがある場合、テキストTXの不一致単語MSWを構成する対象文字TCに対応する文字領域CAの対象文字画像TCIを文字単位で区切って生成された矩形状の境界ボックスBBと、フォント記憶部19bに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスCBとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックスCBのうちで境界ボックスBBに対するピクセル領域の一致度が最も高い文字ボックスを特定し、対象文字TCを前記最も高い文字ボックスの文字に置換する。
【0093】
図16に示すように、生成部27は、テキストTXの不一致単語MSWである「thal」及び「snou.d」を、正しい単語である「that」及び「should」に置換する。具体的には、生成部27は、不一致単語MSWである「thal」の全ての文字(「t」、「h」、「a」、「l」)について、「t」、「h」、「a」、「l」である置換後文字RPCにそれぞれ置換し、テキストTXの不一致単語MSWである「thal」を、正しい単語である「that」に置換する。また、生成部27は、不一致単語MSWである「snou.d」の全ての文字(「s」、「n」、「o」、「u」、「.」、「d」)について、「s」、「h」、「o」、「u」、「l」、「d」である置換後文字RPCにそれぞれ置換し、テキストTXの不一致単語MSWである「snou.d」を、正しい単語である「should」に置換する。
【0094】
上記変形例によれば、生成部27は、単語判定部26が不一致と判定した不一致単語MSWがある場合、テキストTXの不一致単語MSWを構成する対象文字TCに対応する文字領域CAの対象文字画像TCIを文字単位で区切って生成された矩形状の境界ボックスBBと、フォント記憶部19bに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスCBとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックスCBのうちで境界ボックスBBに対するピクセル領域の一致度が最も高い文字ボックスを特定し、対象文字TCを最も高い文字ボックスの文字(つまり、置換後文字RPC)に置換する。このため、OCR処理で得られるテキスト中における誤変換の文字又は文字列の修正を精度良く行うことができる。
【0095】
なお、本発明は上記実施の形態の構成に限られず種々の変形が可能である。
【0096】
上記実施形態又は変形例において、文字領域特定部22は、原稿画像D1をレイアウト解析して文字領域CAを特定しているが、これに限定されない。例えば、文字領域特定部22は、ユーザーによる文字領域CAの指定に従って、原稿画像D1における文字領域CAを特定してもよい。文字領域特定部22は、表示部12に表示された原稿画像D1上に対して、矩形状の範囲の左上隅点と右下隅点との2点をユーザーがタッチする2点操作があると、この矩形状の範囲を文字領域CAとして特定する。また、矩形状の範囲の4隅を指示する4点操作、手書き文字の画像を囲む操作(ドラッグ操作)などであってもよい。
【0097】
なお、上記実施形態などでは、画像処理装置の一例として、画像形成装置10を用いて説明しているが、これに限定されない。例えば、
図2に示す制御ユニット11及びデータ記憶部19を備える画像処理装置(例えば、パーソナルコンピューター、サーバー、携帯情報端末など)としてもよい。
【0098】
なお、
図1乃至
図16を用いて説明した上記実施形態の構成及び処理は、本発明の一例に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。
【符号の説明】
【0099】
10 画像形成装置
17 画像読取部
18 画像形成部
19a 原稿画像記憶部
19b フォント記憶部
19c 辞書データ記憶部
21 制御部
22 文字領域特定部
23 画像取得部
24 テキスト抽出部
25 単語特定部
26 単語判定部
27 生成部