特許7552263 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラドキュメントソリューションズ株式会社の特許一覧

特許7552263画像処理装置および画像形成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】画像処理装置および画像形成装置

(51)【国際特許分類】

G06V 30/26 20220101AFI20240910BHJP

G06V 30/12 20220101ALI20240910BHJP

【ＦＩ】

G06V30/26

G06V30/12 Z

【請求項の数】 7

(21)【出願番号】P 2020184534

(22)【出願日】2020-11-04

(65)【公開番号】P2022074466

(43)【公開日】2022-05-18

【審査請求日】2023-10-27

(73)【特許権者】

【識別番号】000006150

【氏名又は名称】京セラドキュメントソリューションズ株式会社

(74)【代理人】

【識別番号】110003443

【氏名又は名称】弁理士法人ＴＮＫアジア国際特許事務所

(74)【代理人】

【識別番号】100129997

【弁理士】

【氏名又は名称】田中米藏

(72)【発明者】

【氏名】ジェザー・ヴィンヤーロン

【審査官】岡本俊威

(56)【参考文献】

【文献】特開２０００－１５５７９５（ＪＰ，Ａ）

【文献】特開２０１９－１４８９４１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

(57)【特許請求の範囲】

【請求項1】

原稿画像を記憶する原稿画像記憶部と、
予め定められた複数の登録単語を含む辞書データを記憶する辞書データ記憶部と、
フォントを構成する全文字の画像を予め記憶するフォント記憶部と、
前記原稿画像記憶部に記憶された前記原稿画像における文字領域を特定する文字領域特定部と、
前記原稿画像から前記文字領域の画像を取得する画像取得部と、
前記画像取得部が取得した前記文字領域の画像からテキストを抽出するテキスト抽出部と、
前記テキスト抽出部が抽出したテキストに含まれる複数の単語をそれぞれ特定する単語特定部と、
前記単語特定部が特定した前記複数の単語のそれぞれが、前記辞書データに含まれる前記複数の登録単語の何れかの登録単語と一致するか否かを判定する単語判定部と、
前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する対象文字を、前記フォント記憶部に記憶された前記フォントを構成する全文字の画像のうちで、当該対象文字に対応する前記文字領域の対象文字画像に類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字に置換することにより、前記テキストの前記不一致単語の対象文字を前記置換後文字に置換した修正後テキストを生成する生成部と、を備える画像処理装置。

【請求項2】

前記フォント記憶部は、複数種類のフォントを予め記憶し、
前記生成部は、前記単語判定部が一致と判定した一致単語がある場合、前記一致単語を構成する文字をフォント判定用文字とし、前記フォント判定用文字に対応する前記文字領域の判定用文字画像と前記フォント記憶部に記憶された前記複数のフォントごとの当該フォント判定用文字と同じ文字の画像との類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示すフォントを特定し、前記テキストの前記不一致単語を構成する対象文字を、前記フォント記憶部に記憶された前記複数のフォントのうちで前記特定されたフォントを構成する全文字の画像のうちで、当該対象文字に対応する前記文字領域の対象文字画像に類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字に置換する請求項１に記載の画像処理装置。

【請求項3】

【請求項4】

前記生成部は、前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する前記対象文字に対応する前記文字領域の対象文字画像を文字単位で区切って生成された矩形状の境界ボックスと、前記フォント記憶部に記憶された前記複数種類のフォントのうちで前記特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、前記複数の矩形状の文字ボックス毎に前記境界ボックスに対するピクセル領域の一致度をそれぞれ算出し、これらの一致度のうちで最も高い一致度が、（ｉ）予め定められた第１閾値以上である場合、当該最も高い一致度を示す文字ボックスを、完全な文字を示す第１境界ボックスに対応する第１文字ボックスとして特定し、前記対象文字を前記第１文字ボックスの文字に置換せず、（ｉｉ）前記予め定められた第１閾値未満で、かつ、前記予め定められた第１閾値よりも小さい予め定められた第２閾値以上である場合、当該最も高い一致度を示す文字ボックスを、壊れた文字を示す第２境界ボックスに対応する第２文字ボックスとして特定し、前記対象文字を前記第２文字ボックスの文字に置換する請求項２に記載の画像処理装置。

【請求項5】

前記生成部は、前記最も高い一致度が、（ｉｉｉ）前記予め定められた第２閾値未満である場合、当該最も高い一致度を示す文字ボックスを、置換候補とならない第３文字ボックスとして特定し、前記対象文字を前記第３文字ボックスの文字に置換せず、当該対象文字を他の文字とは異なる表示態様に変更する請求項４に記載の画像処理装置。

【請求項6】

前記生成部は、前記不一致単語の前又は後に前記一致単語が位置する場合、当該一致単語を構成する文字を前記フォント判定用文字とし、前記不一致単語の前及び後に前記一致単語が位置する場合、当該前の一致単語又は前記後の一致単語を構成する文字を前記フォント判定用文字とし、前記不一致単語の前又は後に前記一致単語が位置していない場合、当該不一致単語を含む文に有する前記一致単語を構成する文字を前記フォント判定用文字とする請求項２に記載の画像処理装置。

【請求項7】

請求項１乃至請求項６の何れかに記載の画像処理装置と、
原稿画像を読み取る画像読取部と、
前記画像読取部が読み取った前記原稿画像を前記原稿画像記憶部に記憶させる制御部と、
記録媒体に画像を形成する画像形成部と、を備える画像形成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置および画像形成装置に関し、特に、ＯＣＲ処理で得られるテキスト中における誤変換の文字又は文字列の検出及び修正を可能にする技術に関する。

【背景技術】

【0002】

下記特許文献１には、原稿読取台に載置された複数の原稿（例えば、名刺など）を一度のスキャンで画像読取部にて読み取り、前記画像読取部が取得したスキャン画像に対して、既知のＯＣＲ（optical character recognition）処理を行って、文字データを取得する画像形成装置が記載されている。例えば、原稿読取台に載置された複数の原稿の一部が互いに重なっていた場合、又は、原稿の一部が原稿読取台のスキャン領域からはみ出ていた場合において、スキャン画像における原稿画像に一部欠損が生じる。このため、当該スキャン画像に対するＯＣＲ処理で得られる文字データにも、当然、欠損部分が存在することになる。そこで、上記の画像形成装置では、前記文字データの欠損部分を、他の原稿の文字データから類推した修正候補の文字データに修正することが可能となっている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－１０６０２８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、上記の特許文献１の画像形成装置又は一般的な画像形成装置では、原稿読取台への原稿の載置が良好であっても、ＯＣＲ処理で得られるテキスト中に、誤変換の文字又は文字列が含まれることがあるが、テキスト中のどの文字又は文字列が誤変換であるかが分からない。このように、上記の各画像形成装置では、テキスト中のどの文字又は文字列が誤変換であるかが分からないので、誤変換の文字又は文字列を適切な文字又は文字列に修正することもできない。また、原稿画像中に、字体の一部が欠損、損壊した文字画像（以下、「壊れた文字画像」と適宜に呼ぶ）が含まれている場合、このような原稿画像に対してＯＣＲ処理を行うと、少なくとも壊れた文字画像については、誤変換の文字又は文字列とされる蓋然性が高い。

【0005】

本発明は、上記の事情に鑑みてなされたものであり、ＯＣＲ処理で得られるテキスト中における誤変換の文字又は文字列の検出及び修正を行うことを可能にすることを目的とする。

【課題を解決するための手段】

【0006】

本発明の一局面に係る画像処理装置は、原稿画像を記憶する原稿画像記憶部と、予め定められた複数の登録単語を含む辞書データを記憶する辞書データ記憶部と、フォントを予め記憶するフォント記憶部と、前記原稿画像記憶部に記憶された前記原稿画像における文字領域を特定する文字領域特定部と、前記原稿画像から前記文字領域の画像を取得する画像取得部と、前記画像取得部が取得した前記文字領域の画像からテキストを抽出するテキスト抽出部と、前記テキスト抽出部が抽出したテキストに含まれる複数の単語をそれぞれ特定する単語特定部と、前記単語特定部が特定した前記複数の単語のそれぞれが、前記辞書データに含まれる前記複数の登録単語の何れかの登録単語と一致するか否かを判定する単語判定部と、前記単語判定部が不一致と判定した不一致単語がある場合、前記テキストの前記不一致単語を構成する対象文字を、前記フォント記憶部に記憶された前記フォントを構成する全文字の画像のうちで、当該対象文字に対応する前記文字領域の対象文字画像に類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字に置換することにより、前記テキストの前記不一致単語の対象文字を前記置換後文字に置換した修正後テキストを生成する生成部と、を備えるものである。

【0007】

本発明の一局面に係る画像形成装置は、上記画像処理装置と、原稿画像を読み取る画像読取部と、前記画像読取部が読み取った前記原稿画像を前記原稿画像記憶部に記憶させる制御部と、記録媒体に画像を形成する画像形成部と、を備えるものである。

【発明の効果】

【0008】

本発明によれば、ＯＣＲ処理で得られるテキスト中における誤変換の文字又は文字列の検出及び修正を行うことができる。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態に係る画像形成装置の斜視図である。

【図2】実施形態の画像形成装置の構成を示すブロック図である。

【図3】実施形態に係る画像形成装置にて行われる、原稿画像から抽出されたテキスト中の誤変換文字を修正した修正後テキストを生成する処理を概念的に示す図である。

【図4】画像形成装置の表示部の表示画面の一例を示す図である。

【図5】実施形態に係る誤変換文字修正処理の一例を示すフローチャートである。

【図6】（Ａ）はレイアウト解析された原稿画像の一例を示す図、（Ｂ）は原稿画像において特定された文字領域の一例を示す図である。

【図7】（Ａ）は原稿画像から抽出されたテキストの一例を示す図、（Ｂ）はテキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。

【図8】修正後テキスト生成処理の一例を示すフローチャートである。

【図9】対象文字に最も類似するフォントを特定する処理の一例を示す図である。

【図10】フォント判定用文字の境界ボックスと複数のフォント毎の当該フォント判定用文字と同じ文字の文字ボックスとのピクセル領域の一致度を用いてフォントを特定する一例を示す図である。

【図11】置換処理の一例を示すフローチャートである。

【図12】対象文字に最も類似する文字を特定する一例を示す図である。

【図13】対象文字の境界ボックスと特定されたフォントの全文字の文字ボックスとのピクセル領域の一致度を用いて対象文字に最も類似する文字を特定する一例を示す図である。

【図14】テキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。

【図15】テキスト中において修正できなかった誤変換文字の表示態様の一例を示す図である。

【図16】変形例に係る修正後テキストの生成の一例を示す図である。

【発明を実施するための形態】

【0010】

以下、本発明に係る画像処理装置および画像形成装置の一実施形態について図面を参照して説明する。図１は、本発明の実施形態に係る画像形成装置の斜視図である。図２は、実施形態の画像形成装置の構成を示すブロック図である。

【0011】

実施形態の画像形成装置１０は、制御ユニット１１と、表示部１２と、操作部１４と、タッチパネル１５と、通信部１６と、画像読取部１７と、画像形成部１８と、データ記憶部１９とを備える。これらの構成要素は、互いにバスを通じてデータ又は信号の送受信が可能とされている。

【0012】

画像読取部１７は、例えば、自動原稿送り装置により搬送される原稿Ｇ１（図３参照）又はフラットベッド上に載置された原稿Ｇ１（図３参照）を光学的に読み取るスキャナーとしてのＣＣＤ（Charge Coupled Device）を有する読取機構であり、原稿Ｇ１を示す原稿画像Ｄ１（図３参照）を生成する。原稿画像Ｄ１は、上記の読取機構の構成上、外形が矩形状である。

【0013】

画像形成部１８は、感光体ドラムの表面を均一帯電させ、感光体ドラムの表面を露光して、感光体ドラムの表面に静電潜像を形成し、感光体ドラムの表面の静電潜像をトナー像に現像して、感光体ドラムの表面のトナー像（画像）を記録紙に転写して定着させる。例えば、画像読取部１７による原稿Ｇ１の読取で得られた原稿画像を記録紙に印刷する。

【0014】

なお、画像処理装置は、例えば、画像形成装置１０から画像読取部１７と画像形成部１８とを除いた構成である。

【0015】

表示部１２は、例えば、液晶ディスプレイ（Liquid Crystal Display）、有機ＥＬ（Organic Light-Emitting Diode）ディスプレイなどの表示装置である。

【0016】

操作部１４は、ユーザーからの操作指示の入力を受け付けるものであり、メニューを呼び出すメニューキー、メニューを構成するＧＵＩ（Graphical User Interface）におけるフォーカスを移動させる矢印キー、メニューを構成するＧＵＩに対して確定操作を行う決定キー、スタートキーなどのハードキーを備える。

【0017】

タッチパネル１５は、所謂抵抗膜方式や静電容量方式等のタッチパネルである。タッチパネル１５は、表示部１２の画面に配置され、表示部１２の画面に対する指などの接触をその接触位置と共に検知する。タッチパネル１５は、指などの接触を検知すると、その接触位置の座標を示す検知信号を制御ユニット１１の制御部２１などに出力する。従って、タッチパネル１５は、表示部１２の画面に対するユーザー操作が入力される操作部としての役割を果たす。

【0018】

通信部１６は、通信モジュールを備える通信インターフェイスであり、ＬＡＮ（Local Area Network）や公衆回線などからなるネットワークＮを通じて、外部装置３０（例えば、パーソナルコンピューター、サーバー、携帯情報端末など）との間でデータ送受信を行う。

【0019】

データ記憶部１９は、ＨＤＤ（Hard Disk Drive）などの大容量の記憶装置である。データ記憶部１９は、画像読取部１７による原稿読取で得られた原稿Ｇ１の原稿画像Ｄ１（つまり、画像データ）を記憶する原稿画像記憶部１９ａを備える。

【0020】

図３は、実施形態に係る画像形成装置にて行われる、原稿画像から抽出されたテキスト中の誤変換文字を修正した修正後テキストを生成する処理を概念的に示す図である。実施形態の画像形成装置１０は、図３に示すように、例えば原稿Ｇ１を読み取った原稿画像Ｄ１からテキストＴＸを抽出し、テキストＴＸ中の誤変換文字を修正した修正後テキストＣＴを生成する処理を実行するための構成を備える。構成の詳細については、以下に説明する。

【0021】

データ記憶部１９は、更に、複数種類のフォントを予め記憶するフォント記憶部１９ｂを備える。フォント記憶部１９ｂは、例えば、「Arial」、「Courier New」、「Times New Roman」等の複数種類のフォントデータ（フォントを構成する全文字（例えば、英語であれば、「a」～「z」のアルファベット、「.」、「-」などの記号など）のそれぞれの画像のデータ）を記憶する。

【0022】

データ記憶部１９は、更に、予め定められた複数の登録単語を含む辞書データを記憶する辞書データ記憶部１９ｃを備える。辞書データには、英語用辞書データ、日本語用辞書データなど、１又は複数の予め定められた言語の辞書データが含まれる。本実施形態では、辞書データには英語用辞書データが含まれているとする。この英語用辞書データは、「You」、「they」、…、「that」、…、「should」、「may」、…、「kingdom」、「country」などの英語の複数の登録単語（例えば、数十万語）が記憶されている。

【0023】

制御ユニット１１は、プロセッサー、ＲＡＭ(Random Access Memory）、及びＲＯＭ（Read Only Memory）などから構成される。プロセッサーは、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ、ＡＳＩＣである。この制御ユニット１１は、データ記憶部１９に記憶された制御プログラムが上記のプロセッサーで実行されることにより、制御部２１、文字領域特定部２２、画像取得部２３、テキスト抽出部２４、単語特定部２５、単語判定部２６、及び生成部２７として機能する。なお、制御ユニット１１の上記制御部２１、文字領域特定部２２、画像取得部２３、テキスト抽出部２４、単語特定部２５、単語判定部２６、及び生成部２７は、上記制御プログラムに基づく動作によらず、それぞれハード回路により構成されてもよい。

【0024】

制御部２１は、画像形成装置１０の全体的な動作制御を司る。図４は、画像形成装置の表示部の表示画面の一例を示す図である。例えば、制御部２１は、図４に示す操作画面を表示部１２に表示させる。制御部２１は、図４に示す操作画面へのユーザーによるタッチ操作に従って、コピー、印刷、スキャン、ファクシミリ、スキャン後誤変換修正などの各種の実行処理に関する制御を行う。

【0025】

文字領域特定部２２は、原稿画像記憶部１９ａに記憶された原稿画像Ｄ１（つまり、原稿Ｇ１のスキャンにより取得された画像データ）における文字領域ＣＡ（後述の図６（Ｂ）参照）を特定する。文字領域ＣＡは、文字が記載された領域である。例えば、文字領域特定部２２は、原稿画像Ｄ１に対して、既知のＯＣＲ（optical character recognition）処理に含まれるレイアウト解析を行うことにより、原稿画像Ｄ１における文字領域ＣＡを特定することが可能である。なお、文字領域特定部２２は、原稿画像Ｄ１における文字領域ＣＡを特定したレイアウト結果をデータ記憶部１９に記憶させる。

【0026】

画像取得部２３は、原稿画像Ｄ１から、文字領域特定部２２によって特定された文字領域ＣＡの画像を取得する。例えば、画像取得部２３は、原稿画像Ｄ１に対して特定された文字領域ＣＡの画像を取得する。なお、画像取得部２３は、原稿画像Ｄ１に対して既知の画像切出し（トリミング）処理を行うことにより、原稿画像Ｄ１から文字領域ＣＡの画像を切り出して取得してもよい。

【0027】

テキスト抽出部２４は、文字領域ＣＡにおけるテキストを抽出する。つまり、テキスト抽出部２４は、文字領域ＣＡのテキスト中の各文字データとその位置情報とを関連付けて抽出する。具体的には、テキスト抽出部２４は、画像取得部２３が取得した文字領域ＣＡの画像についてＯＣＲ処理を行い、文字領域ＣＡにおけるテキスト中の各文字データとその位置情報とをそれぞれ関連付けて抽出する。

【0028】

テキスト抽出部２４が抽出したテキスト中の各文字データの位置情報は、原稿画像Ｄ１における文字データの位置を示す情報であり、例えば原稿画像Ｄ１の座標位置で特定される座標位置情報である。後述する図６（Ａ）に示すように、原稿画像Ｄ１は、その左上角部の位置が座標位置（０，０）、右上角部の位置が座標位置（ｘ，０）、左下角部の位置が座標位置（０，ｙ）、右下角部の位置が座標位置（ｘ，ｙ）に設定されている。テキスト抽出部２４は、後述する図６（Ｂ）に示す文字領域ＣＡにおける例えば「Ｔｈｅｙ」の「Ｔ」の文字の場合、「Ｔ」の文字データと、当該「Ｔ」の文字を含む矩形領域の４隅の位置情報（対角線上の２隅の位置情報のみとしてもよい）とを関連付けて抽出する。文字領域ＣＡに複数の文字があるので、複数の文字と当該複数の文字毎の位置情報とがそれぞれ関連付けて抽出される。テキスト抽出部２４は、原稿画像Ｄ１の文字領域ＣＡにおける各文字データとその位置情報とを対応付けて、原稿画像記憶部１９ａに記憶させる。

【0029】

単語特定部２５は、テキスト抽出部２４が抽出したテキストＴＸに含まれる複数の単語Ｗをそれぞれ特定する。例えば、単語特定部２５は、後述する図７（Ａ）に示すテキストＴＸを構成する文字データの並び方向（図７（Ａ）では横方向）を特定し、文字データの並び方向において空白の文字スペースで挟まれた１つまたは複数の纏まった文字データを単語として特定する。例えば、図７（Ａ）に示すテキストＴＸの場合、単語特定部２５は、「They」、「said」、「thal」、「Mark」、「snou.d」、…、「him」、「away」などの各単語Ｗをそれぞれ特定する。なお、単語特定部２５は、テキストＴＸを構成する各文字データとその位置情報とを用いて、複数の単語Ｗをそれぞれ特定するとしてもよい。なおここでは、単語特定部２５が特定した各単語Ｗには、誤変換文字を含む単語（図７（Ａ）では、「thal」、「snou.d」）が含まれている。これは、原稿Ｇ１の紙面の擦れ、傷などの劣化がある場合、ＯＣＲ処理で得られるテキスト中に、誤変換の文字又は文字列が含まれるためである。

【0030】

単語判定部２６は、単語特定部２５が特定した複数の単語Ｗのそれぞれが、辞書データ記憶部１９ｃの辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを判定する。

【0031】

具体的には、単語判定部２６は、単語特定部２５が特定した複数の単語Ｗ、つまり、「They」、「said」、「thal」、「Mark」、「snou.d」、…、「him」、「away」などの各単語Ｗのそれぞれが、辞書データ記憶部１９ｃの辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを、単語ごとに順番に判定する。

【0032】

単語判定部２６は、図７（Ａ）に示すテキストＴＸにおいて、単語特定部２５にて特定された「They」が、辞書データの登録単語である「They」と一致すると判定し、テキストＴＸの「They」を一致単語ＭＷと判定する。これと同様に、単語判定部２６は、「said」、「Mark」、…、「him」、「away」などについては、辞書データの複数の登録単語である「said」、「Mark」、…、「him」、「away」とそれぞれ一致すると判定し、テキストＴＸの「said」、「Mark」、…、「him」、「away」などを一致単語ＭＷと判定する。

【0033】

一方、単語判定部２６は、図７（Ａ）に示すテキストＴＸにおいて、単語特定部２５にて特定された「thal」が、辞書データに含まれる複数の登録単語の「that」と不一致であり、他の登録単語のいずれにも一致しないと判定し、テキストＴＸの「thal」を不一致単語ＭＳＷと判定する。また、単語判定部２６は、図７（Ａ）に示すテキストＴＸにおいて、単語特定部２５にて特定された「snou.d」が、辞書データに含まれる複数の登録単語の「should」と不一致であり、他の登録単語のいずれにも一致しないと判定し、テキストＴＸの「snou.d」を不一致単語ＭＳＷと判定する。

【0034】

生成部２７は、単語判定部２６が不一致と判定した不一致単語ＭＳＷがある場合、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣを、フォント記憶部１９ｂに記憶されたフォントを構成する全文字の画像のうちで、当該対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩに類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字ＲＰＣに置換することにより、テキストＴＸの不一致単語ＭＳＷの対象文字ＴＣを置換後文字ＲＰＣに置換した修正後テキストＣＴ（後述する図７（Ｂ）を参照）を生成する。

【0035】

例えば、生成部２７は、単語判定部２６が一致と判定した一致単語ＭＷがある場合、一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとする。具体的には、生成部２７は、不一致単語ＭＳＷの前又は後に一致単語ＭＷが位置する場合、当該一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとする。また、生成部２７は、不一致単語ＭＳＷの前及び後に一致単語ＭＷが位置する場合、当該前の一致単語ＭＷ又は前記後の一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとする。また、生成部２７は、不一致単語ＭＳＷの前又は後に一致単語ＭＷが位置していない場合、当該不一致単語ＭＳＷを含む文に有する一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとする。

【0036】

続いて、生成部２７は、フォント判定用文字ＦＪＣに対応する文字領域ＣＡの判定用文字画像ＪＣＩと、フォント記憶部１９ｂに記憶された複数のフォントごとの当該フォント判定用文字ＦＪＣと同じ文字の画像との類似する割合が予め定められた割合（例えば９０％）以上であって最も割合の高い文字の画像が示すフォントを特定し、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣを、フォント記憶部１９ｂに記憶された複数のフォントのうちで特定されたフォントを構成する全文字の画像のうちで、当該対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩに類似する割合が予め定められた割合（例えば９０％）以上であって最も割合の高い文字の画像が示す置換後文字ＲＰＣに置換する。

【0037】

具体的には、生成部２７は、単語判定部２６が不一致と判定した不一致単語ＭＳＷがある場合、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩを文字単位で区切って生成された矩形状の境界ボックスＢＢと、フォント記憶部１９ｂに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックス毎に境界ボックスＢＢに対するピクセル領域の一致度をそれぞれ算出する。

【0038】

続いて、生成部２７は、これらの一致度のうちで最も高い一致度ＨＭが、（ｉ）予め定められた第１閾値ＴＨ１（例えば９７％）以上である場合、当該最も高い一致度ＨＭを示す文字ボックスを、完全な文字を示す第１境界ボックスに対応する第１文字ボックスとして特定し、対象文字ＴＣを第１文字ボックスの文字に置換しない。

【0039】

また、生成部２７は、前記最も高い一致度ＨＭが、（ｉｉ）第１閾値ＴＨ１（例えば９７％）未満で、かつ、第１閾値ＴＨ１よりも小さい予め定められた第２閾値ＴＨ２（例えば９０％）以上である場合、当該最も高い一致度ＨＭを示す文字ボックスＣＢを、壊れた文字を示す第２境界ボックスに対応する第２文字ボックスとして特定し、対象文字ＴＣを第２文字ボックスの文字に置換する。

【0040】

また、生成部２７は、前記最も高い一致度ＨＭが、（ｉｉｉ）第２閾値ＴＨ２（例えば９０％）未満である場合、当該最も高い一致度ＨＭを示す文字ボックスＣＢを、置換候補とならない第３文字ボックスとして特定し、対象文字ＴＣを第３文字ボックスの文字に置換せず、当該対象文字を他の文字とは異なる表示態様に変更する。

【0041】

制御部２１は、修正後テキストＣＴを表示部１２に表示させる。そして、制御部２１は、ユーザーによる印刷指示の操作が操作部１４に対して行われると、画像形成部１８に、生成部２７が生成した修正後テキストＣＴ示す画像を記録紙に画像形成させる。また、制御部２１は、ユーザーによるデータ出力指示の操作が操作部１４に対して行われると、通信部１６に、生成部２７が生成した修正後テキストＣＴを外部装置３０に送信（出力）させる。

【0042】

続いて、画像形成装置１０によるテキスト中の誤変換文字を修正した修正後テキストを生成する処理について説明する。図５は、実施形態に係る誤変換文字修正処理の一例を示すフローチャートである。

【0043】

制御部２１は、表示部１２に図４に示す表示画面が表示された状態において、ユーザーが「スキャン後誤変換修正」と表示されたキーＫＢを押下すると、図５に示す誤変換文字修正処理を開始する。具体的には、ユーザーがキーＫＢを押下すると、タッチパネル１５がキーＫＢの押下を受け付け、誤変換文字修正処理の開始信号を制御部２１に出力する。制御部２１は、タッチパネル１５からの誤変換文字修正処理の開始信号に基づいて誤変換文字修正処理を開始させる。

【0044】

制御部２１は、図３に示す原稿Ｇ１が、ユーザーにより画像読取部１７にセットされた状態において、操作部１４のスタートボタンが押下されると、画像読取部１７に原稿Ｇ１を読み取らせる（Ｓ１）。制御部２１は、画像読取部１７が読み取った原稿画像Ｄ１を示す画像データを原稿画像記憶部１９ａに記憶させる。

【0045】

図６（Ａ）は、レイアウト解析された原稿画像の一例を示す図である。図６（Ｂ）は、原稿画像において特定された文字領域の一例を示す図である。文字領域特定部２２は、図６（Ａ）に示す原稿画像Ｄ１に対して、ＯＣＲ処理に含まれるレイアウト解析を行うことにより、図６（Ｂ）に示すように、原稿画像Ｄ１における文字領域ＣＡを特定する（Ｓ２）。図６（Ｂ）に示す原稿画像Ｄ１において、文字領域ＣＡが特定される。また、文字領域特定部２２は、原稿画像Ｄ１の座標位置情報に基づいて、原稿画像Ｄ１における文字領域ＣＡの各位置を示す情報も取得する。例えば、文字領域特定部２２は、文字領域ＣＡの左上角部、右上角部、左下角部、及び右下角部の各座標位置Ｐ１、Ｐ２、Ｐ３、Ｐ４を示す情報を取得する。

【0046】

画像取得部２３は、図６（Ｂ）に示す原稿画像Ｄ１から、文字領域特定部２２によって特定された文字領域ＣＡの画像を取得する（Ｓ３）。

【0047】

テキスト抽出部２４は、画像取得部２３が取得した文字領域ＣＡの画像についてＯＣＲ処理を行い、文字領域ＣＡにおけるテキスト中の各文字データとその位置情報とをそれぞれ関連付けて抽出する（Ｓ４）。図７（Ａ）は、原稿画像から抽出されたテキストの一例を示す図である。具体的には、テキスト抽出部２４は、図７（Ａ）に示すテキストＴＸの最初の「Ｔｈｅｙ」について言えば、「Ｔ」、「ｈ」、「ｅ」、「ｙ」の各文字データとそれらの位置情報とを、文字データごとに関連付けてそれぞれ抽出する。これと同様に、テキスト抽出部２４は、「Ｔｈｅｙ」の後に続く残りの各文字データとその位置情報とを関連付けて抽出する。

【0048】

単語特定部２５は、テキスト抽出部２４が抽出したテキストＴＸに含まれる複数の単語Ｗをそれぞれ特定する（Ｓ５）。単語特定部２５は、図７（Ａ）に示すように、「They」、「said」、「thal」、「Mark」、「snou.d」、…、「him」、「away」などの各単語Ｗをそれぞれ特定する。

【0049】

単語判定部２６は、単語特定部２５が特定した複数の単語Ｗのそれぞれが、辞書データ記憶部１９ｃの辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを判定する（Ｓ６）。

【0050】

図７（Ａ）に示すテキストＴＸの場合には、単語判定部２６は、単語特定部２５が特定した複数の単語Ｗのうち、「They」、「said」、「Mark」、…、「him」、「away」などについては、辞書データの複数の登録単語である「They」、「said」、「Mark」、…、「him」、「away」とそれぞれ一致すると判定し、テキストＴＸの「They」、「said」、「Mark」、…、「him」、「away」などを一致単語ＭＷと判定する。

【0051】

一方、単語判定部２６は、「thal」及び「snou.d」の単語Ｗについては、辞書データに含まれる複数の登録単語のいずれにも一致しないと判定し、テキストＴＸの「thal」及び「snou.d」をそれぞれ不一致単語ＭＳＷと判定する。

【0052】

生成部２７は、修正後テキスト生成処理を行う（Ｓ７）。図８は、修正後テキスト生成処理の一例を示すフローチャートである。図９は、対象文字に最も類似するフォントを特定する処理の一例を示す図である。

【0053】

生成部２７は、図８に示すように、単語判定部２６が一致と判定した一致単語ＭＷがある場合、一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとする（Ｓ７１）。ここでは、生成部２７は、図９に示すように、不一致単語ＭＳＷである「thal」の前及び後に一致単語ＭＷである「said」及び「Mark」が位置しており、当該後の一致単語ＭＷである「Mark」を構成する文字のうちで予め定められた順番（例えば、１番目）の文字である「M」をフォント判定用文字ＦＪＣとする。なお、予め定められた順番の文字は、１番目以外の任意の順番の文字であってもよいし、最後尾の文字（例えば、「Mark」であれば「k」）であってもよい。

【0054】

生成部２７は、図９に示すように、フォント判定用文字ＦＪＣに対応する文字領域ＣＡの判定用文字画像ＪＣＩ（「M」の画像）と、フォント記憶部１９ｂに記憶された複数種類のフォント（例えば、「Arial」、「Courier New」、「Times New Roman」など）ごとの当該フォント判定用文字ＦＪＣと同じ文字の画像（「M」の画像）との類似する割合が予め定められた割合（例えば９０％）以上であって最も割合の高い文字の画像が示すフォントを特定する（Ｓ７２）。

【0055】

図１０は、フォント判定用文字の境界ボックスと複数のフォント毎の当該フォント判定用文字と同じ文字の文字ボックスとのピクセル領域の一致度を用いてフォントを特定する一例を示す図である。

【0056】

具体的には、生成部２７は、図１０に示すように、フォント判定用文字ＦＪＣの画像（「M」の画像）の矩形状の境界ボックスＢＢと、複数種類のフォントの「M」の画像毎の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数（例えば２２×２２）のグリッドで格子状に分割した縦数×横数（例えば２２×２２）からなるピクセル領域に分割し、複数の文字ボックスＣＢ毎に境界ボックスＢＢに対するピクセル領域の一致度をそれぞれ算出する。

【0057】

生成部２７は、図１０では、フォント判定用文字ＦＪＣに対応する文字領域ＣＡの判定用文字画像ＪＣＩ（「M」の画像）の境界ボックスＢＢと、「Arial」、「Courier New」の各フォントの「M」の文字ボックスＣＢとの類似度スコアを、それぞれ94.38％、80.79％である算出している。また、「Times New Roman」フォントの「M」の文字ボックスＣＢとの類似度スコアについては、図１０には図示していないが、94.38％よりも低い値であった。このため、「Arial」のフォントの「M」の文字ボックスＣＢの類似度スコアは、94.38％であり、予め定められた割合（例えば９０％）以上であって最も割合の高い。よって、生成部２７は、フォント判定用文字ＦＪＣに対応する文字領域ＣＡの判定用文字画像ＪＣＩ（「M」の画像）の境界ボックスＢＢに最も類似するフォントを、「Arial」に特定する。

【0058】

図８に戻って、生成部２７は、テキストＴＸの不一致単語ＭＳＷである「thal」及び「snou.d」をそれぞれ正しい単語に置換する置換処理を行う（Ｓ７３）。図１１は、置換処理の一例を示すフローチャートである。図１２は、対象文字に最も類似する文字を特定する一例を示す図である。

【0059】

生成部２７は、不一致単語ＭＳＷが複数ある場合には、複数の不一致単語ＭＳＷを、その並び順に置換処理を行う。具体的には、生成部２７は、「thal」を正しい単語に置換し、次に、「snou.d」を正しい単語に置換する。ここでは、説明の便宜上の理由から、不一致単語ＭＳＷである「snou.d」を例に挙げて説明することにする。

【0060】

生成部２７は、テキストＴＸの不一致単語ＭＳＷである「snou.d」を構成する対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩを文字単位で区切って生成された矩形状の境界ボックスＢＢをそれぞれ生成する（Ｓ７３０）。具体的には、図１２に示すように、生成部２７は、「snou.d」の各文字を対象文字ＴＣとし、「s」、「n」、「o」、「u」、「.」、「d」に対応する文字領域ＣＡの各対象文字画像ＴＣＩの境界ボックスＢＢをそれぞれ生成する。すなわち、「s」の境界ボックスＢＢと、「n」の境界ボックスＢＢと、「o」の境界ボックスＢＢと、「u」の境界ボックスＢＢと、「.」の境界ボックスＢＢと、「d」の境界ボックスＢＢとが生成される。

【0061】

生成部２７は、「s」の境界ボックスＢＢと、フォント記憶部１９ｂに記憶されている上記の特定された「Arial」のフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数（例えば２２×２２）のグリッドで格子状に分割した縦数×横数（例えば２２×２２）からなるピクセル領域に分割し、複数の矩形状の文字ボックスＣＢ毎に境界ボックスＢＢに対するピクセル領域の一致度をそれぞれ算出する（Ｓ７３１）。

【0062】

ここでは、「Arial」のフォントの全文字（「a」～「z」のアルファベット、「.」、「-」などの記号など）の画像のうちで、「Arial」のフォントの「s」の文字の類似度スコアが99％と算出され、「Arial」のフォントの「s」以外の各文字の類似度スコアが90％未満であったと算出されたとする。

【0063】

生成部２７は、これらの一致度のうちで最も高い一致度ＨＭ（つまり、上記の99％）が、第１閾値ＴＨ１（例えば９７％）以上であるか否かを判定する（Ｓ７３２）。ここでは、生成部２７は、当該最も高い一致度ＨＭ（上記の99％）が、第１閾値ＴＨ１（例えば９７％）以上であると判定し（Ｓ７３２でＹＥＳ）、当該最も高い一致度ＨＭ（上記の99％）を示す文字ボックスＣＢを、完全な文字を示す第１境界ボックスに対応する第１文字ボックスとして特定し（Ｓ７３３）、対象文字ＴＣを第１文字ボックスの文字に置換しない（Ｓ７３４）。すなわち、テキストＴＸの不一致単語ＭＳＷである「snou.d」における「s」については、誤変換文字ではないため、置換されない。

【0064】

続いて、生成部２７は、Ｓ７３４のあと、次の対象文字の有無を判定する（Ｓ７３４Ａ）。ここでは、テキストＴＸの不一致単語ＭＳＷである「snou.d」における「s」の後の対象文字である「n」があるので、次の対象文字ありと判定し（Ｓ７３４ＡでＹＥＳ）、Ｓ７３１に進む。

【0065】

図１３は、対象文字の境界ボックスと特定されたフォントの全文字の文字ボックスとのピクセル領域の一致度を用いて対象文字に最も類似する文字を特定する一例を示す図である。

【0066】

図１３に示すように、生成部２７は、「n」の境界ボックスＢＢと、フォント記憶部１９ｂに記憶されている上記の特定された「Arial」のフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数（例えば２２×２２）のグリッドで格子状に分割した縦数×横数（例えば２２×２２）からなるピクセル領域に分割し、複数の矩形状の文字ボックスＣＢ毎に境界ボックスＢＢに対するピクセル領域の一致度をそれぞれ算出する（Ｓ７３１）。

【0067】

「n」の境界ボックスＢＢの画像が示す字体の一部が欠損、損壊した文字画像（壊れた文字画像）となっている。このような原稿画像に対してＯＣＲ処理を行うと、当該壊れた文字画像については、誤変換の文字又は文字列とされる蓋然性が高いことは言うまでもない。

【0068】

ここでは、図１３に示すように、「Arial」のフォントの全文字（「a」～「z」のアルファベット、「.」、「-」などの記号など）の画像のうちで、「Arial」のフォントの「ｂ」、「ｈ」、「ｎ」の文字との類似度スコアが、それぞれ87.80％、94.74％、81.82％と算出されている。

【0069】

生成部２７は、これらの一致度のうちで最も高い一致度ＨＭ（つまり、上記の94.74％）が、第１閾値ＴＨ１（例えば９７％）以上であるか否かを判定する（Ｓ７３２）。ここでは、生成部２７は、当該最も高い一致度ＨＭ（上記の94.74％）が、第１閾値ＴＨ１（例えば９７％）以上でないと判定する（Ｓ７３２でＮＯ）。

【0070】

続いて、生成部２７は、当該最も高い一致度ＨＭ（上記の94.74％）が、第１閾値ＴＨ１（例えば９７％）未満で、かつ、第２閾値ＴＨ２（例えば９０％）以上であるか否かを判定する（Ｓ７３５）。ここでは、生成部２７は、当該最も高い一致度ＨＭ（上記の94.74％）が、第１閾値ＴＨ１（例えば９７％）未満で、かつ、第２閾値ＴＨ２（例えば９０％）以上であると判定し（Ｓ７３５でＹＥＳ）、当該最も高い一致度ＨＭ（上記の94.74％）を示す文字ボックスＣＢを、壊れた文字を示す第２境界ボックスに対応する第２文字ボックスとして特定し（Ｓ７３６）、対象文字ＴＣを第２文字ボックスの文字に置換する（Ｓ７３７）。すなわち、テキストＴＸの不一致単語ＭＳＷである「snou.d」における「n」については、誤変換文字であり、「h」の文字に置換される。

【0071】

続いて、生成部２７は、Ｓ７３７のあと、次の対象文字の有無を判定する（Ｓ７３４Ａ）。ここでは、テキストＴＸの不一致単語ＭＳＷである「snou.d」における「n」の後の対象文字である「o」があるので、次の対象文字ありと判定し（Ｓ７３４ＡでＹＥＳ）、Ｓ７３１に進む。

【0072】

上記と同様に、テキストＴＸの不一致単語ＭＳＷである「snou.d」における残りの各境界ボックスＢＢ、つまり、「o」の境界ボックスＢＢと、「u」の境界ボックスＢＢと、「.」の境界ボックスＢＢと、「d」の境界ボックスＢＢとについて、置換処理（Ｓ７３）が実行される。

【0073】

なお、不一致単語ＭＳＷである「snou.d」における「o」、「u」、「d」については、誤変換文字ではない。このため、生成部２７は、「o」、「u」及び「d」については、当該最も高い一致度ＨＭが、第１閾値ＴＨ１以上であると判定し、「o」、「u」及び「d」については、置換後文字ＲＰＣに置換されない。

【0074】

一方、不一致単語ＭＳＷである「snou.d」における「.」については、誤変換文字である。このため、生成部２７は、「.」については、当該最も高い一致度ＨＭが、第１閾値ＴＨ１（例えば９７％）未満で、かつ、第２閾値ＴＨ２（例えば９０％）以上であると判定したとし（Ｓ７３５でＹＥＳ）、当該最も高い一致度ＨＭを示す文字ボックスＣＢ（ここでは、「l」:小文字のエル）を、壊れた文字を示す第２境界ボックスに対応する第２文字ボックスとして特定し（Ｓ７３６）、対象文字ＴＣを第２文字ボックスの文字（ここでは、「l」）に置換したとする（Ｓ７３７）。すなわち、テキストＴＸの不一致単語ＭＳＷである「snou.d」における「.」については、誤変換文字であり、「l」の文字（小文字のエル）に置換される。

【0075】

上記では、生成部２７は、不一致単語ＭＳＷである「snou.d」における「.」については、当該最も高い一致度ＨＭが、第１閾値ＴＨ１（例えば９７％）未満で、かつ、第２閾値ＴＨ２（例えば９０％）以上であると判定した（Ｓ７３５でＹＥＳ）としているが、第２閾値ＴＨ２（例えば９０％）未満であった場合について以下に説明する。

【0076】

生成部２７は、不一致単語ＭＳＷである「snou.d」における「.」については、当該最も高い一致度ＨＭが、第２閾値ＴＨ２（例えば９０％）未満であると判定すると（Ｓ７３５でＮＯ）、当該最も高い一致度ＨＭを示す文字ボックスＣＢを、置換候補とならない第３文字ボックスとして特定し（Ｓ７３８）、対象文字ＴＣを第３文字ボックスの文字に置換せず、図１５に示すように、当該対象文字を他の文字とは異なる表示態様に変更し（Ｓ７３９）、Ｓ７３４Ａに進む。

【0077】

図１５は、テキスト中において修正できなかった誤変換文字の表示態様の一例を示す図である。生成部２７は、不一致単語ＭＳＷである「snou.d」における「.」については、当該「.」の背景を、他の文字の背景とは異なる色（図１５では、ハッチングで示している）の表示態様に変更する。

【0078】

続いて、生成部２７は、次の対象文字の有無を判定する（Ｓ７３４Ａ）。ここでは、テキストＴＸの不一致単語ＭＳＷである「snou.d」における「d」の後の対象文字がないので、次の対象文字なしと判定し（Ｓ７３４ＡでＮＯ）、図８のＳ７４に進む。

【0079】

生成部２７は、次の不一致単語の有無を判定する（Ｓ７４）。生成部２７は、次の不一致単語があれば（Ｓ７４でＹＥＳ）、不一致単語が同じ文内の単語であるか否かを判定する（Ｓ７５）。例えば、図７（Ａ）に示すテキストＴＸの不一致単語ＭＳＷである「snou.d」の後に、別の不一致単語ＭＳＷがあった場合、別の不一致単語ＭＳＷが、「they … kingdom.」の文に存在するものであるか否かを判定する。生成部２７は、別の不一致単語ＭＳＷが、「they … kingdom.」の文に存在すると判定すると（Ｓ７５でＹＥＳ）、Ｓ７３に進み、「they … kingdom.」の文に存在しないと判定すると（Ｓ７５でＮＯ）、Ｓ７１に進む。

【0080】

制御部２１は、生成部２７が、次の不一致単語がないと判定すると（Ｓ７４でＮＯ）、図８に示す処理を終了させる。

【0081】

図１４は、テキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。図１４に示すように、生成部２７は、テキストＴＸの不一致単語ＭＳＷである「thal」及び「snou.d」を、正しい単語である「that」及び「should」に置換する。具体的には、生成部２７は、不一致単語ＭＳＷである「thal」の「l」については、「t」である置換後文字ＲＰＣに置換し、テキストＴＸの不一致単語ＭＳＷである「thal」を、正しい単語である「that」に置換する。また、生成部２７は、不一致単語ＭＳＷである「snou.d」の「n」及び「.」については、「h」である置換後文字ＲＰＣと、「l」である置換後文字ＲＰＣとにそれぞれ置換し、テキストＴＸの不一致単語ＭＳＷである「snou.d」を、正しい単語である「should」に置換する。

【0082】

図５に戻って、制御部２１は、図７（Ｂ）に示す修正後テキストＣＴを表示部１２に表示させる（Ｓ８）。図７（Ｂ）は、テキスト中の誤変換文字を修正した修正後テキストの一例を示す図である。

【0083】

制御部２１は、ユーザーによる保存又は印刷の指示の有無を判定する（Ｓ９）。制御部２１は、タッチパネル１５により、図示しない「保存」ボタンの押下を検出すると（Ｓ９で「保存」）、修正後テキストＣＴをデータ記憶部１９に記憶させ（Ｓ１０）、本処理を終了させる。一方、制御部２１は、タッチパネル１５により、図示しない「印刷」ボタンの押下を検出すると（Ｓ９で「印刷」）、画像形成部１８に、修正後テキストＣＴの画像を記録紙に画像形成させ（Ｓ１１）、本処理を終了させる。

【0084】

なお、Ｓ９において「送信」の判定を追加してもよい。この場合には、制御部２１は、ユーザーによるデータ出力指示の操作が操作部１４に対して行われると、通信部１６に、修正後テキストＣＴを外部装置３０に送信（出力）させ、本処理を終了させるとしてもよい。

【0085】

このように、上記実施形態によれば、原稿画像記憶部１９ａは、原稿画像Ｄ１を記憶する。辞書データ記憶部１９ｃは、予め定められた複数の登録単語を含む辞書データを記憶する。フォント記憶部１９ｂは、フォントを予め記憶する。文字領域特定部２２は、原稿画像記憶部１９ａに記憶された原稿画像Ｄ１における文字領域ＣＡを特定する。画像取得部２３は、原稿画像Ｄ１から文字領域ＣＡの画像を取得する。テキスト抽出部２４は、画像取得部２３が取得した文字領域ＣＡの画像からテキストＴＸを抽出する。単語特定部２５は、テキスト抽出部２４が抽出したテキストＴＸに含まれる複数の単語Ｗをそれぞれ特定する。単語判定部２６は、単語特定部２５が特定した複数の単語Ｗのそれぞれが、辞書データに含まれる複数の登録単語の何れかの登録単語と一致するか否かを判定する。生成部２７は、単語判定部２６が不一致と判定した不一致単語ＭＳＷがある場合、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣを、フォント記憶部１９ｂに記憶されたフォントを構成する全文字の画像のうちで、当該対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩに類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示す置換後文字ＲＰＣに置換することにより、テキストＴＸの不一致単語ＭＳＷの対象文字ＴＣを置換後文字ＲＰＣに置換した修正後テキストＣＴを生成する。このため、不一致単語ＭＳＷがある場合、不一致単語ＭＳＷに誤変換の文字が含まれることを検出することができる。言い換えれば、テキストＴＸ中における誤変換の文字又は文字列を検出することができる。そして、テキストＴＸの不一致単語ＭＳＷの対象文字ＴＣを置換後文字ＲＰＣに置換した修正後テキストＣＴを生成するので、ＯＣＲ処理で得られるテキストＴＸ中における誤変換の文字又は文字列の修正を行うことができる。これにより、ＯＣＲ処理で得られるテキストＴＸ中における誤変換の文字又は文字列の検出及び修正を行うことができる。

【0086】

また、生成部２７は、単語判定部２６が一致と判定した一致単語ＭＷがある場合、一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとし、フォント判定用文字ＦＪＣに対応する文字領域ＣＡの判定用文字画像ＪＣＩとフォント記憶部１９ｂに記憶された複数のフォントごとの当該フォント判定用文字ＦＪＣと同じ文字の画像との類似する割合が予め定められた割合以上であって最も割合の高い文字の画像が示すフォントを特定する。このため、ＯＣＲ処理にて正しく文字認識された完全な文字の画像（フォント判定用文字ＦＪＣの画像）を用いてフォントの種類を特定することができ、字体の一部が欠損、損壊した「壊れた文字画像」を用いることを低減できる。これにより、フォントの種類を特定する精度を向上させることができる。また、生成部２７は、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣを、フォント記憶部１９ｂに記憶された複数のフォントのうちで特定されたフォントを構成する全文字の画像のうちで、当該対象文字ＴＣに対応する前記文字領域ＣＡの対象文字画像ＴＣＩに類似する割合が予め定められた割合以上であって最も割合の高い置換後文字ＲＰＣに置換するに置換することにより、テキストＴＸの不一致単語ＭＳＷの対象文字ＴＣを置換後文字ＲＰＣに置換した修正後テキストＣＴを生成する。このため、ＯＣＲ処理で得られるテキストＴＸ中における誤変換の文字又は文字列の修正を行うことができる。

【0087】

また、生成部２７は、単語判定部２６が不一致と判定した不一致単語ＭＳＷがある場合、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩを文字単位で区切って生成された矩形状の境界ボックスＢＢと、フォント記憶部１９ｂに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックスＣＢ毎に境界ボックスＢＢに対するピクセル領域の一致度をそれぞれ算出し、これらの一致度のうちで最も高い一致度が、（ｉ）予め定められた第１閾値以上である場合、当該最も高い一致度を示す文字ボックスＣＢを、完全な文字を示す第１境界ボックスに対応する第１文字ボックスとして特定し、対象文字ＴＣを第１文字ボックスの文字に置換せず、（ｉｉ）予め定められた第１閾値未満で、かつ、予め定められた第１閾値よりも小さい予め定められた第２閾値以上である場合、当該最も高い一致度を示す文字ボックスＣＢを、壊れた文字を示す第２境界ボックスに対応する第２文字ボックスとして特定し、対象文字ＴＣを第２文字ボックスの文字に置換する。このため、（ｉ）最も高い一致度が、予め定められた第１閾値以上であれば、対象文字ＴＣが完全な文字であることを特定でき、正しく変換された文字であると特定できる。この場合には、対象文字ＴＣを第１文字ボックスの文字に置換する必要がない。このため、生成部２７は、対象文字ＴＣを第１文字ボックスの文字に置換しない。このため、ＯＣＲ処理で得られるテキストＴＸ中における正変換の文字又は文字列の修正を行わないようにすることができる。一方、（ｉｉ）最も高い一致度が、予め定められた第１閾値未満で、かつ、第２閾値以上であれば、対象文字ＴＣが壊れた文字であることを特定でき、誤変換された文字であると特定することができる。よって、テキストＴＸ中における誤変換の文字又は文字列を検出することができる。そして、生成部２７は、対象文字ＴＣを第２文字ボックスの文字に置換する。このため、ＯＣＲ処理で得られるテキストＴＸ中における誤変換の文字又は文字列の修正を精度良く行うことができる。

【0088】

また、生成部２７は、最も高い一致度が、（ｉｉｉ）予め定められた第２閾値未満である場合、当該最も高い一致度を示す文字ボックスＣＢを、置換候補とならない第３文字ボックスとして特定し、対象文字ＴＣを第３文字ボックスの文字に置換せず、当該対象文字ＴＣを他の文字とは異なる表示態様に変更する。このため、対象文字ＴＣが誤変換された文字であり、正しく修正されなかったことを特定することができ、その旨をユーザーに注意喚起することができる。

【0089】

また、生成部２７は、不一致単語ＭＳＷの前又は後に一致単語ＭＷが位置する場合、当該一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとし、不一致単語ＭＳＷの前及び後に一致単語ＭＷが位置する場合、前の一致単語ＭＷ又は後の一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとし、不一致単語ＭＳＷの前又は後に一致単語ＭＷが位置しない場合、不一致単語ＭＳＷを含む文に有する一致単語ＭＷを構成する文字をフォント判定用文字ＦＪＣとする。なお、不一致単語ＭＳＷは、当該不一致単語ＭＳＷを含む文に有する一致単語ＭＷと同じフォントである蓋然性が高い、更に言えば、当該不一致単語ＭＳＷの前又は後の一致単語ＭＷと同じフォントである蓋然性が更に高い。このため、不一致単語ＭＳＷの前及び後に位置する一致単語ＭＷ、つまり、ＯＣＲ処理にて正しく文字認識された完全な文字の画像（フォント判定用文字ＦＪＣの画像）を用いることができる。これにより、フォントの種類を特定する精度をさらに向上させることができる。

【0090】

次に、変形例に係る画像形成装置について、図１６を用いて説明する。図１６は、変形例に係る修正後テキストの生成の一例を示す図である。

【0091】

上記の実施形態では、生成部２７は、上記の最も高い一致度ＨＭが、（ｉ）予め定められた第１閾値ＴＨ１（例えば９７％）以上である場合、当該最も高い一致度ＨＭを示す文字ボックスを、完全な文字を示す第１境界ボックスに対応する第１文字ボックスとして特定し、対象文字ＴＣを第１文字ボックスの文字に置換しないとしているが、これに限定されない。すなわち、変形例では、生成部２７は、対象文字ＴＣを第１文字ボックスの文字に置換する。

【0092】

生成部２７は、単語判定部２６が不一致と判定した不一致単語ＭＳＷがある場合、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩを文字単位で区切って生成された矩形状の境界ボックスＢＢと、フォント記憶部１９ｂに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックスＣＢのうちで境界ボックスＢＢに対するピクセル領域の一致度が最も高い文字ボックスを特定し、対象文字ＴＣを前記最も高い文字ボックスの文字に置換する。

【0093】

図１６に示すように、生成部２７は、テキストＴＸの不一致単語ＭＳＷである「thal」及び「snou.d」を、正しい単語である「that」及び「should」に置換する。具体的には、生成部２７は、不一致単語ＭＳＷである「thal」の全ての文字（「t」、「h」、「a」、「l」）について、「t」、「h」、「a」、「l」である置換後文字ＲＰＣにそれぞれ置換し、テキストＴＸの不一致単語ＭＳＷである「thal」を、正しい単語である「that」に置換する。また、生成部２７は、不一致単語ＭＳＷである「snou.d」の全ての文字（「s」、「n」、「o」、「u」、「.」、「d」）について、「s」、「h」、「o」、「u」、「l」、「d」である置換後文字ＲＰＣにそれぞれ置換し、テキストＴＸの不一致単語ＭＳＷである「snou.d」を、正しい単語である「should」に置換する。

【0094】

上記変形例によれば、生成部２７は、単語判定部２６が不一致と判定した不一致単語ＭＳＷがある場合、テキストＴＸの不一致単語ＭＳＷを構成する対象文字ＴＣに対応する文字領域ＣＡの対象文字画像ＴＣＩを文字単位で区切って生成された矩形状の境界ボックスＢＢと、フォント記憶部１９ｂに記憶された複数種類のフォントのうちで特定されたフォントを構成する全文字について文字毎に用意された複数の矩形状の文字ボックスＣＢとを、予め定められた縦数×横数のグリッドで格子状に分割した縦数×横数からなるピクセル領域に分割し、複数の矩形状の文字ボックスＣＢのうちで境界ボックスＢＢに対するピクセル領域の一致度が最も高い文字ボックスを特定し、対象文字ＴＣを最も高い文字ボックスの文字（つまり、置換後文字ＲＰＣ）に置換する。このため、ＯＣＲ処理で得られるテキスト中における誤変換の文字又は文字列の修正を精度良く行うことができる。

【0095】

なお、本発明は上記実施の形態の構成に限られず種々の変形が可能である。

【0096】

上記実施形態又は変形例において、文字領域特定部２２は、原稿画像Ｄ１をレイアウト解析して文字領域ＣＡを特定しているが、これに限定されない。例えば、文字領域特定部２２は、ユーザーによる文字領域ＣＡの指定に従って、原稿画像Ｄ１における文字領域ＣＡを特定してもよい。文字領域特定部２２は、表示部１２に表示された原稿画像Ｄ１上に対して、矩形状の範囲の左上隅点と右下隅点との２点をユーザーがタッチする２点操作があると、この矩形状の範囲を文字領域ＣＡとして特定する。また、矩形状の範囲の４隅を指示する４点操作、手書き文字の画像を囲む操作（ドラッグ操作）などであってもよい。

【0097】

なお、上記実施形態などでは、画像処理装置の一例として、画像形成装置１０を用いて説明しているが、これに限定されない。例えば、図２に示す制御ユニット１１及びデータ記憶部１９を備える画像処理装置（例えば、パーソナルコンピューター、サーバー、携帯情報端末など）としてもよい。

【0098】

なお、図１乃至図１６を用いて説明した上記実施形態の構成及び処理は、本発明の一例に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。

【符号の説明】

【0099】

１０画像形成装置
１７画像読取部
１８画像形成部
１９ａ原稿画像記憶部
１９ｂフォント記憶部
１９ｃ辞書データ記憶部
２１制御部
２２文字領域特定部
２３画像取得部
２４テキスト抽出部
２５単語特定部
２６単語判定部
２７生成部

【図1】