特開2023-13501 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2023-13501画像処理装置、画像処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023013501

(43)【公開日】2023-01-26

(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム

(51)【国際特許分類】

G06V 30/14 20220101AFI20230119BHJP

【ＦＩ】

G06K9/20 320K

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021117728

(22)【出願日】2021-07-16

(71)【出願人】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100085660

【弁理士】

【氏名又は名称】鈴木均

(72)【発明者】

【氏名】作山宏幸

【テーマコード（参考）】

5B029

【Ｆターム（参考）】

5B029AA01

5B029BB02

5B029CC20

5B029CC21

5B029EE08

(57)【要約】

【課題】画像データに含まれる文字画像の正立方向を識別する処理における精度を向上させることにある。
【解決手段】画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割する領域分割部７０ｂと、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに前記水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する確信度算出部７０ｄと、確信度算出部７０ｄにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定部７０ｅと、制御部７０と、を備え、制御部７０は、正立方向判定部７０ｅが正立方向の判定を行う場合には、通常の文字認識処理を行うときよりも、領域分割部７０ｂに設定するサイズの上限値が大きくなるように制御する。
【選択図】図４

【特許請求の範囲】

【請求項1】

画像データに含まれる文字画像の正立方向を識別し、前記正立方向に沿って通常の文字認識処理を行う画像処理装置であって、
前記画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、前記上限値内の矩形領域に分割する領域分割部と、
前記矩形領域内の文字画像を対象に前記垂直方向の＋方向、及び－方向、並びに前記水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、前記４方向の確信度を算出する確信度算出部と、
前記確信度算出部により算出された前記４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定部と、
制御部と、を備え、
前記制御部は、前記正立方向判定部が前記正立方向の判定を行う場合には、前記通常の文字認識処理を行うときよりも、前記領域分割部に設定する前記サイズの上限値が大きくなるように制御することを特徴とする画像処理装置。

【請求項2】

前記制御部は、前記サイズの実際値が前記サイズの上限値を超えない場合に、前記正立方向判定部による判定結果が不定となったときに、前記サイズの上限値がより大きくなるように制御することを特徴とする請求項１に記載の画像処理装置。

【請求項3】

前記領域分割部により分割された矩形領域のうち、行または列内の矩形領域において、前記サイズの実際値が前記上限値を超える文字画像の数を計数する計数部を備え、
前記制御部は、前記計数部により計数された前記文字画像の数が行または列内で基準値以下である場合に、前記サイズの上限値がより大きくなるように制御することを特徴とする請求項１に記載の画像処理装置。

【請求項4】

前記計数部は、前記領域分割部により分割された矩形領域のうち、行または列内の矩形領域において、前記サイズの実際値が前記上限値を超える文字画像のうち、当該文字画像同士が隣接している隣接数を計数し、
前記制御部は、前記計数部により計数された前記文字画像の隣接数が行または列内で初めて２つ以上になる場合に、前記サイズの上限値がより大きくなるように制御することを特徴とする請求項３に記載の画像処理装置。

【請求項5】

前記制御部は、前記計数部により計数された前記文字画像の数が同一行内または同一列内で過半数ある場合に、前記サイズの上限値がより大きくなるように制御することを特徴とする請求項３に記載の画像処理装置。

【請求項6】

前記制御部は、前記サイズの実際値が前記サイズの上限値を超える文字画像を抽出し、前記抽出した文字画像が隣接する行または列に跨がっている場合に、前記サイズの上限値を引き継ぐように制御することを特徴とする請求項１に記載の画像処理装置。

【請求項7】

前記確信度算出部が、前記矩形領域内の文字画像を対象に前記垂直方向の＋方向、及び－方向、並びに前記水平方向の＋方向、及び－方向のうち、少なくとも２方向に沿ってそれぞれ文字認識処理を行い、少なくとも前記２方向の確信度を算出し、
前記正立方向判定部が、前記確信度算出部により算出された少なくとも前記２方向の各確信度が所定の閾値よりも大きい確信度を有する方向を正立方向として判定し、
前記制御部は、前記サイズの上限値を大きくなるように制御した場合に、前記確信度の閾値が大きくなるように制御することを特徴とする請求項１乃至６の何れか一項に記載の画像処理装置。

【請求項8】

前記正立方向判定部は、前記確信度算出部により算出された前記４方向の各確信度のうち少なくとも１つが第１閾値を越えた場合に、確信度が最大となる方向に関してのみ確信度を積算し、各方向について積算した確信度を積算回数で除算した値が、前記第１閾値と異なる第２閾値を越えたときに、当該方向を正立方向とすることを特徴とする請求項６に記載の画像処理装置。

【請求項9】

前記制御部は、前記正立方向判定部が前記正立方向の判定を行った場合に、前記通常の文字認識処理を行うときよりも、前記領域分割部に設定する前記サイズの上限値が大きくなるように制御したときに、当該大きくされた上限値に基づいて、前記通常の文字認識処理における文字サイズの上限値を決定するように制御することを特徴とする請求項１乃至７の何れか一項に記載の画像処理装置。

【請求項10】

画像データに含まれる文字画像の正立方向を識別し、前記正立方向に沿って通常の文字認識処理を行う画像処理方法であって、
前記画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、前記上限値内の矩形領域に分割する領域分割ステップと、
前記矩形領域内の文字画像を対象に前記垂直方向の＋方向、及び－方向、並びに前記水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、前記４方向の確信度を算出する確信度算出ステップと、
前記確信度算出ステップにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定ステップと、
制御ステップと、を実行し、
前記制御ステップは、前記正立方向判定ステップが前記正立方向の判定を行う場合には、前記通常の文字認識処理を行うときよりも、前記領域分割ステップに設定する前記サイズの上限値が大きくなるように制御することを特徴とする画像処理方法。

【請求項11】

プロセッサを、画像データに含まれる文字画像の正立方向を識別し、前記正立方向に沿って通常の文字認識処理を行う画像処理方法として機能させるためのプログラムであって、
プロセッサを、
前記画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、前記上限値内の矩形領域に分割する領域分割ステップと、
前記矩形領域内の文字画像を対象に前記垂直方向の＋方向、及び－方向、並びに前記水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、前記４方向の確信度を算出する確信度算出ステップと、
前記確信度算出ステップにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定ステップと、
制御ステップと、を備え、
前記制御ステップは、前記正立方向判定ステップが前記正立方向の判定を行う場合には、前記通常の文字認識処理を行うときよりも、前記領域分割ステップに設定する前記サイズの上限値が大きくなるように制御することとして機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

【背景技術】

【0002】

従来、文字認識処理における１つの手法では、画素数が多い高解像度の光電変換手段と画素数が少ない低解像度の光電変換手段とで画像を読み取っている。ここで、読取対象が小さい文字である場合には高解像度の光電変換手段で読み取った画像データを用い、一方、読取対象が大きな文字である場合には低解像度の光電変換手段で読み取った画像データを用いて文字認識を行う。
特許文献１には、多様な文字サイズの文字の文字認識処理を簡単な構成で精度よく行うことを目的として、画像データにおける文字認識処理の対象とする文字のサイズが所定サイズよりも大きいか否かを判定し、所定サイズよりも大きいと判定された場合には、画像データにおける少なくとも上記文字を含む領域を当該文字のサイズが上記所定サイズ以下になるように縮小処理し、縮小処理された画像データを用いて上記文字の文字認識処理を行うという技術が開示されている。
このように、特許文献１は、文字サイズに着目した文字認識処理であり、縮小処理を伴うことに起因して処理量が多くなっていた。

【0003】

ところで、スキャンして読み取った文字画像に対しては、まず文字画像の正立方向が不明であるため、文字画像の正立方向を識別しておき、その後、識別して得た正立方向に沿って通常の文字認識処理を行う必要があった。
従来、正立方向の判定処理では、例えば、スキャンした原稿に含まれる文字画像（のいくつか）を９０度ずつ回転しながらＯＣＲ（Optical Character Recognition：光学的文字認識）処理を行い、最も高い認識確信度を得られる方向（読めるであろう方向）を正立方向とする方法があった。
なお、このようなＯＣＲ処理を用いる正立方向の判定処理では、スキャンして得た画像に含まれる文字画像全体に対してＯＣＲ処理を行うと処理量が多くなるため、文字画像全体から一部を切り出しておき、切り出された一部の画像を対象にして正立方向の判定処理を行うのが一般的である。
しかし、特許文献１にあっては、文字の正立方向（文字が読める向き、あるいは被写体が正立している向き）を識別することを前提とした文字認識処理ではなかった。
すなわち、特許文献１にあっては、縮小処理された画像データを用いて文字認識処理を行っていたため、正立方向の判定処理の精度が低下するといった問題があった。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の一実施形態は、上記に鑑みてなされたもので、その目的は、画像データに含まれる文字画像の正立方向を識別する処理における精度を向上させることにある。

【課題を解決するための手段】

【0005】

上記課題を解決するために、請求項１記載の発明は、画像データに含まれる文字画像の正立方向を識別し、前記正立方向に沿って通常の文字認識処理を行う画像処理装置であって、前記画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、前記上限値内の矩形領域に分割する領域分割部と、前記矩形領域内の文字画像を対象に前記垂直方向の＋方向、及び－方向、並びに前記水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、前記４方向の確信度を算出する確信度算出部と、前記確信度算出部により算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定部と、制御部と、を備え、前記制御部は、前記正立方向判定部が前記正立方向の判定を行う場合には、前記通常の文字認識処理を行うときよりも、前記領域分割部に設定する前記サイズの上限値が大きくなるように制御することを特徴とする。

【発明の効果】

【0006】

本発明によれば、画像データに含まれる文字画像の正立方向を識別する処理における精度を向上させることができる。

【図面の簡単な説明】

【0007】

【図1】本発明の一実施形態に係わる画像処理装置を含むシステムの構成を例示する図である。

【図2】図１に示す画像形成装置のハードウェア構成の一例を示す図である。

【図3】図１に示すパーソナルコンピュータのハードウェア構成図である。

【図4】本発明の一実施形態に係わる画像処理装置の機能を表す機能ブロック図である。

【図5】本発明の第１実施形態に係わる画像処理装置の処理を表すフローチャートである。

【図6】（ａ）～（ｅ）は本発明の各実施形態に係わる画像処理装置の処理対象となる画像を表す図である。

【図7】本発明の第２実施形態に係わる画像処理装置の処理を表すフローチャートである。

【図8】本発明の第３実施形態に係わる画像処理装置の処理を表すフローチャートである。

【図9】本発明の第４実施形態に係わる画像処理装置の処理を表すフローチャートである。

【図10】（ａ）～（ｄ）は本発明の第５実施形態に係わる画像処理装置の処理を表すフローチャートである。

【発明を実施するための形態】

【0008】

以下、本発明を図面に示した実施の形態により詳細に説明する。
本発明は、画像データに含まれる文字画像の正立方向を識別する処理における精度を向上させるために、以下の構成を有する。
すなわち、本発明の画像処理装置は、画像データに含まれる文字画像の正立方向を識別し、正立方向に沿って通常の文字認識処理を行う画像処理装置であって、画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割する領域分割部と、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する確信度算出部と、確信度算出部により算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定部と、制御部と、を備え、制御部は、正立方向判定部が正立方向の判定を行う場合には、通常の文字認識処理を行うときよりも、領域分割部に設定するサイズの上限値が大きくなるように制御することを特徴とする。
以上の構成を備えることにより、画像データに含まれる文字画像の正立方向を識別する処理における精度を向上させることができる。
上記記載の本発明の特徴について、以下の図面を用いて詳細に解説する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
上記の本発明の特徴に関して、以下、図面を用いて詳細に説明する。

【0009】

＜システム構成＞
図１は、本発明の一実施形態に係わる画像処理装置を含むシステムの構成を例示する図である。
システム１は、画像形成装置１０、２つのパーソナルコンピュータであるＰＣ８０、ＰＣ９０を備え、これらが通信ネットワークＮを介して相互にデータの送受信を行う構成となっている。
画像形成装置１０は、原稿シートを読み取るスキャナ部３１、シート上に画像を形成するプリンタ部３２、及び通信機能などを備えるＭＦＰ（Multifunction Peripheral）である。スキャナ部３１は、ＡＤＦ（Auto Document Feeder：自動原稿送り装置）が設けられている場合はＡＤＦにセットされた原稿シートを読み取る。画像形成装置１０は、スキャナ部３１、プリンタ部３２を用いることで、コピー、プリンタ、スキャナ、ファクシミリの各機能を利用者に提供する。また操作パネル４０を介して利用者から指示を受け付け、もしくは通信ネットワークＮを介してＰＣ８０、ＰＣ９０から指示を受け付けることで、画像形成装置１０はこれら機能を実行する。

【0010】

また、画像形成装置１０は、光学文字認識（以下、必要に応じて単に「文字認識」、もしくは「ＯＣＲ処理」と称する）の技術を用いて、スキャナ部３１により読み取られたスキャン画像から、電子データのテキストを抽出する機能、及びそのテキストとスキャン画像をもとに，編集可能な文書（ｅｘ．マイクロソフトＷｏｒｄ文書）を作成する機能を有している。
なお、ＰＣ８０、ＰＣ９０は、画像形成装置１０を利用する一般ユーザが用いる端末（コンピュータ）である。
本発明に係わる画像処理装置は、図１に示す画像形成装置１０、またはＰＣ８０、ＰＣ９０により構成される。
なお、ＰＣ８０、ＰＣ９０は、画像形成装置１０を利用する一般ユーザが用いる端末（コンピュータ）である。

【0011】

＜画像形成装置のハードウェア構成＞
図２は、図１に示す画像形成装置１０のハードウェア構成の一例を示す図である。
図２に示されているように、画像形成装置１０は、コントローラ２０、近距離通信回路６０、エンジン制御部３０、操作パネル４０、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５０を備えている。
コントローラ２０は、コンピュータの主要部であるＣＰＵ２５ａ、システムメモリ（ＭＥＭ－Ｐ）２２、ノースブリッジ（ＮＢ）２５ｂ、サウスブリッジ（ＳＢ）２４、ＡＳＩＣ（Application Specific Integrated Circuit）２６、記憶部であるローカルメモリ（ＭＥＭ－Ｃ）２７、ＨＤＤ（Hard Disk Drive）コントローラ２８、及び記憶部であるＨＤ２９を有する。またＮＢ２５ｂとＣＰＵ２５ａとは、ＳｏＣ（System on a Chip）２５により統合されている。
ＣＰＵ２５ａは、画像形成装置１０の全体制御を行う制御部である。ＮＢ２５ｂは、ＣＰＵ２５ａと、ＭＥＭ－Ｐ２２、ＳＢ２４とを接続するためのブリッジであり、ＭＥＭ－Ｐ２２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ（Peripheral Component Interconnect）マスタ、及びＡＧＰターゲットとを有する。

【0012】

ＭＥＭ－Ｐ２２は、コントローラ２０の各機能を実現させるプログラムやデータの格納用メモリであるＲＯＭ２２ａ、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるＲＡＭ２２ｂとからなる。なお、ＲＡＭ２２ｂに記憶されているプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

【0013】

ＳＢ２４は、ＮＢ２５ｂとＰＣＩデバイス、周辺デバイスとを接続するためのブリッジである。ＡＳＩＣ２６は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ（Integrated Circuit）であり、ＰＣＩバス２３、ＨＤＤコントローラ２８、及びＭＥＭ－Ｃ２７をそれぞれ接続するブリッジの役割を有する。このＡＳＩＣ２６は、ＰＣＩターゲット、及びＡＧＰマスタ、ＡＳＩＣ２６の中核をなすアービタ（ＡＲＢ）、ＭＥＭ－Ｃ２７を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のＤＭＡＣ（Direct Memory Access Controller）、並びに、スキャナ部３１、及びプリンタ部３２との間でＰＣＩバス２３を介したデータ転送を行うＰＣＩユニットからなる。なお、ＡＳＩＣ２６には、ＵＳＢ（Universal Serial Bus）のインターフェースや、ＩＥＥＥ１３９４（Institute of Electrical and Electronics Engineers １３９４）のインターフェースを接続するようにしてもよい。

【0014】

ＭＥＭ－Ｃ２７は、コピー用画像バッファ、及び符号バッファとして用いるローカルメモリである。ＨＤ２９は、後述の動作を実行するためのプログラムや各種制御用のデータを事前に記憶したストレージであり、画像データの蓄積、印刷時に用いるフォントデータやフォームの蓄積を行う用途にも用いられる。ＨＤ２９は、ＣＰＵ２５ａの制御にしたがってＨＤ２９に対するデータの読出または書込を制御する。
また、近距離通信回路６０には、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の通信回路６０ａが備わっており、ユーザが所持しているＩＣカードとの間でのデータ通信を実現する。ユーザがＩＣカードを通信回路６０ａの近傍にかざすと、近距離通信回路６０は、ＩＣカードに記録されている各種データを読み取る。

【0015】

エンジン制御部３０は、スキャナ部３１、及びプリンタ部３２の制御を行う。操作パネル４０は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部４０ａ、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキー、及びコピー開始指示を受け付けるスタートキー等からなる操作パネル４０ｂを備えている。コントローラ２０は、画像形成装置１０全体の制御を行い、例えば、描画、通信、操作パネル４０からの入力等を制御する。スキャナ部３１またはプリンタ部３２には、誤差拡散やガンマ変換などの画像処理部分が含まれている。
なお、画像形成装置１０は、操作パネル４０のアプリケーション切り替えキーにより、ドキュメントボックス機能（スキャナ機能）、コピー機能、プリンタ機能、及びファクシミリ機能を順次に切り替えて選択することが可能となる。またドキュメントボックス機能（スキャナ機能）には、ＯＣＲ処理により画像からテキストを抽出し、オフィス系の各種アプリケーションで使用可能なフォーマットに変換する機能も備えられている。
また、ネットワークＩ／Ｆ５０は、通信ネットワークＮを利用してデータ通信をするためのインターフェースである。近距離通信回路６０、及びネットワークＩ／Ｆ５０は、ＰＣＩバス２３を介して、ＡＳＩＣ２６に電気的に接続されている。

【0016】

＜パーソナルコンピュータのハードウェア構成＞
図３は、図１に示すパーソナルコンピュータのハードウェア構成図である。ここでは、パーソナルコンピュータのハードウェア構成について説明する。
図３に示されているように、パーソナルコンピュータは、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤ１０４、ＨＤＤ（Hard Disk Drive）コントローラ１０５、ディスプレイ１０６、外部機器接続Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１０８、ネットワークＩ／Ｆ１０９、データバス１１０、キーボード１１１、ポインティングデバイス１１２、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable）ドライブ１１４、メディアＩ／Ｆ１１６を備えている。
これらのうち、ＣＰＵ１０１は、パーソナルコンピュータ８０，９０全体の動作を制御する。ＲＯＭ１０２は、ＩＰＬ等のＣＰＵ１０１の駆動に用いられるプログラムを記憶する。ＲＡＭ１０３は、ＣＰＵ１０１のワークエリアとして使用される。ＨＤ１０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ１０５は、ＣＰＵ１０１の制御にしたがってＨＤ１０４に対する各種データの読み出し又は書き込みを制御する。

【0017】

ディスプレイ１０６は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ１０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ（Universal Serial Bus）メモリやプリンタ等である。ネットワークＩ／Ｆ１０９は、通信ネットワークＮを利用してデータ通信をするためのインターフェースである。バスライン１１０は、図３に示されているＣＰＵ１０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード１１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス１１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ１１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ１１３に対する各種データの読み出し又は書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等であってもよい。メディアＩ／Ｆ１１６は、フラッシュメモリ等の記録メディア１１５に対するデータの読み出し又は書き込み（記憶）を制御する。

【0018】

＜正立方向の判定処理における課題＞
以下、図６を参照して説明する。図６（ａ）～（ｅ）は、本発明の各実施形態に係わる画像処理装置の処理対象となる画像を表す図である。
原稿の紙面をスキャナ部３１によりスキャンして得られた画像データは、図６（ａ）に示すような多値の画像データである。
ＯＣＲ処理を行う場合には、図６（ａ）に示すような原稿の多値の画像データを所定の閾値により二値化し、図６（ｂ）に示すような二値画像データを得る必要がある。
その後、図６（ｃ）に示すように、二値画像データに対して垂直方向ｙ、及び水平方向ｘに正射影などを取って、文字と思われる画像の矩形領域を抽出するのが一般的である。
図６（ｃ）に示すように、水平方向ｘの正射影を行えば、行の高さＬｈを得られるので、水平方向ｘの切り出しが可能であり、さらに垂直方向ｙの正射影を行えば、列の幅を得られる。さらに、図６（ｄ）に示すように、文字画像の矩形領域の切り出しが可能となり、「と」「ま」「と」という文字画像を分離することが可能になる。
そして、図６（ｅ）に示すように、物理長が大き過ぎる矩形は、文字ではない（ｅｘ．写真画像である）という仮定を設けることが多い。この場合、原稿に含まれるフォントサイズに上限値を設定する。

【0019】

この設定（フォントサイズに上限値を設定する）は、一般には正しく、写真画像を無理に１文字として誤認識することを防ぐ効果がある。
しかし、場合によっては誤認識を防げないことがある。
それは、原稿に予想外の大きなフォントだけが含まれている場合である。
例えば、プレゼンテーション用のスライドには、非常に大きな文字だけが使われるときがある。
こうした場合に、通常のフォントサイズを前提にＯＣＲ処理を行うとすると、矩形サイズの上限値で大き過ぎる画像が棄却されてしまい、ＯＣＲ処理が行われない場合がある。
確かに、原稿に大きなフォントしか含まれていない場合は、原稿に含まれる文字数自体が少ない場合であるから、ＯＣＲ処理が行われなくても、影響自体は少ないとは言える。つまり、写真画像を無理に１文字として誤認識することを防ぐ効果の方を優先することも可能である。

【0020】

しかし、ＯＣＲ処理を文字認識そのものではなく、正立方向の判定処理のために使う場合は、前記除外の結果、原稿の天地が判別できない（不定となる）ことがある。原稿の天地が識別できない場合は、初期の状態を正立方向と仮定するが、その仮定が誤っている場合は、（前記写真画像の誤認識と比較にならない）原稿全体のＯＣＲ処理結果を誤るという大きな弊害が生じる。
つまり、正立方向の判定処理のためにＯＣＲ処理を行う場合には、前提となるフォントサイズの上限値を変更した方がよいと考えられる。
また、正立方向の判定処理のために変更したフォントサイズによって、ＯＣＲ処理による高い確信度が得られた場合には、その原稿は大きなフォントで構成されている可能性が高いと理解できるため、正立方向の判定処理後に頁全体の文字画像にＯＣＲ処理を施す場合にも、前記上限値を変更した方が良い。

【0021】

すなわち、以下の手順によりＯＣＲ処理を行う。
（１）ページ内をサンプリングしてＯＣＲ処理を行い、原稿の＋ｘ方向、－ｘ方向、＋ｙ方向、－ｙ方向のそれぞれの確信度を算出して、最高の確信度に対応する方向を正立方向であると判定する。この結果、原稿の正立方向を得る。
（２）ページ内全面に対して、正立方向に沿ってＯＣＲ処理を行う。
ＯＣＲ処理では、認識精度を向上するために、上述する矩形領域のサイズに上限値を設ける。その上限値は（同じＯＣＲ処理でも）用途毎に変更する必要がある。

【0022】

＜機能ブロック図＞
図４は、本発明の一実施形態に係わる画像処理装置の機能を表す機能ブロック図である。
画像処理装置は、例えば、図３に示すパーソナルコンピュータのＨＤ１０４に、以下に説明する処理を実行するためのプログラムをインストールしておき、ＣＰＵがＨＤ１０４から読み出したプログラムを実行することにより構成される。
なお、画像処理装置は、図２に示す画像形成装置１０のＨＤ２９に、以下に説明する処理を実行するためのプログラムをインストールしておき、ＣＰＵ２５ａがＨＤ２９から読み出したプログラムを実行することにより構成されてもよい。

【0023】

図４に示すように、画像処理装置は制御部７０を備え、さらに制御部７０は、二値画像入力部７０ａ、領域分割部７０ｂ、計数部７０ｃ、確信度算出部７０ｄ、正立方向判定部７０ｅを備えている。
画像処理装置は、画像データに含まれる文字画像の正立方向を識別し、正立方向に沿って通常の文字認識処理を行う。
原稿をスキャナ部３１で読み取って取得した多値画像データを所定の閾値により二値化したデータが二値画像入力部７０ａに入力される。
二値画像入力部７０ａは、二値化したデータを入力して、ＲＡＭ２２ｂの第１ワークエリアに二値画像を展開する。

【0024】

領域分割部７０ｂは、二値の画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割する。
計数部７０ｃについては、後述する。
確信度算出部７０ｄは、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する。
正立方向判定部７０ｅは、確信度算出部７０ｄにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する。
制御部７０は、正立方向判定部７０ｅが正立方向の判定を行う場合には、通常の文字認識処理を行うときよりも、領域分割部７０ｂに設定するサイズの上限値が大きくなるように制御する。
制御部７０は、サイズの実際値がサイズの上限値を超えない場合に、正立方向判定部７０ｅによる判定結果が不定となったときに、サイズの上限値がより大きくなるように制御する。

【0025】

計数部７０ｃは、領域分割部７０ｂにより分割された矩形領域のうち、行または列内の矩形領域において、サイズの実際値が上限値を超える文字画像の数を計数する。
制御部７０は、計数部７０ｃにより計数された文字画像の数が行または列内で基準値以下である場合に、サイズの上限値がより大きくなるように制御する。

【0026】

計数部７０ｃは、領域分割部７０ｂにより分割された矩形領域のうち、行または列内の矩形領域において、サイズの実際値が上限値を超える文字画像のうち、当該文字画像同士が隣接している隣接数を計数する。
制御部７０は、計数部７０ｃにより計数された文字画像の隣接数が行または列内で初めて２つ以上になる場合に、サイズの上限値がより大きくなるように制御することを特徴とする。

【0027】

制御部７０は、計数部７０ｃにより計数された文字画像の数が同一行内または同一列内で過半数ある場合に、サイズの上限値がより大きくなるように制御する。

【0028】

制御部７０は、サイズの実際値がサイズの上限値を超える文字画像を抽出し、抽出した文字画像が隣接する行または列に跨がっている場合に、サイズの上限値を引き継ぐように制御する。

【0029】

確信度算出部７０ｄが、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向のうち、少なくとも２方向に沿ってそれぞれ文字認識処理を行い、少なくとも２方向の確信度を算出する。
正立方向判定部７０ｅが、確信度算出部７０ｄにより算出された少なくとも２方向の各確信度が所定の閾値よりも大きい確信度を有する方向を正立方向として判定する。
制御部７０は、サイズの上限値を大きくなるように制御した場合に、確信度の閾値が大きくなるように制御する。

【0030】

正立方向判定部７０ｅは、確信度算出部７０ｄにより算出された４方向の各確信度のうち少なくとも１つが第１閾値を越えた場合に、確信度が最大となる方向に関してのみ確信度を積算し、各方向について積算した確信度を積算回数で除算した値が、第１閾値と異なる第２閾値を越えたときに、当該方向を正立方向とする。

【0031】

制御部７０は、正立方向判定部７０ｅが正立方向の判定を行った場合に、通常の文字認識処理を行うときよりも、領域分割部７０ｂに設定するサイズの上限値が大きくなるように制御したときに、当該大きくされた上限値に基づいて、通常の文字認識処理における文字サイズの上限値を決定するように制御する。

【0032】

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたＡＳＩＣ（Application Specific Integrated Circuit）、ＤＳＰ（digital signal processor）、ＦＰＧＡ（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

【0033】

＜第１実施形態＞
次に、図５は、本発明の第１実施形態に係わる画像処理装置（第１態様、第２態様、第７態様、第８態様）の処理を表すフローチャートである。なお、図５に示すステップＳ３０６、Ｓ３０７は、特開２０００－１１３１０３公報に記載された技術的事項と同様のものである。図５においては、識別不能である場合に見直しを行う処理（ステップＳ３０７～Ｓ３１１）を特徴とする。
図５において、ステップＳ３０１では、二値画像入力部７０ａは、二値画像を入力する。なお、原稿をスキャナ部３１で読み取って取得した多値画像データは、図６（ａ）に示すような多値の画像データであり、この多値画像データを所定の閾値により二値化したデータを二値画像入力部７０ａに入力して、ＲＡＭ２２ｂの第１ワークエリアに二値画像を展開する。
ステップＳ３０２では、領域分割部７０ｂは、ＲＡＭ２２ｂの第１ワークエリアに展開された画像に対して全行切り出し処理を行い、切り出された画像をＲＡＭ２２ｂの第２ワークエリアに記憶する。

【0034】

ステップＳ３０３では、領域分割部７０ｂは、ＲＡＭ２２ｂの第２ワークエリアにおいて、切り出された画像のうち、高さがＬｈ（上限値）を越える行を除外する。
ステップＳ３０４では、領域分割部７０ｂは、ＲＡＭ２２ｂの第２ワークエリアにおいて、除外後の全行に対して文字の矩形領域を切り出し、切り出された画像をＲＡＭ２２ｂの第３ワークエリアに記憶する。
ステップＳ３０５では、領域分割部７０ｂは、ＲＡＭ２２ｂの第３ワークエリアにおいて、幅がＣｗ（上限値）を越える矩形領域を除外する。ステップＳ３０５を経ることで、入力画像に含まれるＯＣＲ処理すべき全文字の矩形領域を獲得して、ＲＡＭ２２ｂの第３ワークエリアに記憶することができる。
ステップＳ３０３～Ｓ３０５において、領域分割部７０ｂは、画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割することができる。

【0035】

＜二値画像の領域分割について＞
ここで、ステップＳ３０１～Ｓ３０２における二値画像の領域分割について説明する。
図６（ａ）は、多値画像データＧ１の一例である。
図６（ｂ）は、二値化画像Ｇ２の一例である。多値画像データを閾値と比較して二値化画像を生成する。
図６（ｃ）は、その水平方向ｘに正射影（線分α１）をとれば、行の切り出しが可能となる。図６（ｃ）に示す例である場合、線分α１の長さは「ま」の高さとなり、これが本実施形態でいう行の高さＬｈとなる。
さらに、図６（ｃ）において、垂直方向の射影（線分β１、β２、β３）をとることで、図６（ｄ）に示すように、文字の矩形領域Ｒ１，Ｒ２，Ｒ３の切り出しが可能である。この場合、各文字の高さは再度水平方向ｘの正射影を取り直すことで求められる。

【0036】

確信度算出部７０ｄは、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する。
その後、ステップＳ３０６では、正立方向判定部７０ｅは、文字画像の単位で４方向（±ｘ方向、±ｙ方向）のＯＣＲ処理、及び確信度の比較を行い、確信度（Ｃｏｎｆｉｄｅｎｃｅ）の最大値が所定値Ｃｔｈ＝０．８以上である場合に、該確信度最大の方向に１カウントを加え（特開２０００－１１３１０３公報に記載された「投票」を行い）、４方向の各方向のカウント数を累積カウント数で除算してカウント数の和を１に正規化する。

【0037】

【表1】

【0038】

ここでいう確信度とは、前記特開２０００－１１３１０３公報に記載された技術的事項と同様に、ＯＣＲ処理の結果がどの程度確からしいかを表わす量であり、確信度は０～１の数値で表わされる。典型的には、前記切り出された各文字画像の画素数を正規化してから特徴量を抽出し、その特徴量とパターン辞書とのマッチングを行なうことにより、類似度（ユークリッド距離やマララノビス距離）を０～１に換算したものである。

【0039】

そして、ステップＳ３０７で、正立方向判定部７０ｅは、カウント数が少なくとも３つ以上ある場合に、累積カウント結果を正規化した最大値と天地識別閾値Ｄｔｈ＝０．８５とを比較する。累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ以上である場合に、その最大値の方向を正立方向として決定して、正立方向の判定処理を終了する。
ここで、少なくとも初期値としては、確信度の閾値Ｃｔｈ＜正立方向の判定処理の判断閾値Ｄｔｈである（第８態様）。
文字に関する確信度は、１文字分だけでは信頼性が不足する。一方、極端に高い確信度は信用できるため、複数文字分の確信度を正規化した値に対する閾値（天地識別閾値）を、１文字に対する確信度閾値よりも大きく設定することで、正立方向の判定処理の精度を確保することができる（第８態様の効果）。

【0040】

累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、ステップＳ３０８に進み、正立方向判定部７０ｅは、未処理の矩形が残っているか否かを判断する。
正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、未処理の矩形が残っている場合に（ステップＳ３０８でＹｅｓ）、ステップＳ３０９に進み、次の文字の矩形領域を選択してステップＳ３０６へ戻り、前記カウントを繰り返す。矩形選択はラスター順に行われる。
高さＬｈ以上の全ての行についての文字の矩形領域を処理しても、前記カウント数が３未満である場合や、前記正規化した最大値が所定値未満である場合には、正立方向は不定となり、ステップＳ３１０に移る（請求項２）。

【0041】

ステップＳ３１０では、正立方向判定部７０ｅは、本実施形態の中心となる部分であり、Ｌｈが画像高さ未満かつＣｗ（上限値）が画像幅未満か否かを判断する。
Ｌｈが画像高さ未満かつＣｗが画像幅未満である場合には（ステップＳ３１０でＹｅｓ）、ステップＳ３１１に進み、Ｌｈ＝Ｌｈ＊１．５、Ｃｗ＝Ｃｗ＊１．５、として行高さＬｈ、及び文字幅Ｃｗの上限値を大きくし（第１態様）、さらにＣｔｈ＝Ｃｔｈ＊１．１（ただしＣｔｈの上限値は１とする）として、投票に足る確信度の閾値を大きくして（第７態様）ステップＳ３０３に戻り、ステップＳ３０３以降の処理を再度実行する。

【0042】

これにより、当初想定よりも大きな文字の矩形領域を投票の対象とすることができるため、正立不定である場合を少なくでき、結果的に正立方向の判定処理の精度を向上することができる（第１態様の効果）。
また、正立方向の判定処理が不定になった場合に初めて矩形サイズを大きく設定するため、想定内である場合には影響を与えず、想定外である場合だけに対して適応的な処理が可能になる（第２態様の効果）。
なお、Ｃｔｈ＝Ｃｔｈ＊１．１と同時に、Ｄｔｈ＝Ｄｔｈ＊１．０５などとＤｔｈを更新し、Ｃｔｈ＜Ｄｔｈをなるべく維持するようにしてもよい。
一方、Ｌｈが画像高さ未満かつＣｗが画像幅未満である場合には（ステップＳ３１０でＮｏ）、ステップＳ３１２に進み、最終的に識別不能とする。

【0043】

また本実施形態では、当初想定よりも大きな文字の矩形領域を投票の対象とする分、確信度の閾値を高くすることで、実際には文字ではなく写真である矩形（本来文字らしくない矩形＝確信度の低いであろう矩形）が投票の対象となる弊害を避けることができる。これらの結果、前記弊害を軽減した状態で、文字の矩形領域の上限値を大きく設定することができ、結果的に正立方向の判定処理の精度を向上することができる（第７態様の効果）。

【0044】

＜第２実施形態＞
次に、図７は、本発明の第２実施形態に係わる画像処理装置（第１態様、第３態様、第６態様）の処理を表すフローチャートである。図７においては、行内の矩形領域の数が不足している場合に見直しを行う処理（ステップＳ４０５～Ｓ４１２）を特徴とする。
図７において、ステップＳ４０１では、二値画像入力部７０ａは、二値画像を入力する。なお、原稿をスキャナ部３１で読み取って取得した多値画像データは、図６（ａ）に示すような多値の画像データであり、この多値画像データを所定の閾値により二値化したデータを二値画像入力部７０ａに入力して、ＲＡＭ２２ｂの第１ワークエリアに二値画像を展開する。
ステップＳ４０２では、領域分割部７０ｂは、ＲＡＭ２２ｂの第１ワークエリアに展開された画像に対して全行切り出し処理を行い、切り出された画像をＲＡＭ２２ｂの第２ワークエリアに記憶する。
ステップＳ４０３では、領域分割部７０ｂは、文字の幅の上限値Ｃｗ、文字の高さの上限値Ｃｈ、確信度の閾値Ｃｔｈを初期化する。

【0045】

ステップＳ４０４では、領域分割部７０ｂは、ＲＡＭ２２ｂの第２ワークエリアにおいて、行毎に、文字幅＞Ｃｗ、文字高さ＞Ｃｈの矩形領域を除外することで、１行内でＯＣＲ処理すべき全文字についての矩形領域を確定し、その画像をＲＡＭ２２ｂの第３ワークエリアに記憶する。
ステップＳ４０５では、領域分割部７０ｂは、当該行内でＯＣＲ処理すべき文字の矩形領域の数が所定値未満か否かを判定する（第３態様）。ここで、文字の矩形領域の数が所定値未満ではない場合に、ステップＳ４０８に進む。一方、文字の矩形領域の数が所定値未満である場合に、ステップＳ４０６に進む。
ステップＳ４０６では、領域分割部７０ｂは、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満か否かを比較する。ここで、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満ではない場合に、ステップＳ４０８に進む。一方、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満である場合に、ステップＳ４０７に進む。

【0046】

ステップＳ４０７では、領域分割部７０ｂは、Ｃｗ＝Ｃｗ＊１．５、Ｃｈ＝Ｃｈ＊１．５、Ｃｔｈ＝Ｃｔｈ＊１．１として設定する（第１態様）。
このように、行内で処理対象となる文字の矩形領域数を予め計数し、矩形数が少ない場合には矩形サイズの上限値を大きく設定することで、正立方向の判定処理に十分な矩形数を確保できる場合が増え、正立不定である場合を少なくできる結果、正立方向の判定処理の精度を向上することができる（第３態様の効果）。

【0047】

確信度算出部７０ｄは、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する。
その後、ステップＳ４０８では、正立方向判定部７０ｅは、文字画像の単位で４方向（±ｘ方向、±ｙ方向）のＯＣＲ処理、及び確信度の比較を行い、確信度（Ｃｏｎｆｉｄｅｎｃｅ）の最大値が所定値Ｃｔｈ＝０．８以上である場合に、該確信度最大の方向に１カウントを加え（特開２０００－１１３１０３公報に記載された「投票」を行い）、４方向の各方向のカウント数を累積カウント数で除算してカウント数の和を１に正規化する。

【0048】

そして、ステップＳ４０９では、正立方向判定部７０ｅは、カウント数が少なくとも３つ以上ある場合に、累積カウント結果を正規化した最大値と天地識別閾値Ｄｔｈ＝０．８５とを比較する。累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ以上である場合に、その最大値の方向を正立方向として決定して、正立方向の判定処理を終了する。
一方、累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、ステップＳ４１０に進み、正立方向判定部７０ｅは、未処理の矩形が残っているか否かを判断する。
正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、未処理の矩形が残っている場合に（ステップＳ４１０でＹｅｓ）、ステップＳ４１１に進み、次の文字の矩形領域を選択してステップＳ４０８へ戻り、前記カウントを繰り返す。矩形選択はラスター順に行われる。

【0049】

また、識別が終了しない場合（Ｓ４０９、Ｎｏ）に、ステップＳ４１０に進み、行内に文字の矩形領域が残っているか否かを判断する。ここで、行内に文字の矩形領域が残っていないとき（Ｓ４１０、Ｎｏ）に、画像中にはまだ行が残っているときには（Ｓ４１２、Ｙｅｓ）、ステップＳ４０４に進む。
これにより、大きい値に更新された上限値Ｃｗ、Ｃｈは、次の行に引き継がれる（第６態様）。
行間において、初期化ではなく引継ぎをすることによって、効率的に上限値を更新することができる（第６態様の効果）。
一方、ステップＳ４１２において、画像中には行が残っていないときには（Ｓ４１２、Ｎｏ）、ステップＳ４１３に進み、最終的に識別不能とする。

【0050】

＜第３実施形態＞
次に、図８は、本発明の第３実施形態に係わる画像処理装置（第１態様、第４態様）の処理を表すフローチャートである。図８においては、行内で連続した矩形領域が除外された場合に見直しを行う処理（ステップＳ５０５～Ｓ５１２）を特徴とする。

図８において、ステップＳ５０１では、二値画像入力部７０ａは、二値画像を入力する。なお、原稿をスキャナ部３１で読み取って取得した多値画像データは、図６（ａ）に示すような多値の画像データであり、この多値画像データを所定の閾値により二値化したデータを二値画像入力部７０ａに入力して、ＲＡＭ２２ｂの第１ワークエリアに二値画像を展開する。
ステップＳ５０２では、領域分割部７０ｂは、ＲＡＭ２２ｂの第１ワークエリアに展開された画像に対して全行切り出し処理を行い、切り出された画像をＲＡＭ２２ｂの第２ワークエリアに記憶する。
ステップＳ５０３では、領域分割部７０ｂは、文字の幅の上限値Ｃｗ、文字の高さの上限値Ｃｈを初期化する。

【0051】

ステップＳ５０４では、領域分割部７０ｂは、ＲＡＭ２２ｂの第２ワークエリアにおいて、行毎に、文字幅＞Ｃｗ、文字高さ＞Ｃｈの矩形領域を除外することで、１行内でＯＣＲ処理すべき全文字についての矩形領域を確定し、その画像をＲＡＭ２２ｂの第３ワークエリアに記憶する。
ステップＳ５０５では、領域分割部７０ｂは、当該行内で隣接した文字の矩形領域がともに除外されたか否かを判定する（第４態様）。ここで、当該行内で隣接した文字の矩形領域がともに除外されたていない場合に、ステップＳ５０８に進む。一方、当該行内で隣接した文字の矩形領域がともに除外された場合に、ステップＳ５０６に進む。
ステップＳ５０６では、領域分割部７０ｂは、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満か否かを比較する。ここで、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満ではない場合に、ステップＳ５０８に進む。一方、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満である場合に、ステップＳ５０７に進む。

【0052】

ステップＳ５０７では、領域分割部７０ｂは、Ｃｗ＝Ｃｗ＊１．５、Ｃｈ＝Ｃｈ＊１．５、Ｃｔｈ＝Ｃｔｈ＊１．１として設定する。
このように、行内で処理対象となる文字の矩形領域数を予め計数し、矩形数が少ない場合には矩形サイズの上限値を大きく設定することで、正立方向の判定処理に十分な矩形数を確保できる場合が増え、正立不定である場合を少なくできる結果、正立方向の判定処理の精度を向上することができる。

【0053】

確信度算出部７０ｄは、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する。
その後、ステップＳ５０８では、正立方向判定部７０ｅは、文字画像の単位で４方向（±ｘ方向、±ｙ方向）のＯＣＲ処理、及び確信度の比較を行い、確信度（Ｃｏｎｆｉｄｅｎｃｅ）の最大値が所定値Ｃｔｈ＝０．８以上である場合に、該確信度最大の方向に１カウントを加え（特開２０００－１１３１０３公報に記載された「投票」を行い）、４方向の各方向のカウント数を累積カウント数で除算してカウント数の和を１に正規化する。

【0054】

そして、ステップＳ５０９では、正立方向判定部７０ｅは、カウント数が少なくとも３つ以上ある場合に、累積カウント結果を正規化した最大値と天地識別閾値Ｄｔｈ＝０．８５とを比較する。累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ以上である場合に、その最大値の方向を正立方向として決定して、正立方向の判定処理を終了する。
一方、累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、ステップＳ５１０に進み、正立方向判定部７０ｅは、未処理の矩形が残っているか否かを判断する。
正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、未処理の矩形が残っている場合に（ステップＳ５１０でＹｅｓ）、ステップＳ５１１に進み、次の文字の矩形領域を選択してステップＳ５０８へ戻り、前記カウントを繰り返す。矩形選択はラスター順に行われる。

【0055】

また、識別が終了しない場合（Ｓ５０９、Ｎｏ）に、ステップＳ５１０に進み、行内に文字の矩形領域が残っているか否かを判断する。ここで、行内に文字の矩形領域が残っていないとき（Ｓ５１０、Ｎｏ）に、画像中にはまだ行が残っているときには（Ｓ５１２、Ｙｅｓ）、ステップＳ５０４に進む。
これにより、大きい値に更新された上限値Ｃｗ、Ｃｈは、次の行に引き継がれる。
行間において、初期化ではなく引継ぎをすることによって、効率的に上限値を更新することができる。
一方、ステップＳ５１２において、画像中には行が残っていないときには（Ｓ５１２、Ｎｏ）、ステップＳ５１３に進み、最終的に識別不能とする。

【0056】

ステップＳ５０５において、隣接した２つの矩形領域が除外された場合には、画像中の実際の文字サイズが想定よりも大きい可能性があるため、矩形領域のサイズの上限値を大きく設定することで、正立方向の判定処理に十分な矩形数を確保できる場合が増え、正立方向が不定である場合を少なくできる。この結果、正立方向の判定処理の精度を向上することができる（第４態様の効果）。

【0057】

＜第４実施形態＞
次に、図９は、本発明の第４実施形態に係わる画像処理装置（第１態様、第５態様）の処理を表すフローチャートである。図９においては、行内で過半数の矩形領域が除外された場合に見直しを行う処理（ステップＳ６０５～Ｓ６１２）を特徴とする。
図９において、ステップＳ６０１では、二値画像入力部７０ａは、二値画像を入力する。なお、原稿をスキャナ部３１で読み取って取得した多値画像データは、図６（ａ）に示すような多値の画像データであり、この多値画像データを所定の閾値により二値化したデータを二値画像入力部７０ａに入力して、ＲＡＭ２２ｂの第１ワークエリアに二値画像を展開する。
ステップＳ６０２では、領域分割部７０ｂは、ＲＡＭ２２ｂの第１ワークエリアに展開された画像に対して全行切り出し処理を行い、切り出された画像をＲＡＭ２２ｂの第２ワークエリアに記憶する。
ステップＳ６０３では、領域分割部７０ｂは、文字の幅の上限値Ｃｗ、文字の高さの上限値Ｃｈを初期化する。

【0058】

ステップＳ６０４では、領域分割部７０ｂは、ＲＡＭ２２ｂの第２ワークエリアにおいて、行毎に、文字幅＞Ｃｗ、文字高さ＞Ｃｈの矩形領域を除外することで、１行内でＯＣＲ処理すべき全文字についての矩形領域を確定し、その画像をＲＡＭ２２ｂの第３ワークエリアに記憶する。
ステップＳ６０５では、領域分割部７０ｂは、当該行内で過半数の文字の矩形領域が除外されたか否かを判定する（第４態様）。ここで、当該行内で過半数の文字の矩形領域が除外されたていない場合に、ステップＳ６０８に進む。一方、当該行内で過半数の文字の矩形領域が除外された場合に、ステップＳ６０６に進む。
ステップＳ６０６では、領域分割部７０ｂは、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満か否かを比較する。ここで、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満ではない場合に、ステップＳ６０８に進む。一方、Ｃｗが画像幅の１／２未満、かつＣｈが画像幅の１／２未満である場合に、ステップＳ６０７に進む。

【0059】

ステップＳ６０７では、領域分割部７０ｂは、Ｃｗ＝Ｃｗ＊１．５、Ｃｈ＝Ｃｈ＊１．５、Ｃｔｈ＝Ｃｔｈ＊１．１として設定する。
このように、行内で処理対象となる文字の矩形領域数を予め計数し、矩形数が少ない場合には矩形サイズの上限値を大きく設定することで、正立方向の判定処理に十分な矩形数を確保できる場合が増え、正立不定である場合を少なくできる結果、正立方向の判定処理の精度を向上することができる。

【0060】

確信度算出部７０ｄは、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する。
その後、ステップＳ６０８では、正立方向判定部７０ｅは、文字画像の単位で４方向（±ｘ方向、±ｙ方向）のＯＣＲ処理、及び確信度の比較を行い、確信度（Ｃｏｎｆｉｄｅｎｃｅ）の最大値が所定値Ｃｔｈ＝０．８以上である場合に、該確信度最大の方向に１カウントを加え（特開２０００－１１３１０３公報に記載された「投票」を行い）、４方向の各方向のカウント数を累積カウント数で除算してカウント数の和を１に正規化する。

【0061】

そして、ステップＳ６０９では、正立方向判定部７０ｅは、カウント数が少なくとも３つ以上ある場合に、累積カウント結果を正規化した最大値と天地識別閾値Ｄｔｈ＝０．８５とを比較する。累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ以上である場合に、その最大値の方向を正立方向として決定して、正立方向の判定処理を終了する。
一方、累積カウント結果を正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、ステップＳ６１０に進み、正立方向判定部７０ｅは、未処理の矩形が残っているか否かを判断する。
正規化した最大値が天地識別閾値Ｄｔｈ未満である場合に、未処理の矩形が残っている場合に（ステップＳ６１０でＹｅｓ）、ステップＳ６１１に進み、次の文字の矩形領域を選択してステップＳ６０８へ戻り、前記カウントを繰り返す。矩形選択はラスター順に行われる。

【0062】

また、識別が終了しない場合（Ｓ６０９、Ｎｏ）に、ステップＳ６１０に進み、行内に文字の矩形領域が残っているか否かを判断する。ここで、行内に文字の矩形領域が残っていないとき（Ｓ６１０、Ｎｏ）に、画像中にはまだ行が残っているときには（Ｓ６１２、Ｙｅｓ）、ステップＳ６０４に進む。
これにより、大きい値に更新された上限値Ｃｗ、Ｃｈは、次の行に引き継がれる。
行間において、初期化ではなく引継ぎをすることによって、効率的に上限値を更新することができる。
一方、ステップＳ６１２において、画像中には行が残っていないときには（Ｓ６１２、Ｎｏ）、ステップＳ６１３に進み、最終的に識別不能とする。

【0063】

この際、当該行内で過半数の矩形が除外されたかどうかを検証し（Ｓ６０５）（第５態様）、当該行内で過半数の矩形が除外された場合には、Ｃｗが画像幅の１／２未満かつＣｈが画像幅の１／２未満かどうか比較し（Ｓ６０６）、Ｃｗが画像幅の１／２未満かつＣｈが画像幅の１／２未満である場合にはステップＳ６０７でＣｗ＝Ｃｗ＊１．５、Ｃｈ＝Ｃｈ＊１．５、Ｃｔｈ＝Ｃｔｈ＊１．１とする（第１態様）。
過半数の矩形が除外された場合には、画像中の実際の文字サイズが想定よりも大きい可能性が高いため、矩形サイズの上限値を大きく設定することで、正立方向の判定処理に十分な矩形数を確保できる場合がより増え、正立方向が不定である場合を少なくできる。この結果、正立方向の判定処理の精度を向上することができる（第５態様の効果）。

【0064】

＜第５実施形態＞
次に、図１０（ａ）～図１０（ｄ）は本発明の第５実施形態に係わる画像処理装置（第９態様）の処理を表すフローチャートである。図１０においては、正立方向の判定処理時の矩形領域のサイズを用いて、画像全体のＯＣＲ処理を実行することを特徴とする。
＜基本例＞
図１０（ａ）は本発明の第５実施形態に係わる画像処理装置（第９態様）の処理を表すフローチャートの基本例である。
図１０（ａ）において、ステップＳ７０１Ａでは、二値画像を入力する。
次に、ステップＳ７０２Ａでは、全行切り出し処理を行う。
ステップＳ７０３Ａでは、制御部７０は、上述したステップＳ３００での正立方向の判定処理を行う。

【0065】

ステップＳ７０４Ａでは、上述したステップＳ３００による処理を終了した後のＬｈ，Ｃｗの値を保持する。
ステップＳ７０５Ａでは、天地識別できたか否かを判断する。ここで、天地識別ができなかった場合（Ｎｏ）に、正立方向が不定であることとし、ステップＳ７０７Ａに進み、一方、天地識別ができた場合（Ｙｅｓ）に、正立方向が特定できたこととし、ステップＳ７０６Ａに進む。
ステップＳ７０６Ａでは、識別した正立方向に画像全体を回転させ、全行切り出し処理を行う。
ステップＳ７０７Ａでは、上述したステップＳ３００による処理を終了した後のＬｈ，Ｃｗの値を用いて、全行を対象にしてＯＣＲ処理の対象外の文字の矩形領域を除外する。
ステップＳ７０８Ａでは、除外後の文字の矩形領域の全てに対してＯＣＲ処理を実行する。

【0066】

図１０（ａ）において、本実施形態では、ステップＳ７０３ＡにおいてステップＳ３００を実行した後にＬｈ、Ｃｗの値を保持する（ステップＳ７０４Ａ）。正立方向の判定処理ができた場合（ステップＳ７０５Ａ、Ｙｅｓ）には、識別した正立方向に画像全体を回転させ、全行切り出し処理を行う（ステップＳ７０６Ａ）。
その後、処理終了後のＬｈ、Ｃｗの値を用いて、全行を対象にＯＣＲ処理対象外の文字の矩形領域を除外し（ステップＳ７０７Ａ）、除外後の文字の矩形領域の全てに対してＯＣＲ処理を実行する（ステップＳ７０８Ａ）（第９態様）。

【0067】

＜変形例１＞
図１０（ｂ）は本発明の第５実施形態に係わる画像処理装置（第９態様）の処理を表すフローチャートの変形例１である。
図１０（ｂ）に示すステップＳ７０１Ｂ～Ｓ７０８Ｂは、それぞれ図１０（ａ）に示すステップＳ７０１Ａ～Ｓ７０８Ａを変形したものである。
図１０（ｂ）において、本実施形態では、ステップＳ７０３ＢにおいてステップＳ４００を実行した後にＣｗ、Ｃｈの値を保持する（ステップＳ７０４Ｂ）。正立方向の判定処理ができた場合（ステップＳ７０５Ｂ、Ｙｅｓ）には、識別した正立方向に画像全体を回転させ、全行切り出し処理を行う（ステップＳ７０６Ｂ）。
その後、処理終了後のＣｗ、Ｃｈの値を用いて、全行を対象にＯＣＲ処理対象外の文字の矩形領域を除外し（ステップＳ７０７Ｂ）、除外後の文字の矩形領域の全てに対してＯＣＲ処理を実行する（ステップＳ７０８Ｂ）（第９態様）。

【0068】

＜変形例２＞
図１０（ｃ）は本発明の第５実施形態に係わる画像処理装置（第９態様）の処理を表すフローチャートの変形例２である。
図１０（ｃ）に示すステップＳ７０１Ｃ～Ｓ７０８Ｃは、それぞれ図１０（ａ）に示すステップＳ７０１Ａ～Ｓ７０８Ａを変形したものである。
図１０（ｃ）において、本実施形態では、ステップＳ７０３ＣにおいてステップＳ５００を実行した後にＣｗ、Ｃｈの値を保持する（ステップＳ７０４Ｃ）。正立方向の判定処理ができた場合（ステップＳ７０５Ｃ、Ｙｅｓ）には、識別した正立方向に画像全体を回転させ、全行切り出し処理を行う（ステップＳ７０６Ｃ）。
その後、処理終了後のＣｗ、Ｃｈの値を用いて、全行を対象にＯＣＲ処理対象外の文字の矩形領域を除外し（ステップＳ７０７Ｃ）、除外後の文字の矩形領域の全てに対してＯＣＲ処理を実行する（ステップＳ７０８Ｃ）（第９態様）。

【0069】

＜変形例３＞
図１０（ｄ）は本発明の第５実施形態に係わる画像処理装置（第９態様）の処理を表すフローチャートの変形例３である。
図１０（ｄ）に示すステップＳ７０１Ｄ～Ｓ７０８Ｄは、それぞれ図１０（ａ）に示すステップＳ７０１Ａ～Ｓ７０８Ａを変形したものである。
図１０（ｄ）において、本実施形態では、ステップＳ７０３ＤにおいてステップＳ６００を実行した後にＣｗ、Ｃｈの値を保持する（ステップＳ７０４Ｄ）。正立方向の判定処理ができた場合（ステップＳ７０５Ｄ、Ｙｅｓ）には、識別した正立方向に画像全体を回転させ、全行切り出し処理を行う（ステップＳ７０６Ｄ）。
その後、処理終了後のＣｗ、Ｃｈの値を用いて、全行を対象にＯＣＲ処理対象外の文字の矩形領域を除外し（ステップＳ７０７Ｄ）、除外後の文字の矩形領域の全てに対してＯＣＲ処理を実行する（ステップＳ７０８Ｄ）（第９態様）。

【0070】

このように、正立方向の判定処理時に見直した文字の矩形領域のサイズの上限値を、後段のＯＣＲ処理時にも利用する構成としたので、正立方向の判定処理が不定とならなかった場合には見直された矩形サイズが妥当である可能性が高く、後段のＯＣＲ処理時に（誤って）除外される文字を低減することができる。この結果、ＯＣＲ処理の認識率を向上することができる（第９態様の効果）。
なお、ＯＣＲ処理の対象となる文字の矩形領域のサイズに上限値を設ける方法は、本実施形態のようにＯＣＲ処理を行う前段で行う方法だけでなく、ＯＣＲ処理の中で行うことも可能である。すなわち、ＯＣＲ処理本体（ｅｘ．ＯＣＲ処理ライブラリ）にはすべてのサイズの矩形が入力されるが、該本体の中で所定サイズ以上の矩形領域の処理は行わない方法である。こうした場合、ＯＣＲ処理本体に対しては、処理の対象とすべき矩形領域の上限値がパラメータとして渡されることが通例であり、見直した後の上限値が、パラメータとして渡されるように構成すればよい。
なお、図５～１０は、第１０態様（第１態様～第９態様）の実施形態であって、第１態様～第９態様に対応した効果を奏するシステムを実現できる（第１０態様の効果）。また以上の記載により、第１１態様が容易に実施可能であることや、その効果も明らかである。

【0071】

＜本実施形態の態様例の作用、効果のまとめ＞
＜第１態様＞
本態様の画像処理装置は、画像データに含まれる文字画像の正立方向を識別し、正立方向に沿って通常の文字認識処理を行う画像処理装置であって、画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割する領域分割部７０ｂと、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する確信度算出部７０ｄと、確信度算出部７０ｄにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定部７０ｅと、制御部７０と、を備え、制御部７０は、正立方向判定部７０ｅが正立方向の判定を行う場合には、通常の文字認識処理を行うときよりも、領域分割部７０ｂに設定するサイズの上限値が大きくなるように制御することを特徴とする。
本態様によれば、領域分割部７０ｂに設定するサイズの上限値が大きくなるように制御することができるので、当初想定よりも大きな文字の矩形領域を投票の対象とすることができるため、正立方向の判定が不定になる場合を少なくでき、結果的に正立方向を識別する処理の精度を向上させることができる。

【0072】

＜第２態様＞
本態様の制御部７０は、サイズの実際値がサイズの上限値を超えない場合に、正立方向判定部７０ｅによる判定結果が不定となったときに、サイズの上限値がより大きくなるように制御することを特徴とする。
本態様によれば、正立方向判定部７０ｅによる判定結果が不定となったときに、初めて矩形領域のサイズを大きく設定するため、当初想定内である場合には影響を与えず、一方、当初想定外である場合にだけ、サイズの上限値がより大きくなるように制御するという適応的な処理が可能になる。

【0073】

＜第３態様＞
本態様の画像処理装置は、領域分割部７０ｂにより分割された矩形領域のうち、行または列内の矩形領域において、サイズの実際値が上限値を超える文字画像の数を計数する計数部７０ｃを備え、制御部７０は、計数部７０ｃにより計数された文字画像の数が行または列内で基準値以下である場合に、サイズの上限値がより大きくなるように制御することを特徴とする。
本態様によれば、計数部７０ｃにより計数された文字画像の数が行または列内で基準値以下である場合に、サイズの上限値がより大きくなるように制御することで、正立方向の判定に十分な矩形領域の数を確保できる場合が増え、判定結果が不定になる場合を少なくできる。この結果、正立方向を識別する処理の精度を向上することができる。

【0074】

＜第４態様＞
本態様の画像処理装置において、計数部７０ｃは、領域分割部７０ｂにより分割された矩形領域のうち、行または列内の矩形領域において、サイズの実際値が上限値を超える文字画像のうち、当該文字画像同士が隣接している隣接数を計数し、
制御部７０は、計数部７０ｃにより計数された文字画像の隣接数が行または列内で初めて２つ以上になる場合に、サイズの上限値がより大きくなるように制御することを特徴とする。
本態様によれば、ステップＳ５０５において、隣接した２つの矩形領域がともに除外された場合には、画像中の実際の文字サイズが想定よりも大きい可能性があるため、矩形領域のサイズの上限値を大きく設定することで、正立方向を識別するのに十分な矩形領域の数を確保できる場合が増え、正立方向が不定である場合を少なくできる。この結果、正立方向を識別する処理の精度を向上することができる。

【0075】

＜第５態様＞
本態様の制御部７０は、計数部７０ｃにより計数された文字画像の数が同一行内または同一列内で過半数ある場合に、サイズの上限値がより大きくなるように制御することを特徴とする。
本態様によれば、過半数の矩形領域が除外された場合には、画像中の実際の文字サイズが想定よりも大きい可能性が高いため、矩形領域のサイズの上限値を大きく設定することで、正立方向を識別する処理に十分な矩形領域の数を確保できる場合がより増え、正立方向が不定である場合を少なくできる。この結果、正立方向を識別する処理の精度を向上することができる。

【0076】

＜第６態様＞
本態様の制御部７０は、サイズの実際値がサイズの上限値を超える文字画像を抽出し、抽出した文字画像が隣接する行または列に跨がっている場合に、サイズの上限値を引き継ぐように制御することを特徴とする。
本態様によれば、文字画像が隣接する行または列に跨がっている場合に、サイズの上限値を引き継ぐように制御することで、効率的に上限値を更新することができる。

【0077】

＜第７態様＞
本態様の画像処理装置において、確信度算出部７０ｄが、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向のうち、少なくとも２方向に沿ってそれぞれ文字認識処理を行い、少なくとも２方向の確信度を算出し、
正立方向判定部７０ｅが、確信度算出部７０ｄにより算出された少なくとも２方向の各確信度が所定の閾値よりも大きい確信度を有する方向を正立方向として判定し、
制御部７０は、サイズの上限値を大きくなるように制御した場合に、確信度の閾値が大きくなるように制御することを特徴とする。
本態様によれば、当初想定よりも大きな文字の矩形領域を投票の対象とする分、確信度の閾値を高くすることで、実際には文字ではなく写真である矩形（本来文字らしくない矩形＝確信度の低いであろう矩形）が投票の対象となる弊害を避けることができる。これらの結果、弊害を軽減した状態で、文字の矩形領域の上限値を大きく設定することができ、結果的に正立方向の判定処理の精度を向上することができる。

【0078】

＜第８態様＞
本態様の正立方向判定部７０ｅは、確信度算出部７０ｄにより算出された４方向の各確信度のうち少なくとも１つが第１閾値を越えた場合に、確信度が最大となる方向に関してのみ確信度を積算し、各方向について積算した確信度を積算回数で除算した値が、第１閾値と異なる第２閾値を越えたときに、当該方向を正立方向とすることを特徴とする。
本態様によれば、文字に関する確信度は、１文字分だけでは信頼性が不足する。一方、極端に高い確信度は信用できるため、複数文字分の確信度を正規化した値に対する閾値（天地識別閾値）を、１文字に対する確信度閾値よりも大きく設定することで、正立方向の判定処理の精度を確保することができる。

【0079】

＜第９態様＞
本態様の制御部７０は、正立方向判定部７０ｅが正立方向の判定を行った場合に、通常の文字認識処理を行うときよりも、領域分割部７０ｂに設定するサイズの上限値が大きくなるように制御したときに、当該大きくされた上限値に基づいて、通常の文字認識処理における文字サイズの上限値を決定するように制御することを特徴とする。
本態様によれば、正立方向の判定処理時に見直した文字の矩形領域のサイズの上限値を、後段のＯＣＲ処理時にも利用する構成としたので、正立方向の判定処理が不定とならなかった場合には見直された矩形サイズが妥当である可能性が高く、後段のＯＣＲ処理時に（誤って）除外される文字を低減することができる。この結果、ＯＣＲ処理の認識率を向上することができる。

【0080】

＜第１０態様＞
本態様の画像処理方法は、画像データに含まれる文字画像の正立方向を識別し、正立方向に沿って通常の文字認識処理を行う画像処理方法であって、画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割する領域分割ステップと、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する確信度算出ステップと、確信度算出ステップにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定ステップと、制御ステップと、を実行し、制御ステップは、正立方向判定ステップが正立方向の判定を行う場合には、通常の文字認識処理を行うときよりも、領域分割ステップに設定するサイズの上限値が大きくなるように制御することを特徴とする。
本態様によれば、領域分割ステップに設定するサイズの上限値が大きくなるように制御することができるので、当初想定よりも大きな文字の矩形領域を投票の対象とすることができるため、正立方向の判定が不定になる場合を少なくでき、結果的に正立方向を識別する処理の精度を向上させることができる。

【0081】

＜第１１態様＞
本態様のプログラムは、プロセッサを、画像データに含まれる文字画像の正立方向を識別し、正立方向に沿って通常の文字認識処理を行う画像処理方法として機能させるためのプログラムであって、プロセッサを、画像データに含まれる文字画像毎に垂直方向、及び水平方向のサイズに上限値を設定して、上限値内の矩形領域に分割する領域分割ステップと、矩形領域内の文字画像を対象に垂直方向の＋方向、及び－方向、並びに水平方向の＋方向、及び－方向に沿ってそれぞれ文字認識処理を行い、４方向の確信度を算出する確信度算出ステップと、確信度算出ステップにより算出された４方向の各確信度のうち最大の確信度を有する方向を正立方向として判定する正立方向判定ステップと、制御ステップと、を備え、制御ステップは、正立方向判定ステップが正立方向の判定を行う場合には、通常の文字認識処理を行うときよりも、領域分割ステップに設定するサイズの上限値が大きくなるように制御することとして機能させる。
本態様によれば、領域分割ステップに設定するサイズの上限値が大きくなるように制御することができるので、当初想定よりも大きな文字の矩形領域を投票の対象とすることができるため、正立方向の判定が不定になる場合を少なくでき、結果的に正立方向を識別する処理の精度を向上させることができる。

【符号の説明】

【0082】

１…システム、１０…画像形成装置、１０１…ＣＰＵ、１０２…ＲＯＭ、１０３…ＲＡＭ、１０４…ＨＤ、１０５…ＨＤＤコントローラ、１０６…ディスプレイ、１１１…キーボード、１１２…ポインティングデバイス、１１４…ＲＷドライブ、１１５…記録メディア、２０…コントローラ、２２ａ…ＲＯＭ、２２ｂ…ＲＡＭ、２５ａ…ＣＰＵ、２５ｂ…ＮＢ、２６…ＡＳＩＣ、２８…ＨＤＤコントローラ、２９…ＨＤ、３０…エンジン制御部、３１…スキャナ部、３２…プリンタ部、４０…操作パネル、４０ａ…パネル表示部、４０ｂ…操作パネル、６０…近距離通信回路、６０ａ…通信回路、７０…制御部、７０ａ…二値画像入力部、７０ｂ…領域分割部、７０ｃ…計数部、７０ｄ…確信度算出部、７０ｅ…正立方向判定部、８０…ＰＣ、９０…ＰＣ

【先行技術文献】

【特許文献】

【0083】

【特許文献1】特開２０１２－１０４０２８公報

【図1】