特許7600805 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7600805画像処理装置、画像処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-12-09

(45)【発行日】2024-12-17

(54)【発明の名称】画像処理装置、画像処理方法およびプログラム

(51)【国際特許分類】

G06T 7/70 20170101AFI20241210BHJP

G06T 7/00 20170101ALI20241210BHJP

H04N 1/387 20060101ALI20241210BHJP

H04N 1/40 20060101ALI20241210BHJP

H04N 1/393 20060101ALI20241210BHJP

【ＦＩ】

G06T7/70 B

G06T7/00 350B

H04N1/387 200

H04N1/40 062

H04N1/393

【請求項の数】 9

(21)【出願番号】P 2021048174

(22)【出願日】2021-03-23

(65)【公開番号】P2022147074

(43)【公開日】2022-10-06

【審査請求日】2024-01-19

(73)【特許権者】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100110607

【弁理士】

【氏名又は名称】間山進也

(72)【発明者】

【氏名】伊藤真也

【審査官】山田辰美

(56)【参考文献】

【文献】特開２０１８－０８２２５８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／０１０５９１８（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００６／０２３０００４（ＵＳ，Ａ１）

【文献】米国特許第０８７８７７０２（ＵＳ，Ｂ１）

【文献】米国特許出願公開第２０１８／０１２９９４４（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

Ｈ０４Ｎ１／３８７

Ｈ０４Ｎ１／４０

Ｈ０４Ｎ１／３９３

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定する判定部と、
判定された前記原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択する選択部と、
前記入力画像を縮小した縮小画像を生成する縮小画像生成部と
前記入力画像の一部を部分画像として切り出す切出部と、
前記選択部により選択されたモデルと、前記縮小画像および前記部分画像のうちの該モデルに対応する画像とに基づいて、前記入力画像の天地識別結果を出力する出力部と
を含む、画像処理装置。

【請求項2】

前記判定部は、少なくとも前記入力画像における文字領域の比率に基づいて前記原稿の種別を判定する、請求項１に記載の画像処理装置。

【請求項3】

前記判定部は、前記入力画像における文字領域の比率が所定の条件を満たす場合に、さらに、前記入力画像における非文字領域の画像特徴量に基づいて、前記原稿の種別を判定する、請求項２に記載の画像処理装置。

【請求項4】

前記複数のモデルは、それぞれ、入力された画像に対する天地の方角を出力する推論モデルである、請求項１～３のいずれか１項に記載の画像処理装置。

【請求項5】

前記複数のモデルは、
入力された縮小画像に基づいて天地識別を行うよう学習された第１の推論モデルと、
入力された文字領域に対応する部分画像に基づいて天地識別を行うよう学習された第２の推論モデルと
を含む、請求項１～４のいずれか１項に記載の画像処理装置。

【請求項6】

前記選択部による選択は、入力される単位画像毎に切り替えられる、請求項１～５のいずれか１項に記載の画像処理装置。

【請求項7】

前記入力画像における文字領域および非文字領域を判定し、前記判定結果を生成する文字判定部をさらに含む、請求項１～６のいずれか１項に記載の画像処理装置。

【請求項8】

入力画像の天地を識別するための画像処理方法であって、コンピュータが、
入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定するステップと、
判定された前記原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択するステップと、
前記選択されたモデルと、前記入力画像を縮小した縮小画像および前記入力画像の一部を切り出した部分画像のうちの対応する画像とに基づいて、前記入力画像の天地識別結果を出力するステップと
を含む、画像処理方法。

【請求項9】

コンピュータを、
入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定する判定部、
判定された前記原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択する選択部、
前記入力画像を縮小した縮小画像を生成する縮小画像生成部、
前記入力画像の一部を部分画像として切り出す切出部、および
前記選択部により選択されたモデルと、前記縮小画像および前記部分画像のうちの該モデルに対応する画像とに基づいて、記入力画像の天地識別結果を出力する出力部
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理に関し、より詳細には、画像処理装置、画像処理方法およびプログラムに関する。

【背景技術】

【0002】

スキャナで原稿を読み取る際に、原稿の天地が上下逆の状態で、または、本来の原稿の向きとは異なる向き（例えば縦の原稿に対し横向き）で読み取ってしまう場合がある。従来より、このような状態で読み取られた原稿の天地を自動で識別して、天地が正常となる向きに補正する、天地識別、天地補正または原稿向き検知（以下、天地識別で統一して参照する。）と呼ばれる技術が知られている。光学文字認識（ＯＣＲ；Optical Character Recognition）技術を利用して天地識別を行う従来技術が知られている。

【0003】

例えば、天地識別技術に関連して、特開２０１１－００８５４９号公報（特許文献１）が知られている。特許文献１は、文字認識処理の速度を改善することを目的とした技術を開示する。特許文献１の従来技術は、日本語の辞書データおよび英語の辞書データを参照して、画像データに示される文字パターンの方向を上下左右の４方向の各々にした場合の各文字パターンと辞書データの文字パターンとのマッチングを行い、マッチングの結果に基づいて画像データの天地方向を判定する天地判定部と、辞書データを使用して画像データに対して文字認識処理を行う文字認識部と、文字認識部に使用させる辞書データとして、マッチングの結果に応じた言語の辞書データを選択する辞書選択部とを有している画像処理装置を開示する。

【0004】

上述した従来技術の天地識別は、文字が含まれる原稿については精度高く行えるものの、文字を認識するという技術の性質上、文字があまり多く含まれていない原稿、例えば写真などの原稿については精度が低下してしまう点で充分なものではなかった。そして、文字と文字以外の両方を含み得る読み取り原稿に対して、統合的に適切に天地識別を行うという観点で改良の検討の余地があった。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は、上記点に鑑みてなされたものであり、本開示は、文字および文字以外の画像を含み得る原稿の方向を適切に識別することが可能な画像処理装置を提供することを目的とする。

【課題を解決するための手段】

【0006】

本開示によれば、上記課題を解決するために、下記特徴を有する画像処理装置を提供する。画像処理装置は、入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定する判定部と、判定された原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択する選択部とを含む。画像処理装置は、また、入力画像を縮小した縮小画像を生成する縮小画像生成部と、入力画像の一部を部分画像として切り出す切出部とを含む。画像処理装置は、さらに、選択部により選択されたモデルと、縮小画像および部分画像のうちの該モデルに対応する画像とに基づいて、入力画像の天地識別結果を出力する出力部とを含む。

【発明の効果】

【0007】

上記構成により、文字や文字以外の画像を含み得る原稿の方向を適切に識別することが可能となる。

【図面の簡単な説明】

【0008】

【図1】図１は、本実施形態による画像処理装置としての複合機のハードウェア構成の実施形態を示す図。

【図2】図２は、他の実施形態による画像処理装置として用いられ得るコンピュータのハードウェア構成の実施形態を示す図である。

【図3】図３は、本実施形態による画像処理装置を含む画像形成装置の概略構成を示したブロック図。

【図4】図４は、本実施形態による画像処理装置を含む画像形成装置における天地識別部の詳細を示す機能ブロック図。

【図5】図５は、本実施形態による画像処理装置が実行する天地識別処理を示すフローチャート。

【図6】図６は、本実施形態における、画像データの文字画素の比率が閾値以上であるかの判定および画像データの非文字領域が平坦であるかの判定について説明する図。

【図7】図７は、本実施形態における、画像データの文字領域切り出し処理および画像データの縮小処理について説明する図。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態について説明するが、本発明の実施形態は、以下に説明する実施形態に限定されるものではない。なお、以下に説明する実施形態では、画像処理装置の一例として、画像読取機能および画像形成機能を備える画像形成装置を用いて説明する。

【0010】

図１は、本実施形態による画像処理装置を含む画像形成装置としてのＭＦＰのハードウェア構成図である。図１に示されているように、ＭＦＰ(Multifunction Peripheral/Product/Printer）９は、コントローラ９１０、近距離通信回路９２０、エンジン制御部９３０、操作パネル９４０、ネットワークＩ／Ｆ９５０を備えている。

【0011】

これらのうち、コントローラ９１０は、コンピュータの主要部であるＣＰＵ（Central Processing Unit）９０１、システムメモリ（ＭＥＭ－Ｐ）９０２、ノースブリッジ（ＮＢ）９０３、サウスブリッジ（ＳＢ）９０４、ＡＳＩＣ（Application Specific Integrated Circuit）９０６、記憶部であるローカルメモリ（ＭＥＭ－Ｃ）９０７、ＨＤＤ（Hard Disc Drive）コントローラ９０８、および、記憶部であるＨＤ（Hard Disk）９０９を有し、ＮＢ９０３とＡＳＩＣ９０６との間をＡＧＰ（Accelerated Graphics Port）バス９２１で接続した構成となっている。

【0012】

これらのうち、ＣＰＵ９０１は、ＭＦＰ９の全体制御を行う制御部である。ＮＢ９０３は、ＣＰＵ９０１と、ＭＥＭ－Ｐ９０２、ＳＢ９０４、およびＡＧＰバス９２１とを接続するためのブリッジであり、ＭＥＭ－Ｐ９０２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ（Peripheral Component Interconnect）マスタおよびＡＧＰターゲットとを有する。

【0013】

ＭＥＭ－Ｐ９０２は、コントローラ９１０の各機能を実現させるプログラムやデータの格納用メモリであるＲＯＭ９０２ａ、プログラムやデータの展開、およびメモリ印刷時の描画用メモリなどとして用いるＲＡＭ９０２ｂとからなる。なお、ＲＡＭ９０２ｂに記憶されているプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disc - Read Only Memory）、ＣＤ－Ｒ（Compact Disc Recordable）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

【0014】

ＳＢ９０４は、ＮＢ９０３とＰＣＩデバイス、周辺デバイスとを接続するためのブリッジである。ＡＳＩＣ９０６は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ（Integrated Circuit）であり、ＡＧＰバス９２１、ＰＣＩバス９２２、ＨＤＤ９０８およびＭＥＭ－Ｃ９０７をそれぞれ接続するブリッジの役割を有する。このＡＳＩＣ９０６は、ＰＣＩターゲットおよびＡＧＰマスタ、ＡＳＩＣ９０６の中核をなすアービタ（ＡＲＢ）、ＭＥＭ－Ｃ９０７を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のＤＭＡＣ（Direct Memory Access Controller）、ならびに、スキャナ部９３１およびプリンタ部９３２との間でＰＣＩバス９２２を介したデータ転送を行うＰＣＩユニットとからなる。なお、ＡＳＩＣ９０６には、ＵＳＢ（Universal Serial Bus）のインターフェースや、ＩＥＥＥ１３９４（Institute of Electrical and Electronics Engineers 1394）のインターフェースを接続するようにしてもよい。

【0015】

ＭＥＭ－Ｃ９０７は、コピー用画像バッファおよび符号バッファとして用いるローカルメモリである。ＨＤ９０９は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。ＨＤ９０９は、ＣＰＵ９０１の制御にしたがってＨＤ９０９に対するデータの読出または書込を制御する。ＡＧＰバス９２１は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、ＭＥＭ－Ｐ９０２に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。

【0016】

また、近距離通信回路９２０には、アンテナ９２０ａが備わっている。近距離通信回路９２０は、ＮＦＣ、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の通信回路である。

【0017】

さらに、エンジン制御部９３０は、スキャナ部９３１およびプリンタ部９３２によって構成されている。また、操作パネル９４０は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部９４０ａ、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキーおよびコピー開始指示を受け付けるスタートキー等からなる操作パネル９４０ｂを備えている。コントローラ９１０は、ＭＦＰ９全体の制御を行い、例えば、描画、通信、操作パネル９４０からの入力等を制御する。スキャナ部９３１またはプリンタ部９３２には、誤差拡散やガンマ変換などの画像処理部分が含まれている。

【0018】

なお、ＭＦＰ９は、操作パネル９４０のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能およびファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。

【0019】

また、ネットワークＩ／Ｆ９５０は、通信ネットワークを利用してデータ通信をするためのインターフェースである。近距離通信回路９２０およびネットワークＩ／Ｆ９５０は、ＰＣＩバス９２２を介して、ＡＳＩＣ９０６に電気的に接続されている。

【0020】

図２は、他の実施形態による画像処理装置としてのパーソナル・コンピュータ（ＰＣ）のハードウェア構成図である。図２は、ＰＣ（サーバ）のハードウェア構成図である。ここでは、サーバ５のハードウェア構成について説明する。

【0021】

図２に示されているように、サーバ５は、コンピュータによって構築されており、図２に示されているように、ＣＰＵ５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３、ＨＤ５０４、ＨＤＤ（Hard Disk Drive）コントローラ５０５、ディスプレイ５０６、外部機器接続Ｉ／Ｆ（Interface）５０８、ネットワークＩ／Ｆ５０９、データバス５１０、キーボード５１１、ポインティングデバイス５１２、ＤＶＤ－ＲＷ（Digital Versatile Disk Rewritable）ドライブ５１４、メディアＩ／Ｆ５１６を備えている。

【0022】

これらのうち、ＣＰＵ５０１は、サーバ５全体の動作を制御する。ＲＯＭ５０２は、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。ＨＤ５０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ５０５は、ＣＰＵ５０１の制御にしたがってＨＤ５０４に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ５０６は、カーソル、メニュー、ウィンドウ、文字、または画像などの各種情報を表示する。外部機器接続Ｉ／Ｆ５０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、ＵＳＢ（Universal Serial Bus）メモリやプリンタ等である。ネットワークＩ／Ｆ５０９は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスライン５１０は、図２に示されているＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

【0023】

また、キーボード５１１は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス５１２は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。ＤＶＤ－ＲＷドライブ５１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ５１３に対する各種データの読み出しまたは書き込みを制御する。なお、ＤＶＤ－ＲＷに限らず、ＤＶＤ－Ｒ等であってもよい。メディアＩ／Ｆ５１６は、フラッシュメモリ等の記録メディア５１５に対するデータの読み出しまたは書き込み（記憶）を制御する。

【0024】

図２に示すサーバ５は、例えばクラウドサービスとして、ＭＰＦから受信した読み取り画像の天地識別結果または天地識別結果に基づく画像補正の結果をＭＦＰに送信する装置などとして構成することができる。あるいは、サーバ５と同様な構成で、デスクトップにおいて、保存された読み取り画像の天地識別結果または天地識別結果に基づく画像補正の結果を得る装置として用いることができる。

【0025】

図３は、本実施形態による画像処理装置を含む画像形成装置の概略構成を示したブロック図である。図３に示す画像形成装置１００は、画像読取部１１０と、第１画像処理装置１２０と、画像形成部１４０と、記憶部１５０と、第２画像処理装置１６０と含み構成される。なお、図３に示すブロック図は、図１に示すような、画像読取機能および画像形成機能を備える画像形成装置に適用した実施形態に対応する。

【0026】

画像読取部１１０は、原稿１０２から画像データを読み取る装置である。画像読取部１１０は、図１に示すスキャナ部９３１に対応する。画像読取部１１０は、読み取った画像データを第１画像処理装置１２０へ送出する。画像形成部１４０は、第１画像処理装置１２０が出力した画像データを転写部材に転写し、複写物１０４を出力する。画像形成部１４０は、転写印字ユニットであり、図１に示すプリンタ部９３２に対応する。以下、図３を参照しながら、コピー画像を得る処理フローを併せて説明する。

【0027】

第１画像処理装置１２０は、ガンマ補正部１２２と、領域検出部１２４と、プリンタ補正部１２６と、色処理／ＵＣＲ部１２８と、データインタフェース部１３０とを含み構成される。

【0028】

ガンマ補正部１２２は、画像読取部１１０が読み取ったデータ（例えば、Ａ／Ｄ変換後のＲＧＢ各色８ビット）を、色毎の階調バランスを揃えるために各信号に一次元変換を施す。ここでは説明のため、変換後は、濃度リニア信号（ＲＧＢ信号：白を意味する信号値を０とする。）であるとする。ガンマ補正部１２２の出力は、領域検出部１２４と、データインタフェース部１３０とへ送出される。

【0029】

領域検出部１２４は、読み取った画像中の注目画素あるいは注目画素ブロックが文字領域であるか非文字領域（すなわち写真や絵柄な度に対応する画素あるいは領域）であるかを判定する。領域検出部１２４は、また、有彩色か無彩色かの判定を行うことができる。なお、色判定の結果に応じて、原稿に適した色再現処理が色処理／ＵＣＲ部１２８で行われる。

【0030】

データインタフェース部１３０は、領域検出部１２４からの判定結果およびガンマ補正後の画像データを記憶部１５０に一時保存する際の記憶装置管理インタフェースである。

【0031】

一方、ガンマ補正後の画像データと領域検出部１２４からの検出結果が、データインタフェース部１３０から色処理／ＵＣＲ部１２８へ送出される。色処理／ＵＣＲ部１２８は、画素あるいは画素ブロックごとの判定結果に基づいて、色処理やＵＣＲ処理を選択する。プリンタ補正部１２６では、色処理／ＵＣＲ部１２８からのＣ（シアン）、Ｍ（マゼンダ）、Ｙ（イエロー）、Ｂｋ（ブラック）の画像信号を受信し、プリンタ特性を考慮したガンマ補正処理とディザ処理を施し、画像形成部１４０へ送出する。

【0032】

第２画像処理装置１６０は、記憶部１５０に一時保存されたガンマ補正後の画像データを受けて、これに対し、天地識別を行い、天地識別で得られた結果を用いて、ＰＤＦ（Portable Document Format）FやＯｆｆｉｃｅＯｐｅｎＸＭＬＤｏｃｕｍｅｎｔ形式などの所定のファイルフォーマット（形式）に変換する。

【0033】

第２画像処理装置１６０は、より具体的には、文字判定部１６２と、天地識別部１６４と、ファイルフォーマット変換部１９０とを含み構成される。

【0034】

文字判定部１６２は、ガンマ補正後の画像データに対して、文字判定処理を適用する。文字判定部１６２は、第１画像処理装置１２０の領域検出部１２４が行うものと同様の文字判定処理を行い、入力画像における文字領域および非文字領域を判定し、判定結果を生成する。文字判定部１６２は、より具体的には、読み取った画像中の注目画素あるいは注目画素ブロックそれぞれが文字領域であるか非文字領域であるかを判定する。ガンマ補正後の画像データと、文字判定処理を適用した結果（以下、文字判定処理結果と参照します。）とは、天地識別部１６４に出力される。

【0035】

天地識別部１６４は、文字判定部１６２より出力された文字判定処理結果に基づいて、文字画素の比率や非文字領域などの特徴から原稿タイプを判別して、原稿タイプに関連付けられた前処理をガンマ補正後の画像データに対して適用する。そして、天地識別部１６４は、判別した原稿タイプに同じく関連付けられた推論モデルに対して、前処理済み画像データを入力し、原稿の天地識別を行う。天地識別部１６４で得られた天地識別結果は、ファイルフォーマット変換部１９０に出力される。

【0036】

ファイルフォーマット変換部１９０は、天地識別部１６４より出力された天地識別結果を用いて、ＰＤＦやＯＯＸＭＬ形式などの所定のファイルフォーマット（形式）に変換する。例えば、天地識別結果に基づいて、各ページの原稿の向きに応じて右または左回転させることによって、一連の原稿の向きを揃えることができる。

【0037】

なお、説明する実施形態では、天地識別部１６４による天地識別で用いる文字判定処理は、第２画像処理装置１６０の文字判定部１６２で計算されるものとして説明した。しかしながら、上述したように、第１画像処理装置１２０側の領域検出部１２４も文字判定を行う機能を備える場合がある。この場合に、第２画像処理装置１６０に文字判定部１６２を設けずに、領域検出部１２４による文字判定処理結果を第１画像処理装置１２０から取得するように構成されていてもよい。

【0038】

なお、図３に示す実施形態では、各機能部は、第１画像処理装置１２０および第２画像処理装置１６０に分けて設けられているように説明されているが、これらをまとめて単一の装置上に構成してもよいし、第１画像処理装置１２０に設けられている機能部や第２画像処理装置１６０に設けられている機能部をさらに複数に分散して設けててもよく、特に限定されるものではない。

【0039】

図４は、本実施形態による画像処理装置を含む画像形成装置における天地識別部１６４のより詳細な機能ブロック図である。図４に示すように、天地識別部１６４は、推論モデル選択部１６６と、天地識別前処理部１６８と、天地識別推論部１７８とを含み構成される。

【0040】

図３に示した記憶部１５０からの画像データと、文字判定部１６２からの該画像データに対する文字判定処理結果とが天地識別部１６４に入力される。推論モデル選択部１６６は、入力された画像データにおける文字領域および非文字領域の文字判定処理結果に基づいて原稿の種別を判定する判定部１６７を含む。より具体的には、判定部１６７は、文字判定部１６２からの画像データに対する文字判定処理結果に基づいて、画像全体における文字領域の比率（割合）や非文字領域における画像の特徴量から原稿の種別（写真原稿や文書原稿など原稿タイプ）を判別する。推論モデル選択部１６６は、判定された原稿の種別に基づいて、該種別に事前に関連付けられた天地識別の際の推論時に使用する推論モデルを選択する。

【0041】

この際の原稿タイプの種類数と推論モデルの種類数については、特に限定されるものではなく、２以上の任意の数とすることができる。以下、２つの推論モデルが用意されているものとして説明を続ける。記憶部１５０からの画像データと、推論モデル選択部１６６で選択された推論モデルを識別する情報（以下、推論モデル情報と参照します。）と、図３に示す文字判定部１６２による画像データに対する文字判定処理結果とが天地識別前処理部１６８に入力される。

【0042】

天地識別前処理部１６８は、推論モデル選択部１６６で選択された推論モデル情報に基づき、前処理を適用する。前処理の例として、写真などの文字が少ない原稿などに対して適用するための第１の推論モデルについては、記憶部１５０からの各原稿の画像データについて、原稿全体に対する縮小処理を適用する。縮小処理の結果である原稿全体の縮小画像が、第１推論モデルが選択された場合の前処理済み画像データである。縮小処理は、最近傍補間（nearest neighbor interpolation）や線形補間（Bilinear）など任意の縮小アルゴリズムを用いることができ、これらに限定されるものではない。一方、オフィス文書や論文など文字（特に文字サイズの小さい文字）が多い原稿に対して適用する第２の推論モデルについては、記憶部１５０からの画像データに対して、文字判定部１６２による画像データに対する文字判定処理結果に基づいて、文字領域を算出して、文字を含む矩形領域を切り出す。この切り出した結果である原稿の文字領域の一部画像が、第２推論モデルが選択された場合の前処理済み画像データである。

【0043】

推論モデル選択部１６６で選択された推論モデル情報と、天地識別前処理部１６８にて推論モデル情報に基づき前処理が適用された結果（前処理済み画像データ）とが天地識別推論部１７８に入力される。

【0044】

天地識別推論部１７８は、天地識別前処理部１６８から出力された、前処理が適用された結果（前処理済み画像データ）を、推論モデル選択部１６６で選択された推論モデル情報を参照して、推論モデルに切り替えて入力し、天地識別の推論を行い、天地識別結果を出力する。天地識別結果は、北（north）/東（east）/西（west）/南（south）のいずれかを示す。天地識別推論部１７８から出力された天地識別結果は、ファイルフォーマット変換部１９０に入力され、ファイルフォーマット変換部１９０で天地識別結果に応じた処理が実行される。

【0045】

図４には、さらに、天地識別前処理部１６８のより詳細な機能構成が示されている。図４に示すように、天地識別前処理部１６８は、前処理切替部１７０と、縮小画像生成部１７２と、文字領域切出部１７４と、前処理結合部１７６とを含み構成される。

【0046】

記憶部１５０から入力された画像データと、推論モデル選択部１６６で選択された推論モデル情報と、文字判定部１６２による画像データに対する文字判定処理結果とが天地識別前処理部１６８に入力される。

【0047】

前処理切替部１７０は、記憶部１５０からの画像データと、推論モデル選択部１６６で選択された推論モデル情報と、文字判定部１６２からの画像データに対する文字判定処理結果を入力として受け取る。前処理切替部１７０は、その入力の一つである推論モデル情報を参照して、入力される単位画像毎、例えば原稿１枚毎に、適用する前処理を切り替える。

【0048】

具体的には、図４の推論モデル選択部１６６にて第１推論モデルが選択された場合の前処理は、原稿全体に対する縮小処理となる。記憶部１５０から入力された画像データと、推論モデル選択部１６６で選択された推論モデル情報とが、縮小画像生成部１７２に入力される。一方で、推論モデル選択部１６６にて第２推論モデルが選択された場合の前処理は、文字領域を算出して、文字を含む矩形領域を切り出す処理となる。記憶部１５０から入力された画像データと、推論モデル選択部１６６で選択された推論モデル情報と、文字判定部１６２による画像データに対する文字判定処理結果とが、文字領域切出部１７４に入力される。

【0049】

特定の実施形態において、天地識別前処理部１６８における縮小画像生成部１７２および文字領域切出部１７４のいずれを用いるかの選択は、各原稿の画像データ単位で行われ、ひとつ（１頁）の原稿内においてこの選択は排他的となる。つまり、この特定の実施形態において、縮小画像生成部１７２および文字領域切出部１７４の両方が同時に選択されることはない。

【0050】

縮小画像生成部１７２は、記憶部１５０からの画像データに対し縮小処理を適用する。縮小処理は、最近傍補間（nearest neighbor interpolation）や線形補間（Bilinear）など、採用する縮小アルゴリズムを限定するものではない。また、画像の縮小時に、縮小の前後で画像のアスペクト比を維持する（等倍）か、あるいは、無視するか（変倍）についても限定するものではない。縮小画像生成部１７２にて縮小された画像データ（前処理済み画像データ）と、推論モデル選択部１６６で選択された推論モデル情報とが前処理結合部１７６に入力される。

【0051】

文字領域切出部１７４では、文字判定部１６２による画像データに対する文字判定処理結果に基づいて、任意の位置にある文字領域（文字画素群）を選択して、選択した文字領域に対応する画像データの領域を切り出す（クロッピング）する。文字領域切出部１７４で切り出された画像データ（前処理済み画像データ）と、推論モデル選択部１６６で選択された推論モデル情報とが前処理結合部１７６に入力される。

【0052】

なお、縮小画像生成部１７２は、入力画像全体を縮小した縮小画像を生成するものとして説明し、文字領域切出部１７４は、縮小を伴わずに画像の一部を切り出すものとして説明した。このような構成は、好ましいものの、必ずしもこのような構成に限定されない。縮小画像生成部１７２は、文字領域切出部１７４が切り出された部分よりも大きな領域の画像を縮小する限りにおいて、全体ではなく入力画像の一部を縮小した画像を生成することを含み、縮小を優先した前処理を行うものといえる。一方で、文字領域切出部１７４は、縮小画像生成部１７２が縮小する元の画像よりも小さな領域を切り出す限りにおいて、縮小を伴うことを排除するものではなく、画像の一部の切り出しを優先した前処理を行うものといえる。

【0053】

前処理結合部１７６は、前処理済み画像データ（縮小画像生成部１７２で生成された縮小画像データ、または、文字領域切出部１７４で切り出された部分画像データ）に対し、推論モデル選択部１６６で選択された推論モデル情報を付与する。前処理結合部１７６は、天地識別前処理部１６８と、図４の天地識別推論部１７８とを繋ぐインターフェースの役割を有する。

【0054】

図４には、さらに、天地識別推論部１７８のより詳細な機能構成が示されている。図４に示すように、天地識別推論部１７８は、推論モデル切替部１８０と、第１推論モデル１８２と、第２推論モデル１８４と、天地識別結合部１８６とを含み構成される。

【0055】

前処理済み画像データ（縮小画像生成部１７２で生成された縮小画像データまたは、文字領域切出部１７４で切り出された部分画像データ）と推論モデル選択部１６６で選択された推論モデル情報とが天地識別推論部１７８に入力される。

【0056】

推論モデル切替部１８０は、前処理済み画像データおよび推論モデル情報を入力として受け取る。推論モデル切替部１８０は、推論モデル情報を参照して、原稿１枚ごとに前処理済み画像データを入力する推論モデルを切り替える。

【0057】

第１推論モデル１８２は、写真などの文字が少ない原稿などに対して適用するための推論モデルである。特定の実施形態において、第１推論モデル１８２は、スキャン画像全体を縮小した画像を入力することを前提に学習された推論モデルである。また、第１推論モデル１８２の学習データには、写真などの文字が少ない画像とその画像の天地の向きを示す正解ラベルとが含まれ、教師有り学習などの適切な機械学習技術などによって学習され得る。

【0058】

第２推論モデル１８４は、オフィス文書や論文など文字（特に文字サイズの小さい文字）が多い原稿に対して適用する推論モデルである。第２推論モデル１８４は、スキャン画像の文字部を多く含む領域を特定サイズで切り抜かれた画像を入力することを前提に学習された推論モデルである。また、第２推論モデル１８４の学習データには、文字部を多く含む画像とその画像の天地の向きを示す正解ラベルとが含まれ、などの適切な機械学習技術などによって学習され得る。

【0059】

第１推論モデル１８２および第２推論モデル１８４は、いわゆる分類器としての機械学習モデルであり得る。好ましい実施形態では、第１推論モデル１８２および第２推論モデル１８４は、それぞれ、深層学習によって学習されたニューラルネットワークモデルなどであってよい。なお、第１推論モデル１８２および第２推論モデル１８４は、深層学習に基づくモデルに限定されない。例えば、第２の推論モデルは、ＯＣＲに基づいて原稿の天地を識別する既存の技術であってもよい。

【0060】

天地識別結合部１８６は、第１推論モデル１８２および第２推論モデル１８４による天地識別の推論の結果を統合し、ファイルフォーマット変換部１９０に入力する。つまりは、天地識別結合部１８６は、天地識別推論部１７８と、ファイルフォーマット変換部１９０とを繋ぐインターフェースの役割を持つ。

【0061】

なお、上述までの説明では、天地識別前処理部１６８における縮小画像生成部１７２および文字領域切出部１７４の選択および使用する推論モデルの選択は、排他的であるとして説明した。しかしながら、他の実施形態では、推論モデルおよび前処理の選択は、排他的でなくてもよい。例えば、複数の推論モデルの前処理および推論を並列に実施し、推論結果を一次結果として取得し、判別した原稿の種別および複数の一次推論結果に基づいて最終的な結果を判断することとしてもよい。具体的には、複数の推論モデルおよび対応する複数の前処理により天地識別を実行し、得られた天地識別一次結果を、原稿種別に応じた重みづけ評価することができる。例えば、分類器による分類結果には、通常、分類結果の確信度が計算可能であるため、複数の推論モデルから得られた結果の信頼度を原稿タイプに応じて重みづけ評価して、重みづけ後の信頼度の高い天地識別一次結果を採用することによって最終的な天地識別結果を得ることとしてもよい。

【0062】

つまり、１または複数の実施形態において、推論モデル選択部１６６は、判定された原稿の種別に基づいて、複数の推論モデルの中から少なくとも優先的に用いる推論モデルを選択する。特定の実施形態においては、推論モデル選択部１６６は、判定された原稿の種別に基づいて、複数のモデルの中から排他的に使用する推論モデルを選択する。他の特定の実施形態では、推論モデル選択部１６６は、判定された原稿の種別に基づいて、複数のモデルの中から最も大きな重みを与えて使用する推論モデルを選択する。

【0063】

以下、図５を参照しながら、本実施形態による天地識別処理について説明する。図５は、本実施形態による画像処理装置が実行する天地識別処理を示すフローチャートである。なお、図５に示す処理は、原稿１枚の画像データごとに、文字判定部１６２および天地識別部１６４を実装するプロセッサが実行するものとする。

【0064】

図５に示す処理は、第２画像処理装置１６０に記憶部１５０からの画像データが入力されたことに応答して、ステップＳ１００から開始される。ステップＳ１０１では、プロセッサは、文字判定部１６２により、画像データに対して文字判定処理を行う。文字判定処理により、各画素または画素ブロックが文字領域であるか、または非文字領域であるかの判別が行われ、文字判定処理結果が得られる。

【0065】

ステップ１０２では、プロセッサは、推論モデル選択部１６６により、画像データに対する文字判定処理結果に基づいて、画像データにおける文字画素の比率（割合）が予め設定された閾値以上であるかを判定する。ステップ１０２で、画像データの文字画素の比率が予め設定された閾値未満であると判定された場合（ＮＯ）は、ステップＳ１０３へ処理が分岐される。

【0066】

ステップＳ１０３では、プロセッサは、推論モデル選択部１６６により、さらに、画像データにおける非文字領域の画像特徴量を計算する。１または複数の実施形態においては、計算される画像特徴量としては、特に限定されるものではないが、画像データの非文字領域における画素値の分散（Variance）などの統計的な特徴量を挙げることができる。ここで、分散は、所定範囲の画素値（ここでは、全非文字領域）の画素値の２乗平均と平均の２乗の差でによって求めることができ、分散は、画素値ばらつぎ具合の指標値となる。ステップＳ１０４では、プロセッサは、推論モデル選択部１６６により、ステップＳ１０３で計算された画像特徴量に基づいて、画像データの非文字領域が平坦であるか否かを判定する。分散が所定の閾値より小さい場合は、平坦であると判定される。

【0067】

ステップＳ１０４で、平坦であると判定された場合（ＹＥＳ）は、ステップＳ１０５へ処理が分岐される。ステップ１０２を再び参照すると、ステップＳ１０２で、画像データの文字画素の比率が、予め設定された閾値以上であると判定された場合（ＹＥＳ）も、ステップＳ１０５へ処理が分岐される。一方、ステップＳ１０４で、画像データの非文字領域が平坦ではないと判定された場合（ＮＯ）は、ステップＳ１０７へ処理が分岐される。下記表１に分岐の仕方をまとめる。なお、下記表１では、ステップＳ１０２の判断でＹＥＳの場合、さらに、ステップＳ１０４の判断でＹＥＳであるかＮＯであるかに応じて異なる種類の原稿（地肌が平坦な文書原稿および文字写真原稿）に分かれるものとして説明されているが、ステップＳ１０４の判断にかかわらず、用いる前処理および推論モデルが定まるという観点から、これらは、同種の原稿で有るとしてもよいし、これらをさらに、同一の前処理および推論モデルに紐付けられる複数の原稿の種別に分類することを妨げるものではない。

【0068】

【表1】

【0069】

ステップＳ１０５では、プロセッサは、推論モデル選択部１６６により、第２推論モデル１８４を使用することを決定し、その旨の推論モデル情報を画像データに付加する。ステップＳ１０６では、プロセッサは、第２推論モデル１８４を示す推論モデル情報に基づいて、文字領域切出部１７４により、画像データの文字判定処理結果に基づいて任意の位置にある文字領域（文字画素群）を選択して、選択した文字領域に対応する画像データを切り出して（クロッピングして）、部分画像データを生成する。切り出す際のサイズは、第２推論モデル１８４に入力する画像サイズとなる。

【0070】

これに対して、ステップＳ１０７では、プロセッサは、推論モデル選択部１６６により、第１推論モデル１８２を使用することを決定し、その旨の推論モデル情報を画像データに付加する。ステップＳ１０８では、プロセッサは、第１推論モデル１８２を示す推論モデル情報に基づいて、縮小画像生成部１７２により、画像データを縮小処理し、画像全体の縮小画像データを生成する。このときの縮小変倍処理は、最近傍補間（nearest neighbor interpolation）や線形補間（Bilinear）など任意の縮小アルゴリズムを採用することができる。また、画像の縮小時に、縮小前後で画像のアスペクト比を維持するか、または無視するかについても限定されない。縮小後のサイズが、第１推論モデル１８２に入力する画像サイズとなる。

【0071】

ステップＳ１０５またはＳ１０８の処理が終了すると、ステップＳ１０９に処理が移行される。ステップＳ１０９では、プロセッサは、前処理結合部１７６により、ステップＳ１０６の処理で切り出した部分画像データの文字領域またはＳ１０８の処理で生成した縮小画像データ（前処理画像データと呼称する。）に対し、後続するＳ１１０の処理で使用する推論モデルの情報を付与する。より具体的には、Ｓ１０８の処理で生成した縮小画像データに対しては、第１推論モデル１８２を、Ｓ１０５の処理で生成した切り出し画像に対しては、第２推論モデル１８４を、推論時に使用するモデルとしての情報を付与する。Ｓ１０９の処理が終了すると、Ｓ１１０に処理が移行する。

【0072】

ステップＳ１１０では、プロセッサは、天地識別推論部１７８により、ステップＳ１０９で付与された推論時に使用するモデル情報に基づき、前処理画像データを、対応する推論モデルに入力して推論を行う。具体的には、Ｓ１０８の処理で生成した縮小画像は、第１推論モデル１８２に、Ｓ１０６の処理で切り出した文字領域の部分画像データは、第２推論モデル１８４に入力する。推論結果（天地識別結果）は、北（north）/東（east）/西（west）/南（south）のいずれかとなる。なお、説明する実施形態では、天地方向として、４つの方角のいずれかに分類されるものとして説明し、天地識別としては、４方向で充分であるが、分類数は、特に限定されるものではない。

【0073】

ステップＳ１１０の処理が終了すると、文字判定部１６２および天地識別部１６４としての処理は終了する。

【0074】

図６は、ステップＳ１０２の処理で行われる画像データの文字画素の比率が閾値以上であるかの判定およびＳ１０４の処理で行われる画像データの非文字領域が平坦であるかの判定について説明する図である。なお、図６において、説明の便宜上、画像に黒枠が付されているが、当然に、対象となる画像は、黒枠がなくてもよい。

【0075】

まず、第１推論モデルが適用される写真などの文字が少ない原稿について説明する。ここで、図６（Ａ）に示すような入力画像が与えられるものとする。図６（Ａ）に示す画像データに対して文字判定処理を行った結果が、図６（Ｂ）に示したような二値画像である。図６（Ｂ）においては、黒画素が文字領域に属する画素を表し、白画素が非文字領域に属する画素を表している。例えば図６（Ａ）のような写真（あるいは絵柄）が全体の大部分を占める入力画像に対して、第２画像処理装置１６０の処理を実施しようとする場合、文字判定部１６２（Ｓ１０１の処理）において、図６(Ｂ)に示すような二値画像の文字判定処理結果が出力される。

【0076】

図６（Ｂ）が天地識別部１６４に入力されると、推論モデル選択部１６６による処理（Ｓ１０２～Ｓ１０４の処理）が実施される。推論モデル選択部１６６によるステップＳ１０２においては、図６（Ｂ）ような文字判定処理結果に対して、文字画素をカウントして、カウントした文字画素数の、画像全体の画素数に対する比率が事前設定された閾値以上か否かが判定される。ここでは説明の便宜上、閾値を５０％と設定するものとする。図６（Ａ）のような入力画像の場合、写真が全体の大部分を占めているため、図６（Ｂ）のような文字判定処理結果は、文字画素が全体に対して占める比率も少なく、文字画素数も少ない値（ここでは説明のため、画像全体の画素数１００００に対して、文字画素５００とする。）となる。図６（Ａ）の場合、文字画素数（１００００画素に対する５００画素であるため、５％）は、閾値（５０％）未満となるため、Ｓ１０２の処理としては、ＮＯという判定結果となる。

【0077】

ステップＳ１０２の処理でＮＯという判定結果を得た場合、ステップＳ１０３およびステップＳ１０４の処理が実施される。推論モデル選択部１６６のステップＳ１０３およびステップＳ１０４においては、図６（Ｂ）のような文字判定処理結果に対して、非文字領域が平坦であるか否かが判定される。非文字領域の平坦の判定については、図６（Ｂ）に示す二値画像の非文字画素に相当する図６（Ａ）に示す入力画像の非文字領域から算出した分散から判定することができる。図６（Ａ）に示すような入力画像である場合、図６（Ｂ）の非文字画素に相当する領域は写真部分となるため、非文字領域が平坦ではなく、ステップＳ１０４の処理としてはＮＯという判定結果となる。上記のように、ステップＳ１０２の処理でＮＯであり、かつ、ステップＳ１０４の処理でＮＯという判定が下された場合、第１推論モデルが適用される。

【0078】

引き続き、第２推論モデルが適用されるオフィス文書や論文など文字（特に文字サイズの小さい文字）が多い原稿について説明する。ここで、図６（Ｃ）に示すような入力画像が与えられるものとする。図６（Ｃ）に示す画像データに対して文字判定処理を行った結果が、図６（Ｄ）に示したような二値画像である。図６（Ｃ）に示すように、文書の一部に写真（あるいは絵柄）がある画像データの場合、図６（Ｄ）に示すように画像データのうちの文書の部分に対応する部分が黒の二値画像が得られる。

【0079】

例えば図６（Ｃ）のような微小文字が全体の大部分を占める入力画像に対して、第２画像処理装置１６０の処理を実施しようとする場合、文字判定部１６２（Ｓ１０１の処理）において、図６（Ｄ）のような文字判定処理結果（２値画像）が出力される。

【0080】

図６（Ｄ）に示す画像が天地識別部１６４に入力されると、推論モデル選択部１６６（Ｓ１０２～Ｓ１０４の処理）が実施される。推論モデル選択部１６６のＳ１０２の処理としては、図６（Ｄ）のような文字判定処理結果（２値画像）に対して、文字画素をカウントして、カウントした文字画素数の、画像全体の画素数に対する比率があらかじめ設定された閾値以上かを判定する。ここでは説明のため、この閾値を５０％と設定する。図６（Ｃ）に示す入力画像であれば、微小文字が全体の大部分を占めているため、図６（Ｄ）に示す文字判定処理結果は文字画素が全体に対して占める比率も大きく、文字画素数も大きい値（ここでは説明のため、画像全体の画素数が１００００に対して、文字画素が７０００であるとする）となる。

【0081】

図６（Ｃ）に示す入力画像の場合、文字画素数（１００００画素に対する７０００画素であるため、比率は７０％である。）は、閾値（５０％）以上となるため、Ｓ１０２の処理としてはＹＥＳという判定結果となる。ステップＳ１０２の処理でＹＥＳという判定結果を得た場合、Ｓ１０３およびＳ１０４の処理は実施されない。上記のように、Ｓ１０２の処理でＹＥＳという判定結果を得た場合、第２推論モデルが適用される。

【0082】

図７は、Ｓ１０６の処理で行われる画像データの文字領域切り出し処理やＳ１０８の処理で行われる画像データの縮小処理について説明する図である。なお、図６と同様に、説明の便宜上、画像には黒枠を付けている。ステップＳ１０６の処理、Ｓ１０８の処理は共に、第１推論モデルおよび第２推論モデルに入力する前に適用する前処理に相当する。

【0083】

まずは、第１推論モデル１８２に適用される前処理について説明する。推論モデル選択部１６６までの（Ｓ１０４までの）処理で、第１推論モデルを適用するものと判定された場合、図６（Ａ）のような入力画像が、縮小画像生成部１７２（Ｓ１０８の処理）に入力される。縮小画像生成部１７２のＳ１０８の処理としては、図６（Ａ）のような入力画像に対して、縮小処理を適用する。このときの縮小処理は最近傍補間（nearest neighbor interpolation）や線形補間（Bilinear）など、採用する縮小変倍アルゴリズムを限定するものではない。また、画像の縮小時に、変倍前後で画像のアスペクト比を維持するか、または、無視するかについても限定するものではない。図６（Ａ）のような入力画像に対して、Ｓ１０８の縮小処理を適用すると、図７（Ａ）のような縮小画像となる。縮小後のサイズが推論モデルに入力する画像サイズとなる。図７（Ａ）の縮小画像は、前処理結合部１７６を経由して天地識別推論部１７８に入力され、第１推論モデル１８２にて天地識別としての推論が実施される。

【0084】

続いて、第２推論モデル１８４に適用される前処理について説明する。推論モデル選択部１６６までの（Ｓ１０４までの）処理で、第２推論モデル１８４を適用するものと判定された場合、図６（Ｃ）のような入力画像と、文字判定部１６２（Ｓ１０１の処理）で出力された図６（Ｄ）のような、図６（Ｂ）に示す画像データの文字判定処理結果が文字領域切出部１７４（Ｓ１０６の処理）に入力される。

【0085】

文字領域切出部１７４のＳ１０６の処理としては、図６（Ｄ）のような、図６（Ｃ）に示す画像データの文字判定処理結果に対して任意のサイズの矩形領域に含まれる文字領域を検出する。図７（Ｄ）は、図６（Ｄ）に対して検出した文字領域を含む任意のサイズの矩形領域を黒枠で示している。ステップＳ１０６の処理としてはさらに、図７（Ｄ）で示した黒枠に対応する入力画像の領域（図７（Ｃ）で示している）を切り出す。切り出した文字領域切出画像（図７（Ｂ））は、前処理結合部１７６を経由して天地識別推論部１７８に入力され、第２推論モデル１８４にて天地識別としての推論が実施される。

【0086】

以上説明した実施形態によれば、文字および文字以外の画像を含み得る原稿の方向を適切に識別することが可能な画像処理装置、画像処理方法およびプログラムを提供することが可能となる。

【0087】

上述したように、天地識別技術として、深層学習によるニューラルネットワークモデルなどの推論モデルを用いて実現する手法がある。深層学習技術を使って天地識別を行う手法は、ＯＣＲに基づく手法と比較して、文字のない写真などの原稿に対する優位性はある。一方で、消費メモリの関係上、画像を縮小して推論モデルに入力することが一般的である。特に前処理を行うことなく、画像に対して一律の縮小を行った場合（多くの場合、長方形の解像度が比較的高い読み取り原稿画像を、推論モデルの入力層に合わせた正方形の解像度の比較的小さな画像に変倍縮小される。）、原稿に書かれている文字が微小文字であるほど、縮小変倍時に文字情報が失われ、天地識別の精度が困難となる。

【0088】

上述した技術によれば、複数のモデルが選択され、さらに、モデルに対する縮小を優先した前処理および画像の一部の切り出しを優先した前処理という複数の前処理が用意されている。そのため、原稿の種別に応じて、優先的に用いるモデルを切り替えることが可能となる。ひいては、微小文字を多く含む原稿であっても、他の種別の原稿（写真など）と同等の天地識別精度を実現させることが可能となる。従来のＯＲＣを使った天地識別手法と比較して、写真などの原稿に対する天地識別精度の向上が期待できるとともに、深層学習技術を採用したことによる消費メモリの軽減とのトレードオフとしての精度低下が懸念とされていた微小文字を多く含む原稿についても、精度低下を抑制することが可能となる。すなわち、原稿の種別に応じて適切に識別処理を切り替えることで精度の高い天地識別が実現可能となる。

【0089】

原稿毎に、画像内の文字領域の割合と、非文字領域平坦であるか否かを判定材料として原稿の種別を判断し、モデルを選択することで、すべての原稿に一律な推論モデルを適用するのではなく、原稿毎に最適な前処理および推論モデルを用意することが可能となり、天地識別の全体的な精度向上につながる。原稿の種別毎に前処理および推論モデルを用意することにより、多数の種別の原稿に対して精度の高い天地識別が可能となる。また、推論モデルごとに適切な前処理を実行できるようにすることで、自由度の高い天地識別が可能となり、天地識別の全体的な精度向上につながる。

【0090】

上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

【0091】

また上記機能は、アセンブラ、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、などのレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述されたコンピュータ実行可能なプログラムにより実現でき、ＲＯＭ、ＥＥＰＲＯＭ、ＥＰＲＯＭ、フラッシュメモリ、フレキシブルディスク、ＣＤ－ＲＯＭ、ＣＤ－ＲＷ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＤＶＤ－ＲＷ、ブルーレイディスク、ＳＤカード、ＭＯなど装置可読な記録媒体に格納して、あるいは電気通信回線を通じて頒布することができる。

【0092】

これまで本発明の一実施形態に係る画像処理装置、画像処理システム、画像処理方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

【符号の説明】

【0093】

１００…画像形成装置、１０２…原稿、１１０…画像読取部、１２０…第１画像処理装置、１２２…ガンマ補正部、１２４…領域検出部、１２６…プリンタ補正部、１２８…色処理／ＵＣＲ部、１３０…データインタフェース部、１４０…画像形成部、１５０…記憶部、１６０…第２画像処理装置、１６２…文字判定部、１６４…天地識別部、１６６…推論モデル選択部、１６８…天地識別前処理部、１７０…前処理切替部、１７２…縮小画像生成部、１７４…文字領域切出部、１７６…前処理結合部、１７８…天地識別推論部、１８０…推論モデル切替部、１８２…第１推論モデル、１８４…第２推論モデル、１８６…天地識別結合部、１９０…ファイルフォーマット変換部

【先行技術文献】

【特許文献】

【0094】

【文献】特開２０１１－００８５４９号公報

【図1】