(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-09
(45)【発行日】2024-12-17
(54)【発明の名称】画像処理装置、画像処理方法およびプログラム
(51)【国際特許分類】
G06T 7/70 20170101AFI20241210BHJP
G06T 7/00 20170101ALI20241210BHJP
H04N 1/387 20060101ALI20241210BHJP
H04N 1/40 20060101ALI20241210BHJP
H04N 1/393 20060101ALI20241210BHJP
【FI】
G06T7/70 B
G06T7/00 350B
H04N1/387 200
H04N1/40 062
H04N1/393
(21)【出願番号】P 2021048174
(22)【出願日】2021-03-23
【審査請求日】2024-01-19
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100110607
【氏名又は名称】間山 進也
(72)【発明者】
【氏名】伊藤 真也
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2018-082258(JP,A)
【文献】米国特許出願公開第2012/0105918(US,A1)
【文献】米国特許出願公開第2006/0230004(US,A1)
【文献】米国特許第08787702(US,B1)
【文献】米国特許出願公開第2018/0129944(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
H04N 1/387
H04N 1/40
H04N 1/393
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定する判定部と、
判定された前記原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択する選択部と、
前記入力画像を縮小した縮小画像を生成する縮小画像生成部と
前記入力画像の一部を部分画像として切り出す切出部と、
前記選択部により選択されたモデルと、前記縮小画像および前記部分画像のうちの該モデルに対応する画像とに基づいて、前記入力画像の天地識別結果を出力する出力部と
を含む、画像処理装置。
【請求項2】
前記判定部は、少なくとも前記入力画像における文字領域の比率に基づいて前記原稿の種別を判定する、請求項1に記載の画像処理装置。
【請求項3】
前記判定部は、前記入力画像における文字領域の比率が所定の条件を満たす場合に、さらに、前記入力画像における非文字領域の画像特徴量に基づいて、前記原稿の種別を判定する、請求項2に記載の画像処理装置。
【請求項4】
前記複数のモデルは、それぞれ、入力された画像に対する天地の方角を出力する推論モデルである、請求項1~3のいずれか1項に記載の画像処理装置。
【請求項5】
前記複数のモデルは、
入力された縮小画像に基づいて天地識別を行うよう学習された第1の推論モデルと、
入力された文字領域に対応する部分画像に基づいて天地識別を行うよう学習された第2の推論モデルと
を含む、請求項1~4のいずれか1項に記載の画像処理装置。
【請求項6】
前記選択部による選択は、入力される単位画像毎に切り替えられる、請求項1~5のいずれか1項に記載の画像処理装置。
【請求項7】
前記入力画像における文字領域および非文字領域を判定し、前記判定結果を生成する文字判定部をさらに含む、請求項1~6のいずれか1項に記載の画像処理装置。
【請求項8】
入力画像の天地を識別するための画像処理方法であって、コンピュータが、
入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定するステップと、
判定された前記原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択するステップと、
前記選択されたモデルと、前記入力画像を縮小した縮小画像および前記入力画像の一部を切り出した部分画像のうちの対応する画像とに基づいて、前記入力画像の天地識別結果を出力するステップと
を含む、画像処理方法。
【請求項9】
コンピュータを、
入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定する判定部、
判定された前記原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択する選択部、
前記入力画像を縮小した縮小画像を生成する縮小画像生成部、
前記入力画像の一部を部分画像として切り出す切出部、および
前記選択部により選択されたモデルと、前記縮小画像および前記部分画像のうちの該モデルに対応する画像とに基づいて、記入力画像の天地識別結果を出力する出力部
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理に関し、より詳細には、画像処理装置、画像処理方法およびプログラムに関する。
【背景技術】
【0002】
スキャナで原稿を読み取る際に、原稿の天地が上下逆の状態で、または、本来の原稿の向きとは異なる向き(例えば縦の原稿に対し横向き)で読み取ってしまう場合がある。従来より、このような状態で読み取られた原稿の天地を自動で識別して、天地が正常となる向きに補正する、天地識別、天地補正または原稿向き検知(以下、天地識別で統一して参照する。)と呼ばれる技術が知られている。光学文字認識(OCR;Optical Character Recognition)技術を利用して天地識別を行う従来技術が知られている。
【0003】
例えば、天地識別技術に関連して、特開2011-008549号公報(特許文献1)が知られている。特許文献1は、文字認識処理の速度を改善することを目的とした技術を開示する。特許文献1の従来技術は、日本語の辞書データおよび英語の辞書データを参照して、画像データに示される文字パターンの方向を上下左右の4方向の各々にした場合の各文字パターンと辞書データの文字パターンとのマッチングを行い、マッチングの結果に基づいて画像データの天地方向を判定する天地判定部と、辞書データを使用して画像データに対して文字認識処理を行う文字認識部と、文字認識部に使用させる辞書データとして、マッチングの結果に応じた言語の辞書データを選択する辞書選択部とを有している画像処理装置を開示する。
【0004】
上述した従来技術の天地識別は、文字が含まれる原稿については精度高く行えるものの、文字を認識するという技術の性質上、文字があまり多く含まれていない原稿、例えば写真などの原稿については精度が低下してしまう点で充分なものではなかった。そして、文字と文字以外の両方を含み得る読み取り原稿に対して、統合的に適切に天地識別を行うという観点で改良の検討の余地があった。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、上記点に鑑みてなされたものであり、本開示は、文字および文字以外の画像を含み得る原稿の方向を適切に識別することが可能な画像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示によれば、上記課題を解決するために、下記特徴を有する画像処理装置を提供する。画像処理装置は、入力画像における文字領域および非文字領域の判定結果に基づいて原稿の種別を判定する判定部と、判定された原稿の種別に基づいて、複数のモデルの中から少なくとも優先的に用いるモデルを選択する選択部とを含む。画像処理装置は、また、入力画像を縮小した縮小画像を生成する縮小画像生成部と、入力画像の一部を部分画像として切り出す切出部とを含む。画像処理装置は、さらに、選択部により選択されたモデルと、縮小画像および部分画像のうちの該モデルに対応する画像とに基づいて、入力画像の天地識別結果を出力する出力部とを含む。
【発明の効果】
【0007】
上記構成により、文字や文字以外の画像を含み得る原稿の方向を適切に識別することが可能となる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本実施形態による画像処理装置としての複合機のハードウェア構成の実施形態を示す図。
【
図2】
図2は、他の実施形態による画像処理装置として用いられ得るコンピュータのハードウェア構成の実施形態を示す図である。
【
図3】
図3は、本実施形態による画像処理装置を含む画像形成装置の概略構成を示したブロック図。
【
図4】
図4は、本実施形態による画像処理装置を含む画像形成装置における天地識別部の詳細を示す機能ブロック図。
【
図5】
図5は、本実施形態による画像処理装置が実行する天地識別処理を示すフローチャート。
【
図6】
図6は、本実施形態における、画像データの文字画素の比率が閾値以上であるかの判定および画像データの非文字領域が平坦であるかの判定について説明する図。
【
図7】
図7は、本実施形態における、画像データの文字領域切り出し処理および画像データの縮小処理について説明する図。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について説明するが、本発明の実施形態は、以下に説明する実施形態に限定されるものではない。なお、以下に説明する実施形態では、画像処理装置の一例として、画像読取機能および画像形成機能を備える画像形成装置を用いて説明する。
【0010】
図1は、本実施形態による画像処理装置を含む画像形成装置としてのMFPのハードウェア構成図である。
図1に示されているように、MFP(Multifunction Peripheral/Product/Printer)9は、コントローラ910、近距離通信回路920、エンジン制御部930、操作パネル940、ネットワークI/F950を備えている。
【0011】
これらのうち、コントローラ910は、コンピュータの主要部であるCPU(Central Processing Unit)901、システムメモリ(MEM-P)902、ノースブリッジ(NB)903、サウスブリッジ(SB)904、ASIC(Application Specific Integrated Circuit)906、記憶部であるローカルメモリ(MEM-C)907、HDD(Hard Disc Drive)コントローラ908、および、記憶部であるHD(Hard Disk)909を有し、NB903とASIC906との間をAGP(Accelerated Graphics Port)バス921で接続した構成となっている。
【0012】
これらのうち、CPU901は、MFP9の全体制御を行う制御部である。NB903は、CPU901と、MEM-P902、SB904、およびAGPバス921とを接続するためのブリッジであり、MEM-P902に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタおよびAGPターゲットとを有する。
【0013】
MEM-P902は、コントローラ910の各機能を実現させるプログラムやデータの格納用メモリであるROM902a、プログラムやデータの展開、およびメモリ印刷時の描画用メモリなどとして用いるRAM902bとからなる。なお、RAM902bに記憶されているプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disc - Read Only Memory)、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0014】
SB904は、NB903とPCIデバイス、周辺デバイスとを接続するためのブリッジである。ASIC906は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス921、PCIバス922、HDD908およびMEM-C907をそれぞれ接続するブリッジの役割を有する。このASIC906は、PCIターゲットおよびAGPマスタ、ASIC906の中核をなすアービタ(ARB)、MEM-C907を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、ならびに、スキャナ部931およびプリンタ部932との間でPCIバス922を介したデータ転送を行うPCIユニットとからなる。なお、ASIC906には、USB(Universal Serial Bus)のインターフェースや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェースを接続するようにしてもよい。
【0015】
MEM-C907は、コピー用画像バッファおよび符号バッファとして用いるローカルメモリである。HD909は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。HD909は、CPU901の制御にしたがってHD909に対するデータの読出または書込を制御する。AGPバス921は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、MEM-P902に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。
【0016】
また、近距離通信回路920には、アンテナ920aが備わっている。近距離通信回路920は、NFC、Bluetooth(登録商標)等の通信回路である。
【0017】
さらに、エンジン制御部930は、スキャナ部931およびプリンタ部932によって構成されている。また、操作パネル940は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部940a、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキーおよびコピー開始指示を受け付けるスタートキー等からなる操作パネル940bを備えている。コントローラ910は、MFP9全体の制御を行い、例えば、描画、通信、操作パネル940からの入力等を制御する。スキャナ部931またはプリンタ部932には、誤差拡散やガンマ変換などの画像処理部分が含まれている。
【0018】
なお、MFP9は、操作パネル940のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能およびファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。
【0019】
また、ネットワークI/F950は、通信ネットワークを利用してデータ通信をするためのインターフェースである。近距離通信回路920およびネットワークI/F950は、PCIバス922を介して、ASIC906に電気的に接続されている。
【0020】
図2は、他の実施形態による画像処理装置としてのパーソナル・コンピュータ(PC)のハードウェア構成図である。
図2は、PC(サーバ)のハードウェア構成図である。ここでは、サーバ5のハードウェア構成について説明する。
【0021】
図2に示されているように、サーバ5は、コンピュータによって構築されており、
図2に示されているように、CPU501、ROM(Read Only Memory)502、RAM(Random Access Memory)503、HD504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、データバス510、キーボード511、ポインティングデバイス512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
【0022】
これらのうち、CPU501は、サーバ5全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、または画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、通信ネットワークを利用してデータ通信をするためのインターフェースである。バスライン510は、
図2に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0023】
また、キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出しまたは書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出しまたは書き込み(記憶)を制御する。
【0024】
図2に示すサーバ5は、例えばクラウドサービスとして、MPFから受信した読み取り画像の天地識別結果または天地識別結果に基づく画像補正の結果をMFPに送信する装置などとして構成することができる。あるいは、サーバ5と同様な構成で、デスクトップにおいて、保存された読み取り画像の天地識別結果または天地識別結果に基づく画像補正の結果を得る装置として用いることができる。
【0025】
図3は、本実施形態による画像処理装置を含む画像形成装置の概略構成を示したブロック図である。
図3に示す画像形成装置100は、画像読取部110と、第1画像処理装置120と、画像形成部140と、記憶部150と、第2画像処理装置160と含み構成される。なお、
図3に示すブロック図は、
図1に示すような、画像読取機能および画像形成機能を備える画像形成装置に適用した実施形態に対応する。
【0026】
画像読取部110は、原稿102から画像データを読み取る装置である。画像読取部110は、
図1に示すスキャナ部931に対応する。画像読取部110は、読み取った画像データを第1画像処理装置120へ送出する。画像形成部140は、第1画像処理装置120が出力した画像データを転写部材に転写し、複写物104を出力する。画像形成部140は、転写印字ユニットであり、
図1に示すプリンタ部932に対応する。以下、
図3を参照しながら、コピー画像を得る処理フローを併せて説明する。
【0027】
第1画像処理装置120は、ガンマ補正部122と、領域検出部124と、プリンタ補正部126と、色処理/UCR部128と、データインタフェース部130とを含み構成される。
【0028】
ガンマ補正部122は、画像読取部110が読み取ったデータ(例えば、A/D変換後のRGB各色8ビット)を、色毎の階調バランスを揃えるために各信号に一次元変換を施す。ここでは説明のため、変換後は、濃度リニア信号(RGB信号:白を意味する信号値を0とする。)であるとする。ガンマ補正部122の出力は、領域検出部124と、データインタフェース部130とへ送出される。
【0029】
領域検出部124は、読み取った画像中の注目画素あるいは注目画素ブロックが文字領域であるか非文字領域(すなわち写真や絵柄な度に対応する画素あるいは領域)であるかを判定する。領域検出部124は、また、有彩色か無彩色かの判定を行うことができる。なお、色判定の結果に応じて、原稿に適した色再現処理が色処理/UCR部128で行われる。
【0030】
データインタフェース部130は、領域検出部124からの判定結果およびガンマ補正後の画像データを記憶部150に一時保存する際の記憶装置管理インタフェースである。
【0031】
一方、ガンマ補正後の画像データと領域検出部124からの検出結果が、データインタフェース部130から色処理/UCR部128へ送出される。色処理/UCR部128は、画素あるいは画素ブロックごとの判定結果に基づいて、色処理やUCR処理を選択する。プリンタ補正部126では、色処理/UCR部128からのC(シアン)、M(マゼンダ)、Y(イエロー)、Bk(ブラック)の画像信号を受信し、プリンタ特性を考慮したガンマ補正処理とディザ処理を施し、画像形成部140へ送出する。
【0032】
第2画像処理装置160は、記憶部150に一時保存されたガンマ補正後の画像データを受けて、これに対し、天地識別を行い、天地識別で得られた結果を用いて、PDF(Portable Document Format)FやOffice Open XML Document形式などの所定のファイルフォーマット(形式)に変換する。
【0033】
第2画像処理装置160は、より具体的には、文字判定部162と、天地識別部164と、ファイルフォーマット変換部190とを含み構成される。
【0034】
文字判定部162は、ガンマ補正後の画像データに対して、文字判定処理を適用する。文字判定部162は、第1画像処理装置120の領域検出部124が行うものと同様の文字判定処理を行い、入力画像における文字領域および非文字領域を判定し、判定結果を生成する。文字判定部162は、より具体的には、読み取った画像中の注目画素あるいは注目画素ブロックそれぞれが文字領域であるか非文字領域であるかを判定する。ガンマ補正後の画像データと、文字判定処理を適用した結果(以下、文字判定処理結果と参照します。)とは、天地識別部164に出力される。
【0035】
天地識別部164は、文字判定部162より出力された文字判定処理結果に基づいて、文字画素の比率や非文字領域などの特徴から原稿タイプを判別して、原稿タイプに関連付けられた前処理をガンマ補正後の画像データに対して適用する。そして、天地識別部164は、判別した原稿タイプに同じく関連付けられた推論モデルに対して、前処理済み画像データを入力し、原稿の天地識別を行う。天地識別部164で得られた天地識別結果は、ファイルフォーマット変換部190に出力される。
【0036】
ファイルフォーマット変換部190は、天地識別部164より出力された天地識別結果を用いて、PDFやOOXML形式などの所定のファイルフォーマット(形式)に変換する。例えば、天地識別結果に基づいて、各ページの原稿の向きに応じて右または左回転させることによって、一連の原稿の向きを揃えることができる。
【0037】
なお、説明する実施形態では、天地識別部164による天地識別で用いる文字判定処理は、第2画像処理装置160の文字判定部162で計算されるものとして説明した。しかしながら、上述したように、第1画像処理装置120側の領域検出部124も文字判定を行う機能を備える場合がある。この場合に、第2画像処理装置160に文字判定部162を設けずに、領域検出部124による文字判定処理結果を第1画像処理装置120から取得するように構成されていてもよい。
【0038】
なお、
図3に示す実施形態では、各機能部は、第1画像処理装置120および第2画像処理装置160に分けて設けられているように説明されているが、これらをまとめて単一の装置上に構成してもよいし、第1画像処理装置120に設けられている機能部や第2画像処理装置160に設けられている機能部をさらに複数に分散して設けててもよく、特に限定されるものではない。
【0039】
図4は、本実施形態による画像処理装置を含む画像形成装置における天地識別部164のより詳細な機能ブロック図である。
図4に示すように、天地識別部164は、推論モデル選択部166と、天地識別前処理部168と、天地識別推論部178とを含み構成される。
【0040】
図3に示した記憶部150からの画像データと、文字判定部162からの該画像データに対する文字判定処理結果とが天地識別部164に入力される。推論モデル選択部166は、入力された画像データにおける文字領域および非文字領域の文字判定処理結果に基づいて原稿の種別を判定する判定部167を含む。より具体的には、判定部167は、文字判定部162からの画像データに対する文字判定処理結果に基づいて、画像全体における文字領域の比率(割合)や非文字領域における画像の特徴量から原稿の種別(写真原稿や文書原稿など原稿タイプ)を判別する。推論モデル選択部166は、判定された原稿の種別に基づいて、該種別に事前に関連付けられた天地識別の際の推論時に使用する推論モデルを選択する。
【0041】
この際の原稿タイプの種類数と推論モデルの種類数については、特に限定されるものではなく、2以上の任意の数とすることができる。以下、2つの推論モデルが用意されているものとして説明を続ける。記憶部150からの画像データと、推論モデル選択部166で選択された推論モデルを識別する情報(以下、推論モデル情報と参照します。)と、
図3に示す文字判定部162による画像データに対する文字判定処理結果とが天地識別前処理部168に入力される。
【0042】
天地識別前処理部168は、推論モデル選択部166で選択された推論モデル情報に基づき、前処理を適用する。前処理の例として、写真などの文字が少ない原稿などに対して適用するための第1の推論モデルについては、記憶部150からの各原稿の画像データについて、原稿全体に対する縮小処理を適用する。縮小処理の結果である原稿全体の縮小画像が、第1推論モデルが選択された場合の前処理済み画像データである。縮小処理は、最近傍補間(nearest neighbor interpolation)や線形補間(Bilinear)など任意の縮小アルゴリズムを用いることができ、これらに限定されるものではない。一方、オフィス文書や論文など文字(特に文字サイズの小さい文字)が多い原稿に対して適用する第2の推論モデルについては、記憶部150からの画像データに対して、文字判定部162による画像データに対する文字判定処理結果に基づいて、文字領域を算出して、文字を含む矩形領域を切り出す。この切り出した結果である原稿の文字領域の一部画像が、第2推論モデルが選択された場合の前処理済み画像データである。
【0043】
推論モデル選択部166で選択された推論モデル情報と、天地識別前処理部168にて推論モデル情報に基づき前処理が適用された結果(前処理済み画像データ)とが天地識別推論部178に入力される。
【0044】
天地識別推論部178は、天地識別前処理部168から出力された、前処理が適用された結果(前処理済み画像データ)を、推論モデル選択部166で選択された推論モデル情報を参照して、推論モデルに切り替えて入力し、天地識別の推論を行い、天地識別結果を出力する。天地識別結果は、北(north)/東(east)/西(west)/南(south)のいずれかを示す。天地識別推論部178から出力された天地識別結果は、ファイルフォーマット変換部190に入力され、ファイルフォーマット変換部190で天地識別結果に応じた処理が実行される。
【0045】
図4には、さらに、天地識別前処理部168のより詳細な機能構成が示されている。
図4に示すように、天地識別前処理部168は、前処理切替部170と、縮小画像生成部172と、文字領域切出部174と、前処理結合部176とを含み構成される。
【0046】
記憶部150から入力された画像データと、推論モデル選択部166で選択された推論モデル情報と、文字判定部162による画像データに対する文字判定処理結果とが天地識別前処理部168に入力される。
【0047】
前処理切替部170は、記憶部150からの画像データと、推論モデル選択部166で選択された推論モデル情報と、文字判定部162からの画像データに対する文字判定処理結果を入力として受け取る。前処理切替部170は、その入力の一つである推論モデル情報を参照して、入力される単位画像毎、例えば原稿1枚毎に、適用する前処理を切り替える。
【0048】
具体的には、
図4の推論モデル選択部166にて第1推論モデルが選択された場合の前処理は、原稿全体に対する縮小処理となる。記憶部150から入力された画像データと、推論モデル選択部166で選択された推論モデル情報とが、縮小画像生成部172に入力される。一方で、推論モデル選択部166にて第2推論モデルが選択された場合の前処理は、文字領域を算出して、文字を含む矩形領域を切り出す処理となる。記憶部150から入力された画像データと、推論モデル選択部166で選択された推論モデル情報と、文字判定部162による画像データに対する文字判定処理結果とが、文字領域切出部174に入力される。
【0049】
特定の実施形態において、天地識別前処理部168における縮小画像生成部172および文字領域切出部174のいずれを用いるかの選択は、各原稿の画像データ単位で行われ、ひとつ(1頁)の原稿内においてこの選択は排他的となる。つまり、この特定の実施形態において、縮小画像生成部172および文字領域切出部174の両方が同時に選択されることはない。
【0050】
縮小画像生成部172は、記憶部150からの画像データに対し縮小処理を適用する。縮小処理は、最近傍補間(nearest neighbor interpolation)や線形補間(Bilinear)など、採用する縮小アルゴリズムを限定するものではない。また、画像の縮小時に、縮小の前後で画像のアスペクト比を維持する(等倍)か、あるいは、無視するか(変倍)についても限定するものではない。縮小画像生成部172にて縮小された画像データ(前処理済み画像データ)と、推論モデル選択部166で選択された推論モデル情報とが前処理結合部176に入力される。
【0051】
文字領域切出部174では、文字判定部162による画像データに対する文字判定処理結果に基づいて、任意の位置にある文字領域(文字画素群)を選択して、選択した文字領域に対応する画像データの領域を切り出す(クロッピング)する。文字領域切出部174で切り出された画像データ(前処理済み画像データ)と、推論モデル選択部166で選択された推論モデル情報とが前処理結合部176に入力される。
【0052】
なお、縮小画像生成部172は、入力画像全体を縮小した縮小画像を生成するものとして説明し、文字領域切出部174は、縮小を伴わずに画像の一部を切り出すものとして説明した。このような構成は、好ましいものの、必ずしもこのような構成に限定されない。縮小画像生成部172は、文字領域切出部174が切り出された部分よりも大きな領域の画像を縮小する限りにおいて、全体ではなく入力画像の一部を縮小した画像を生成することを含み、縮小を優先した前処理を行うものといえる。一方で、文字領域切出部174は、縮小画像生成部172が縮小する元の画像よりも小さな領域を切り出す限りにおいて、縮小を伴うことを排除するものではなく、画像の一部の切り出しを優先した前処理を行うものといえる。
【0053】
前処理結合部176は、前処理済み画像データ(縮小画像生成部172で生成された縮小画像データ、または、文字領域切出部174で切り出された部分画像データ)に対し、推論モデル選択部166で選択された推論モデル情報を付与する。前処理結合部176は、天地識別前処理部168と、
図4の天地識別推論部178とを繋ぐインターフェースの役割を有する。
【0054】
図4には、さらに、天地識別推論部178のより詳細な機能構成が示されている。
図4に示すように、天地識別推論部178は、推論モデル切替部180と、第1推論モデル182と、第2推論モデル184と、天地識別結合部186とを含み構成される。
【0055】
前処理済み画像データ(縮小画像生成部172で生成された縮小画像データまたは、文字領域切出部174で切り出された部分画像データ)と推論モデル選択部166で選択された推論モデル情報とが天地識別推論部178に入力される。
【0056】
推論モデル切替部180は、前処理済み画像データおよび推論モデル情報を入力として受け取る。推論モデル切替部180は、推論モデル情報を参照して、原稿1枚ごとに前処理済み画像データを入力する推論モデルを切り替える。
【0057】
第1推論モデル182は、写真などの文字が少ない原稿などに対して適用するための推論モデルである。特定の実施形態において、第1推論モデル182は、スキャン画像全体を縮小した画像を入力することを前提に学習された推論モデルである。また、第1推論モデル182の学習データには、写真などの文字が少ない画像とその画像の天地の向きを示す正解ラベルとが含まれ、教師有り学習などの適切な機械学習技術などによって学習され得る。
【0058】
第2推論モデル184は、オフィス文書や論文など文字(特に文字サイズの小さい文字)が多い原稿に対して適用する推論モデルである。第2推論モデル184は、スキャン画像の文字部を多く含む領域を特定サイズで切り抜かれた画像を入力することを前提に学習された推論モデルである。また、第2推論モデル184の学習データには、文字部を多く含む画像とその画像の天地の向きを示す正解ラベルとが含まれ、などの適切な機械学習技術などによって学習され得る。
【0059】
第1推論モデル182および第2推論モデル184は、いわゆる分類器としての機械学習モデルであり得る。好ましい実施形態では、第1推論モデル182および第2推論モデル184は、それぞれ、深層学習によって学習されたニューラルネットワークモデルなどであってよい。なお、第1推論モデル182および第2推論モデル184は、深層学習に基づくモデルに限定されない。例えば、第2の推論モデルは、OCRに基づいて原稿の天地を識別する既存の技術であってもよい。
【0060】
天地識別結合部186は、第1推論モデル182および第2推論モデル184による天地識別の推論の結果を統合し、ファイルフォーマット変換部190に入力する。つまりは、天地識別結合部186は、天地識別推論部178と、ファイルフォーマット変換部190とを繋ぐインターフェースの役割を持つ。
【0061】
なお、上述までの説明では、天地識別前処理部168における縮小画像生成部172および文字領域切出部174の選択および使用する推論モデルの選択は、排他的であるとして説明した。しかしながら、他の実施形態では、推論モデルおよび前処理の選択は、排他的でなくてもよい。例えば、複数の推論モデルの前処理および推論を並列に実施し、推論結果を一次結果として取得し、判別した原稿の種別および複数の一次推論結果に基づいて最終的な結果を判断することとしてもよい。具体的には、複数の推論モデルおよび対応する複数の前処理により天地識別を実行し、得られた天地識別一次結果を、原稿種別に応じた重みづけ評価することができる。例えば、分類器による分類結果には、通常、分類結果の確信度が計算可能であるため、複数の推論モデルから得られた結果の信頼度を原稿タイプに応じて重みづけ評価して、重みづけ後の信頼度の高い天地識別一次結果を採用することによって最終的な天地識別結果を得ることとしてもよい。
【0062】
つまり、1または複数の実施形態において、推論モデル選択部166は、判定された原稿の種別に基づいて、複数の推論モデルの中から少なくとも優先的に用いる推論モデルを選択する。特定の実施形態においては、推論モデル選択部166は、判定された原稿の種別に基づいて、複数のモデルの中から排他的に使用する推論モデルを選択する。他の特定の実施形態では、推論モデル選択部166は、判定された原稿の種別に基づいて、複数のモデルの中から最も大きな重みを与えて使用する推論モデルを選択する。
【0063】
以下、
図5を参照しながら、本実施形態による天地識別処理について説明する。
図5は、本実施形態による画像処理装置が実行する天地識別処理を示すフローチャートである。なお、
図5に示す処理は、原稿1枚の画像データごとに、文字判定部162および天地識別部164を実装するプロセッサが実行するものとする。
【0064】
図5に示す処理は、第2画像処理装置160に記憶部150からの画像データが入力されたことに応答して、ステップS100から開始される。ステップS101では、プロセッサは、文字判定部162により、画像データに対して文字判定処理を行う。文字判定処理により、各画素または画素ブロックが文字領域であるか、または非文字領域であるかの判別が行われ、文字判定処理結果が得られる。
【0065】
ステップ102では、プロセッサは、推論モデル選択部166により、画像データに対する文字判定処理結果に基づいて、画像データにおける文字画素の比率(割合)が予め設定された閾値以上であるかを判定する。ステップ102で、画像データの文字画素の比率が予め設定された閾値未満であると判定された場合(NO)は、ステップS103へ処理が分岐される。
【0066】
ステップS103では、プロセッサは、推論モデル選択部166により、さらに、画像データにおける非文字領域の画像特徴量を計算する。1または複数の実施形態においては、計算される画像特徴量としては、特に限定されるものではないが、画像データの非文字領域における画素値の分散(Variance)などの統計的な特徴量を挙げることができる。ここで、分散は、所定範囲の画素値(ここでは、全非文字領域)の画素値の2乗平均と平均の2乗の差でによって求めることができ、分散は、画素値ばらつぎ具合の指標値となる。ステップS104では、プロセッサは、推論モデル選択部166により、ステップS103で計算された画像特徴量に基づいて、画像データの非文字領域が平坦であるか否かを判定する。分散が所定の閾値より小さい場合は、平坦であると判定される。
【0067】
ステップS104で、平坦であると判定された場合(YES)は、ステップS105へ処理が分岐される。ステップ102を再び参照すると、ステップS102で、画像データの文字画素の比率が、予め設定された閾値以上であると判定された場合(YES)も、ステップS105へ処理が分岐される。一方、ステップS104で、画像データの非文字領域が平坦ではないと判定された場合(NO)は、ステップS107へ処理が分岐される。下記表1に分岐の仕方をまとめる。なお、下記表1では、ステップS102の判断でYESの場合、さらに、ステップS104の判断でYESであるかNOであるかに応じて異なる種類の原稿(地肌が平坦な文書原稿および文字写真原稿)に分かれるものとして説明されているが、ステップS104の判断にかかわらず、用いる前処理および推論モデルが定まるという観点から、これらは、同種の原稿で有るとしてもよいし、これらをさらに、同一の前処理および推論モデルに紐付けられる複数の原稿の種別に分類することを妨げるものではない。
【0068】
【0069】
ステップS105では、プロセッサは、推論モデル選択部166により、第2推論モデル184を使用することを決定し、その旨の推論モデル情報を画像データに付加する。ステップS106では、プロセッサは、第2推論モデル184を示す推論モデル情報に基づいて、文字領域切出部174により、画像データの文字判定処理結果に基づいて任意の位置にある文字領域(文字画素群)を選択して、選択した文字領域に対応する画像データを切り出して(クロッピングして)、部分画像データを生成する。切り出す際のサイズは、第2推論モデル184に入力する画像サイズとなる。
【0070】
これに対して、ステップS107では、プロセッサは、推論モデル選択部166により、第1推論モデル182を使用することを決定し、その旨の推論モデル情報を画像データに付加する。ステップS108では、プロセッサは、第1推論モデル182を示す推論モデル情報に基づいて、縮小画像生成部172により、画像データを縮小処理し、画像全体の縮小画像データを生成する。このときの縮小変倍処理は、最近傍補間(nearest neighbor interpolation)や線形補間(Bilinear)など任意の縮小アルゴリズムを採用することができる。また、画像の縮小時に、縮小前後で画像のアスペクト比を維持するか、または無視するかについても限定されない。縮小後のサイズが、第1推論モデル182に入力する画像サイズとなる。
【0071】
ステップS105またはS108の処理が終了すると、ステップS109に処理が移行される。ステップS109では、プロセッサは、前処理結合部176により、ステップS106の処理で切り出した部分画像データの文字領域またはS108の処理で生成した縮小画像データ(前処理画像データと呼称する。)に対し、後続するS110の処理で使用する推論モデルの情報を付与する。より具体的には、S108の処理で生成した縮小画像データに対しては、第1推論モデル182を、S105の処理で生成した切り出し画像に対しては、第2推論モデル184を、推論時に使用するモデルとしての情報を付与する。S109の処理が終了すると、S110に処理が移行する。
【0072】
ステップS110では、プロセッサは、天地識別推論部178により、ステップS109で付与された推論時に使用するモデル情報に基づき、前処理画像データを、対応する推論モデルに入力して推論を行う。具体的には、S108の処理で生成した縮小画像は、第1推論モデル182に、S106の処理で切り出した文字領域の部分画像データは、第2推論モデル184に入力する。推論結果(天地識別結果)は、北(north)/東(east)/西(west)/南(south)のいずれかとなる。なお、説明する実施形態では、天地方向として、4つの方角のいずれかに分類されるものとして説明し、天地識別としては、4方向で充分であるが、分類数は、特に限定されるものではない。
【0073】
ステップS110の処理が終了すると、文字判定部162および天地識別部164としての処理は終了する。
【0074】
図6は、ステップS102の処理で行われる画像データの文字画素の比率が閾値以上であるかの判定およびS104の処理で行われる画像データの非文字領域が平坦であるかの判定について説明する図である。なお、
図6において、説明の便宜上、画像に黒枠が付されているが、当然に、対象となる画像は、黒枠がなくてもよい。
【0075】
まず、第1推論モデルが適用される写真などの文字が少ない原稿について説明する。ここで、
図6(A)に示すような入力画像が与えられるものとする。
図6(A)に示す画像データに対して文字判定処理を行った結果が、
図6(B)に示したような二値画像である。
図6(B)においては、黒画素が文字領域に属する画素を表し、白画素が非文字領域に属する画素を表している。例えば
図6(A)のような写真(あるいは絵柄)が全体の大部分を占める入力画像に対して、第2画像処理装置160の処理を実施しようとする場合、文字判定部162(S101の処理)において、
図6(B)に示すような二値画像の文字判定処理結果が出力される。
【0076】
図6(B)が天地識別部164に入力されると、推論モデル選択部166による処理(S102~S104の処理)が実施される。推論モデル選択部166によるステップS102においては、
図6(B)ような文字判定処理結果に対して、文字画素をカウントして、カウントした文字画素数の、画像全体の画素数に対する比率が事前設定された閾値以上か否かが判定される。ここでは説明の便宜上、閾値を50%と設定するものとする。
図6(A)のような入力画像の場合、写真が全体の大部分を占めているため、
図6(B)のような文字判定処理結果は、文字画素が全体に対して占める比率も少なく、文字画素数も少ない値(ここでは説明のため、画像全体の画素数10000に対して、文字画素500とする。)となる。
図6(A)の場合、文字画素数(10000画素に対する500画素であるため、5%)は、閾値(50%)未満となるため、S102の処理としては、NOという判定結果となる。
【0077】
ステップS102の処理でNOという判定結果を得た場合、ステップS103およびステップS104の処理が実施される。推論モデル選択部166のステップS103およびステップS104においては、
図6(B)のような文字判定処理結果に対して、非文字領域が平坦であるか否かが判定される。非文字領域の平坦の判定については、
図6(B)に示す二値画像の非文字画素に相当する
図6(A)に示す入力画像の非文字領域から算出した分散から判定することができる。
図6(A)に示すような入力画像である場合、
図6(B)の非文字画素に相当する領域は写真部分となるため、非文字領域が平坦ではなく、ステップS104の処理としてはNOという判定結果となる。上記のように、ステップS102の処理でNOであり、かつ、ステップS104の処理でNOという判定が下された場合、第1推論モデルが適用される。
【0078】
引き続き、第2推論モデルが適用されるオフィス文書や論文など文字(特に文字サイズの小さい文字)が多い原稿について説明する。ここで、
図6(C)に示すような入力画像が与えられるものとする。
図6(C)に示す画像データに対して文字判定処理を行った結果が、
図6(D)に示したような二値画像である。
図6(C)に示すように、文書の一部に写真(あるいは絵柄)がある画像データの場合、
図6(D)に示すように画像データのうちの文書の部分に対応する部分が黒の二値画像が得られる。
【0079】
例えば
図6(C)のような微小文字が全体の大部分を占める入力画像に対して、第2画像処理装置160の処理を実施しようとする場合、文字判定部162(S101の処理)において、
図6(D)のような文字判定処理結果(2値画像)が出力される。
【0080】
図6(D)に示す画像が天地識別部164に入力されると、推論モデル選択部166(S102~S104の処理)が実施される。推論モデル選択部166のS102の処理としては、
図6(D)のような文字判定処理結果(2値画像)に対して、文字画素をカウントして、カウントした文字画素数の、画像全体の画素数に対する比率があらかじめ設定された閾値以上かを判定する。ここでは説明のため、この閾値を50%と設定する。
図6(C)に示す入力画像であれば、微小文字が全体の大部分を占めているため、
図6(D)に示す文字判定処理結果は文字画素が全体に対して占める比率も大きく、文字画素数も大きい値(ここでは説明のため、画像全体の画素数が10000に対して、文字画素が7000であるとする)となる。
【0081】
図6(C)に示す入力画像の場合、文字画素数(10000画素に対する7000画素であるため、比率は70%である。)は、閾値(50%)以上となるため、S102の処理としてはYESという判定結果となる。ステップS102の処理でYESという判定結果を得た場合、S103およびS104の処理は実施されない。上記のように、S102の処理でYESという判定結果を得た場合、第2推論モデルが適用される。
【0082】
図7は、S106の処理で行われる画像データの文字領域切り出し処理やS108の処理で行われる画像データの縮小処理について説明する図である。なお、
図6と同様に、説明の便宜上、画像には黒枠を付けている。ステップS106の処理、S108の処理は共に、第1推論モデルおよび第2推論モデルに入力する前に適用する前処理に相当する。
【0083】
まずは、第1推論モデル182に適用される前処理について説明する。推論モデル選択部166までの(S104までの)処理で、第1推論モデルを適用するものと判定された場合、
図6(A)のような入力画像が、縮小画像生成部172(S108の処理)に入力される。縮小画像生成部172のS108の処理としては、
図6(A)のような入力画像に対して、縮小処理を適用する。このときの縮小処理は最近傍補間(nearest neighbor interpolation)や線形補間(Bilinear)など、採用する縮小変倍アルゴリズムを限定するものではない。また、画像の縮小時に、変倍前後で画像のアスペクト比を維持するか、または、無視するかについても限定するものではない。
図6(A)のような入力画像に対して、S108の縮小処理を適用すると、
図7(A)のような縮小画像となる。縮小後のサイズが推論モデルに入力する画像サイズとなる。
図7(A)の縮小画像は、前処理結合部176を経由して天地識別推論部178に入力され、第1推論モデル182にて天地識別としての推論が実施される。
【0084】
続いて、第2推論モデル184に適用される前処理について説明する。推論モデル選択部166までの(S104までの)処理で、第2推論モデル184を適用するものと判定された場合、
図6(C)のような入力画像と、文字判定部162(S101の処理)で出力された
図6(D)のような、
図6(B)に示す画像データの文字判定処理結果が文字領域切出部174(S106の処理)に入力される。
【0085】
文字領域切出部174のS106の処理としては、
図6(D)のような、
図6(C)に示す画像データの文字判定処理結果に対して任意のサイズの矩形領域に含まれる文字領域を検出する。
図7(D)は、
図6(D)に対して検出した文字領域を含む任意のサイズの矩形領域を黒枠で示している。ステップS106の処理としてはさらに、
図7(D)で示した黒枠に対応する入力画像の領域(
図7(C)で示している)を切り出す。切り出した文字領域切出画像(
図7(B))は、前処理結合部176を経由して天地識別推論部178に入力され、第2推論モデル184にて天地識別としての推論が実施される。
【0086】
以上説明した実施形態によれば、文字および文字以外の画像を含み得る原稿の方向を適切に識別することが可能な画像処理装置、画像処理方法およびプログラムを提供することが可能となる。
【0087】
上述したように、天地識別技術として、深層学習によるニューラルネットワークモデルなどの推論モデルを用いて実現する手法がある。深層学習技術を使って天地識別を行う手法は、OCRに基づく手法と比較して、文字のない写真などの原稿に対する優位性はある。一方で、消費メモリの関係上、画像を縮小して推論モデルに入力することが一般的である。特に前処理を行うことなく、画像に対して一律の縮小を行った場合(多くの場合、長方形の解像度が比較的高い読み取り原稿画像を、推論モデルの入力層に合わせた正方形の解像度の比較的小さな画像に変倍縮小される。)、原稿に書かれている文字が微小文字であるほど、縮小変倍時に文字情報が失われ、天地識別の精度が困難となる。
【0088】
上述した技術によれば、複数のモデルが選択され、さらに、モデルに対する縮小を優先した前処理および画像の一部の切り出しを優先した前処理という複数の前処理が用意されている。そのため、原稿の種別に応じて、優先的に用いるモデルを切り替えることが可能となる。ひいては、微小文字を多く含む原稿であっても、他の種別の原稿(写真など)と同等の天地識別精度を実現させることが可能となる。従来のORCを使った天地識別手法と比較して、写真などの原稿に対する天地識別精度の向上が期待できるとともに、深層学習技術を採用したことによる消費メモリの軽減とのトレードオフとしての精度低下が懸念とされていた微小文字を多く含む原稿についても、精度低下を抑制することが可能となる。すなわち、原稿の種別に応じて適切に識別処理を切り替えることで精度の高い天地識別が実現可能となる。
【0089】
原稿毎に、画像内の文字領域の割合と、非文字領域平坦であるか否かを判定材料として原稿の種別を判断し、モデルを選択することで、すべての原稿に一律な推論モデルを適用するのではなく、原稿毎に最適な前処理および推論モデルを用意することが可能となり、天地識別の全体的な精度向上につながる。原稿の種別毎に前処理および推論モデルを用意することにより、多数の種別の原稿に対して精度の高い天地識別が可能となる。また、推論モデルごとに適切な前処理を実行できるようにすることで、自由度の高い天地識別が可能となり、天地識別の全体的な精度向上につながる。
【0090】
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0091】
また上記機能は、アセンブラ、C、C++、C#、Java(登録商標)、などのレガシープログラミング言語やオブジェクト指向プログラミング言語などで記述されたコンピュータ実行可能なプログラムにより実現でき、ROM、EEPROM、EPROM、フラッシュメモリ、フレキシブルディスク、CD-ROM、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、ブルーレイディスク、SDカード、MOなど装置可読な記録媒体に格納して、あるいは電気通信回線を通じて頒布することができる。
【0092】
これまで本発明の一実施形態に係る画像処理装置、画像処理システム、画像処理方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
【符号の説明】
【0093】
100…画像形成装置、102…原稿、110…画像読取部、120…第1画像処理装置、122…ガンマ補正部、124…領域検出部、126…プリンタ補正部、128…色処理/UCR部、130…データインタフェース部、140…画像形成部、150…記憶部、160…第2画像処理装置、162…文字判定部、164…天地識別部、166…推論モデル選択部、168…天地識別前処理部、170…前処理切替部、172…縮小画像生成部、174…文字領域切出部、176…前処理結合部、178…天地識別推論部、180…推論モデル切替部、182…第1推論モデル、184…第2推論モデル、186…天地識別結合部、190…ファイルフォーマット変換部
【先行技術文献】
【特許文献】
【0094】