(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023007044
(43)【公開日】2023-01-18
(54)【発明の名称】画像処理装置、画像処理方法、及びプログラム
(51)【国際特許分類】
G06V 30/242 20220101AFI20230111BHJP
G06V 30/14 20220101ALI20230111BHJP
H04N 1/40 20060101ALI20230111BHJP
【FI】
G06K9/62 610Z
G06K9/20 320P
H04N1/40 062
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021110009
(22)【出願日】2021-07-01
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100085660
【弁理士】
【氏名又は名称】鈴木 均
(72)【発明者】
【氏名】伊波 雄
【テーマコード(参考)】
5B029
5B064
5C077
【Fターム(参考)】
5B029AA01
5B029BB02
5B029BB12
5B029CC23
5B029CC29
5B029EE11
5B029EE14
5B064AA01
5B064AB02
5B064BA01
5B064CA05
5B064CA08
5B064DC10
5B064DC12
5B064DC45
5B064EA21
5B064EA27
5B064EA28
5C077PP27
5C077PP51
(57)【要約】
【課題】記録媒体上に印刷された表において、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一することにある。
【解決手段】注目したセルに隣接するセル内の文字画像に基づいて、注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定部141と、注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出部143と、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類部144と、フォントサイズ群分類部144による分類の結果と仮に決定されたフォントサイズとに基づいて、分類の結果ごとのフォントサイズを決定するフォントサイズ本決定部145と、を備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
複数のセル内にそれぞれ文字画像を含んだ原稿に係わる画像データから、前記複数のセルの各セル内の文字画像に対応する文字コードを特定するとともに、前記文字コードに対応するフォントサイズを決定する画像処理装置であって、
注目したセルに隣接するセル内の文字画像に基づいて、前記注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定部と、
前記注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出部と、
前記セル内の文字画像の属性と、前記セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、前記画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類部と、
前記フォントサイズ群分類部による分類の結果と前記仮に決定されたフォントサイズとに基づいて、前記分類の結果ごとのフォントサイズを決定するフォントサイズ本決定部と、を備えることを特徴とする画像処理装置。
【請求項2】
前記セル属性検出部は、文字体系の種別、背景色の種別、文字揃えの種別のうちの何れか1つを前記セル内の文字画像の属性として用いることを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記セル属性検出部は、前記背景色の種別として、注目したセル内の文字画像の色成分に基づいて、マイクロソフト・オフィース(登録商標)において定義される複数の標準の色のうち、最もユークリッド距離が小さい色に割り当てることを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記フォントサイズ群分類部は、セル属性がすべてそろっており、かつ、隣接セルであり、かつ隣接セル内の文字と注目文字との前記仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とすることを特徴とする請求項1に記載の画像処理装置。
【請求項5】
前記フォントサイズ群分類部は、前記分類動作において分類されなかった文字に対して、セル属性のうち文字体系の種別、揃えの種別がそろっており、隣接するセルであり、かつ隣接するセル内の文字と注目文字との前記仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とすることを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記フォントサイズ群分類部は、前記分類動作において分類されなかった文字は、前記仮に決定されたフォントサイズをそのまま注目文字のフォントサイズとして決定することを特徴とする請求項4または5に記載の画像処理装置。
【請求項7】
前記フォントサイズ決定部は、前記分類の結果ごとのフォントサイズのうち最も多いフォントサイズに決定することを特徴とする請求項1に記載の画像処理装置。
【請求項8】
前記フォントサイズ決定部は、前記分類の結果ごとのフォントサイズのうち最も多いフォントサイズが同数だった場合は、平均したフォントサイズに決定することを特徴とする請求項1に記載の画像処理装置。
【請求項9】
複数のセル内にそれぞれ文字画像を含んだ原稿に係わる画像データから、前記複数のセルの各セル内の文字画像に対応する文字コードを特定するとともに、前記文字コードに対応するフォントサイズを決定する画像処理方法であって、
注目したセルに隣接するセル内の文字画像に基づいて、前記注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定ステップと、
前記注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出ステップと、
前記セル内の文字画像の属性と、前記セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、前記画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類ステップと、
前記フォントサイズ群分類ステップによる分類の結果と前記仮に決定されたフォントサイズとに基づいて、前記分類の結果ごとのフォントサイズを決定するフォントサイズ本決定ステップと、を備えることを特徴とする画像処理方法。
【請求項10】
請求項9に記載の画像処理方法における各ステップをプロセッサに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
【背景技術】
【0002】
従来、記録媒体に印刷された文書を印刷前の電子文書データに戻すことにより、電子文書データを再利用することでき、利便性が向上していた。
そこで、スキャナを用いて印刷された文書をスキャンして、像域分離処理等を行った後の文字画像にOCR(文字認識)を施して、例えばMicrosoft Office(登録商標)で採用されている、Office Open XML Document形式に変換する技術(Office変換、Word変換)が知られている。
【0003】
特許文献1には、文字コード毎にフォントサイズを求めるテーブルを設けることなく、画像データから文字画像のフォントサイズを的確に検出することを目的として、画像データ中の1文字の画像毎に外接矩形を検出すると共に、画像データを複数の塊に区分し、仮判定領域として設定する。各仮判定領域単位で構成要素である個々の文字の画像の外接矩形の高さに関する度数分布を作成し、有効な外接矩形の高さが2種類以上ある仮判定領域を正規判定領域とみなす。正規判定領域とみなされなかった仮判定領域について、正規判定領域の条件を満たすまで隣接する他の判定領域と統合し、正規判定領域毎に、その中の文字画像の外接矩形のうち最大の高さを代表値としてフォントサイズを決定するという技術が開示されている。
このように、特許文献1にあっては、一文字ごとに外接矩形を取得し、所定の基準でフォントサイズを検出し、文字画像の外接矩形のうち最大の高さを代表値としてフォントサイズを決定していた。
このため、特許文献1にあっては、例えばExcelやWord等により記録媒体上に印刷された表において、互いに隣接しない領域(セル)のフォントサイズを統一できないという問題があった。
【0004】
また、従来の文字認識処理にあっては、フォントサイズの算出処理において、原稿の画像データからフォントサイズを判定する領域(セル)として、注目したセルに対して隣接するセル内の文字や、単語としていた。
しかし、例えばExcel(登録商標)やWord(登録商標)などの表形式のセルを印刷した文書では、注目したセルに対して互いに隣接しないセル、すなわち、注目したセルからある程度離れているセルについては、フォントサイズを統一できないという問題があった。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の一実施形態は、上記に鑑みてなされたもので、その目的は、記録媒体上に印刷された表において、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一することにある。
【0006】
上記課題を解決するために、請求項1記載の発明は、複数のセル内にそれぞれ文字画像を含んだ原稿に係わる画像データから、前記複数のセルの各セル内の文字画像に対応する文字コードを特定するとともに、前記文字コードに対応するフォントサイズを決定する画像処理装置であって、注目したセルに隣接するセル内の文字画像に基づいて、前記注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定部と、前記注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出部と、前記セル内の文字画像の属性と、前記セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、前記画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類部と、前記フォントサイズ群分類部による分類の結果と前記仮に決定されたフォントサイズとに基づいて、前記分類の結果ごとのフォントサイズを決定するフォントサイズ決定部と、を備えることを特徴とする。
【発明の効果】
【0007】
本発明によれば、記録媒体上に印刷された表において、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係わる画像処理装置を含むシステムの構成を例示する図である。
【
図2】
図1に示す画像形成装置のハードウェア構成の一例を示す図である。
【
図3】
図1に示すPCのハードウェア構成図である。
【
図4】
図3に示すPCにより構成された画像処理装置の機能構成の一例を示す図である 。
【
図5】
図4に示すフォントサイズ決定部140の詳細な構成を示す機能ブロック図である。
【
図6】
図5に示すフォントサイズ決定部140においてフォットサイズを決定する動作を示すフローチャートである。
【
図7】(a)~(d)は、セル属性に基づいた各セルの分類方法の具体例を示す図である。
【
図8】従来の画像処理装置による処理結果の一例を表として示した図である。
【
図9】本発明の画像処理装置による認識結果を表として示した図である。
【発明を実施するための形態】
【0009】
以下、本発明を図面に示した実施の形態により詳細に説明する。
本発明は、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一するために、以下の構成を有する。
すなわち、本発明の画像処理装置は、複数のセル内にそれぞれ文字画像を含んだ原稿に係わる画像データから、複数のセルの各セル内の文字画像に対応する文字コードを特定するとともに、文字コードに対応するフォントサイズを決定する画像処理装置であって、注目したセルに隣接するセル内の文字画像に基づいて、注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定部と、注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出部と、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類部と、フォントサイズ群分類部による分類の結果と仮に決定されたフォントサイズとに基づいて、分類の結果ごとのフォントサイズを決定するフォントサイズ決定部と、を備えることを特徴とする。
以上の構成を備えることにより、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一することができる。
上記記載の本発明の特徴について、以下の図面を用いて詳細に解説する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。
上記の本発明の特徴に関して、以下、図面を用いて詳細に説明する。
【0010】
<システム構成>
図1は、本発明の一実施形態に係わる画像処理装置を含むシステムの構成を例示する図である。
システム1は、画像形成装置10、2つのパーソナルコンピュータであるPC80、PC90を備え、これらが通信ネットワークNを介して相互にデータの送受信を行う構成となっている。
画像形成装置10は、原稿シートを読み取るスキャナ部31、シート上に画像を形成するプリンタ部32、および通信機能などを備えるMFP(Multifunction Peripheral)である。スキャナ部31は、ADF(Auto Document Feeder:自動原稿送り装置)が設けられている場合はADFにセットされた原稿シートを読み取る。画像形成装置10は、スキャナ部31、プリンタ部32を用いることで、コピー、プリンタ、スキャナ、ファクシミリの各機能を利用者に提供する。また操作パネル40を介して利用者から指示を受け付け、もしくは通信ネットワークNを介してPC80、PC90から指示を受け付けることで、画像形成装置10はこれら機能を実行する。
【0011】
また画像形成装置10は、光学文字認識(以下、必要に応じて単に「文字認識」、もしくは「OCR」と称する)の技術を用いて、スキャナ部31により読み取られたスキャン画像から、電子データのテキストを抽出する機能,およびそのテキストとスキャン画像をもとに,編集可能な文書(ex.マイクロソフトWord文書)を作成する機能を有している。
なお、PC80、PC90は、画像形成装置10を利用する一般ユーザが用いる端末(コンピュータ)である。
本発明に係わる画像処理装置は、
図1に示すPC80、PC90により構成される。
【0012】
<画像形成装置のハードウェア構成>
図2は、
図1に示す画像形成装置10のハードウェア構成の一例を示す図である。
図2に示されているように、画像形成装置10は、コントローラ20、近距離通信回路60、エンジン制御部30、操作パネル40、ネットワークI/F(Interface)50を備えている。
コントローラ20は、コンピュータの主要部であるCPU25a、システムメモリ(MEM-P)22、ノースブリッジ(NB)25b、サウスブリッジ(SB)24、ASIC(Application Specific Integrated Circuit)26、記憶部であるローカルメモリ(MEM-C)27、HDD(Hard Disk Drive)コントローラ28、および、記憶部であるHD29を有する。またNB25bとCPU25aとは、SoC(System on a Chip)25により統合されている。
CPU25aは、画像形成装置10の全体制御を行う制御部である。NB25bは、CPU25aと、MEM-P22、SB24とを接続するためのブリッジであり、MEM-P22に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタおよびAGPターゲットとを有する。
【0013】
MEM-P22は、コントローラ20の各機能を実現させるプログラムやデータの格納用メモリであるROM22a、プログラムやデータの展開、およびメモリ印刷時の描画用メモリなどとして用いるRAM22bとからなる。尚、RAM22bに記憶されているプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM、CD-R、DVD等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0014】
SB24は、NB25bとPCIデバイス、周辺デバイスとを接続するためのブリッジである。ASIC26は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、PCIバス23、HDDコントローラ28およびMEM-C27をそれぞれ接続するブリッジの役割を有する。このASIC26は、PCIターゲットおよびAGPマスタ、ASIC26の中核をなすアービタ(ARB)、MEM-C27を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、並びに、スキャナ部31およびプリンタ部32との間でPCIバス23を介したデータ転送を行うPCIユニットからなる。尚、ASIC26には、USB(Universal Serial Bus)のインターフェースや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェースを接続するようにしてもよい。
【0015】
MEM-C27は、コピー用画像バッファおよび符号バッファとして用いるローカルメモリである。HD29は、後述の動作を実行するためのプログラムや各種制御用のデータを事前に記憶したストレージであり、画像データの蓄積、印刷時に用いるフォントデータやフォームの蓄積を行う用途にも用いられる。HD29は、CPU25aの制御にしたがってHD29に対するデータの読出または書込を制御する。
また、近距離通信回路60には、NFC、Bluetooth(登録商標)等の通信回路60aが備わっており、ユーザが所持しているICカードとの間でのデータ通信を実現する。ユーザがICカードを通信回路60aの近傍にかざすと、近距離通信回路60は、ICカードに記録されている各種データを読み取る。
【0016】
エンジン制御部30は、スキャナ部31およびプリンタ部32の制御を行う。操作パネル40は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部40a、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキーおよびコピー開始指示を受け付けるスタートキー等からなる操作パネル40bを備えている。コントローラ20は、画像形成装置10全体の制御を行い、例えば、描画、通信、操作パネル40からの入力等を制御する。スキャナ部31またはプリンタ部32には、誤差拡散やガンマ変換などの画像処理部分が含まれている。
尚、画像形成装置10は、操作パネル40のアプリケーション切り替えキーにより、ドキュメントボックス機能(=スキャナ機能)、コピー機能、プリンタ機能、およびファクシミリ機能を順次に切り替えて選択することが可能となる。またドキュメントボックス機能(スキャナ機能)には、OCRにより画像からテキストを抽出し、オフィス系の各種アプリケーションで使用可能なフォーマットに変換する機能も備えられている。
また、ネットワークI/F50は、通信ネットワークNを利用してデータ通信をするためのインターフェースである。近距離通信回路60およびネットワークI/F50は、PCIバス23を介して、ASIC26に電気的に接続されている。
【0017】
<PCのハードウェア構成>
図3は、
図1に示すPCのハードウェア構成図である。ここでは、PCのハードウェア構成について説明する。
図3に示されているように、PC80,90は、コンピュータによって構築されており、
図3に示されているように、CPU201、ROM202、RAM203、HD204、HDD(Hard Disk Drive)コントローラ205、ディスプレイ206、外部機器接続I/F(Interface)208、ネットワークI/F209、データバス210、キーボード211、ポインティングデバイス212、DVD-RW(Digital Versatile Disk Rewritable)ドライブ214、メディアI/F216を備えている。
これらのうち、CPU201は、PC80,90全体の動作を制御する。ROM202は、IPL等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。HD204は、プログラム等の各種データを記憶する。HDDコントローラ205は、CPU201の制御にしたがってHD204に対する各種データの読み出し又は書き込みを制御する。
【0018】
ディスプレイ206は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F208は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F209は、通信ネットワークNを利用してデータ通信をするためのインターフェースである。バスライン210は、
図3に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード211は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス212は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ214は、着脱可能な記録媒体の一例としてのDVD-RW213に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F216は、フラッシュメモリ等の記録メディア215に対するデータの読み出し又は書き込み(記憶)を制御する。
【0019】
<画像処理装置の機能構成>
図4は、
図3に示すPCにより構成された画像処理装置の機能構成の一例を示す図である。
画像処理装置120は、原稿の画像データから、文字コードを作成するとともに、フォントサイズを検出する機能を備えており、画像取得部125、オブジェクト認識部130、フォントサイズ決定部140及び電子データ生成部150を備えおり、例えば、パーソナルコンピュータのHD104に、以下に説明する処理を実行するためのプログラムをインストールしておき、CPUがHD104から読み出したプログラムを実行することにより構成される。
なお、画像処理装置120は、
図2に示す画像形成装置10のHD29に、以下に説明する処理を実行するためのプログラムをインストールしておき、CPU25aがHD29から読み出したプログラムを実行することにより構成されてもよい。
【0020】
画像取得部120は、外部の端末からLANを介して、もしくは、USBメモリなどの携帯記憶媒体から、原稿の画像データを取得する。外部の画像処理装置10のスキャナ部31から通信ネットワークNを介して、または外部のカメラを用いて、文書を含む原稿を読み取って画像データを取得するように構成してもよい。
【0021】
オブジェクト認識部130は、上記取得した原稿の画像データをページメモリに展開して、オブジェクトを認識する。オブジェクトには、文字、表、絵、図形などがある。このようにオブジェクトを認識する手段として公知の技術が用いられる。例えば、画像データにエッジ強調処理を施し、縦および/または横方向に画素をスキャンしてエッジを検出し、その検出頻度が一定の閾値より高い領域を文字オブジェクトと判定できる。また、表の抽出には、特許第5153857号公報で挙げられる方法により表の領域を表オブジェクトとして抽出することができる。それ以外の領域を絵、図形オブジェクトと判定することができる。
文字オブジェクトの画像データについて、公知の文字認識処理を実行してテキストデータを生成する。
例えば、文字オブジェクトの画像データについて、水平方向及び垂直方向における濃度ヒストグラムを作成して、1文字ずつ画像を切り出し、切り出した各文字画像から特徴点(例えば、閉ループや独立点の個数およびそれらの位置など)を抽出して、予め用意していたテーブルに納められていた文字のパターンとのマッチングを行って、その文字コードを特定する。
【0022】
オブジェクト認識部130は、文字オブジェクトについて文字認識処理して得られた文字コードをその位置情報と共に文字コードデータとして電子データ生成部150に送信する。表、絵、図形のオブジェクトは、その領域内の画像データと位置情報(メモリアドレス)を電子データ生成部150に送信する。また、文字コードデータ、文字オブジェクトの画像データおよび、表オブジェクトの画像データをフォントサイズ決定部140に送信する。
【0023】
フォントサイズ決定部140は、オブジェクト認識部130から送信されてきた文字オブジェクトの画像データおよび表オブジェクトの画像データに基づいて各文字についてフォントサイズを決定する。
電子データ生成部150は、フォントサイズ決定部140により決定されたフォントサイズで、オブジェクト認識部130により作成された文字コードの文字を表示することができるように、各文字のフォントサイズと文字コードを、それらの位置情報に基づいて関連付けると共に、画像取得部120により取得された画像データの表、絵、図形オブジェクトと統合して、所定の編集アプリケーションで編集できる形式の電子データを生成する。
【0024】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0025】
<フォントサイズ決定部の構成>
図5は、
図4に示すフォントサイズ決定部140の詳細な構成を示す機能ブロック図である。
フォントサイズ決定部140は、フォントサイズ仮決定部141、表内文字判定部142、セル属性検出部143、フォントサイズ群分類部144、フォントサイズ本決定部145を備える。
フォントサイズ仮決定部141は、オブジェクト認識部130から受信した文字オブジェクトの画像データに基づいて各文字についてフォントサイズを仮決定する。フォントサイズの仮決定の手段には、例えば特許文献1に記載された技術を用いる。
特許文献1では、一文字ごとに外接矩形を取得し、所定の基準でフォントサイズを検出する。さらに注目文字の周辺の文字(隣接する文字、単語)の情報を加味し、フォントサイズを調整することで、単語単位、あるいは文章単位でフォントサイズを統一させることができる。
【0026】
表内文字判定部142は、文字が表の内側に在るか否か文字オブジェクトの位置情報と表オブジェクトの位置情報に基づいて判定する。
セル属性検出部143は、表オブジェクトが持つ各セル内の文字画像の属性を検出する。検出されるセル情報としては少なくとも、英字、数字、日本語文字(漢字、仮名)といった文字体系の種別や、中央揃え、左揃え、右揃え、といった文字揃えの種別、背景色の種別を含む。文字体系の種別を検出する場合には、文字コードデータに基づいて決定できる。また、セル属性検出部143は、文字揃えの種別については、セル中の濃度ヒストグラムを作成し、その偏り度合いから決定できる。セル属性検出部143は、背景色の種別については、例えば、セル内の文字画像中の文字部を除いた部分のRGB値の平均値を算出し、マイクロソフト・オフィース(Microsoft Office)(登録商標)に定義された複数の標準の色(10色)のうちで最もユークリッド距離が小さい色を背景色として決定する。
【0027】
フォントサイズ群分類部144は、各セル内の文字画像の属性および仮決定されたフォントサイズに基づいて、表オブジェクト内でのフォントサイズ群の分類を行う。分類の詳細方法は
図6に示す。
フォントサイズ本決定部145は、フォントサイズ仮決定部で決定されたフォントサイズおよび、表内文字判定部で決定された表内文字判定結果、フォントサイズ群分類部で分類されたフォントサイズ群情報に基づいて、フォントサイズを本決定する。表内文字でなければ、仮決定されたフォントサイズを本決定とする。表内文字と判定されている場合は、フォントサイズ群情報より、同じ分類となった文字の仮決定フォントサイズのうち最も多いサイズに決定する。ただし、同数だった場合は、平均値とする。
【0028】
<フォントサイズ決定部の動作>
図6は、
図5に示すフォントサイズ決定部140においてフォットサイズを決定する動作を示すフローチャートである。
ステップS10では、フォントサイズ仮決定部141は、オブジェクト認識部130から受信した文字オブジェクトデータおよび文字コードデータに基づいてフォントサイズを仮決定する。
ステップS20では、表内文字判定部142は、オブジェクト認識部130から受信した文字オブジェクトデータおよび表オブジェクトデータに基づいて、注目の文字オブジェクトが表内文字か否かを判定する。判定の結果、表内の文字オブジェクトである場合は、S20へ、表内でない文字オブジェクトである場合はS30へ進む。
【0029】
ステップS30では、表内文字判定部142において、すべての文字オブジェクトの判定が終了した後に、セル属性検出部143は、各セル内の文字画像のセル内文字オブジェクトおよび文字コードデータに基づいて、セル属性を検出する。
セル属性検出部143は、注目したセルに含まれる文字画像の特徴を表す属性を検出する。セル属性検出部143は、文字体系の種別、背景色の種別、文字揃えの種別のうちの何れか1つをセル内の文字画像の属性として用いる。
セル属性検出部143は、背景色の種別として、注目したセル内の文字画像の色成分に基づいて、マイクロソフト・オフィース(登録商標)において定義される複数の標準の色のうち、最もユークリッド距離が小さい色に割り当てる。
【0030】
ステップS40では、フォントサイズ群分類部144は、仮決定されたフォントサイズおよび、セル属性情報に基づいて、各文字オブジェクトをどのフォントサイズ群属するか分類する。
フォントサイズ群分類部144は、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類する。
フォントサイズ群分類部144は、セル属性がすべてそろっており、かつ、隣接セルであり、かつ隣接セル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とする。
フォントサイズ群分類部144は、セル属性がすべてそろっており、かつ、隣接セルであり、かつ隣接セル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とする。
フォントサイズ群分類部144は、分類動作において分類されなかった文字に対して、セル属性のうち文字体系の種別、揃えの種別がそろっており、隣接するセルであり、かつ隣接するセル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とする。
フォントサイズ群分類部144は、分類動作において分類されなかった文字は、仮に決定されたフォントサイズをそのまま注目文字のフォントサイズとして決定する。
【0031】
ステップS50では、フォントサイズ本決定部145において、同一のフォントサイズ群に分類された文字オブジェクトは、そのフォントサイズ群の最も多いフォントサイズに統一し、フォントサイズを本決定する。
フォントサイズ本決定部145は、フォントサイズ群分類部144による分類の結果と仮に決定されたフォントサイズとに基づいて、分類の結果ごとのフォントサイズを本決定する。
フォントサイズ本決定部145は、フォントサイズ群分類部144による分類の結果ごとのフォントサイズのうち最も多いフォントサイズに本決定する。
フォントサイズ本決定部145は、フォントサイズ群分類部144による分類の結果ごとのフォントサイズのうち最も多いフォントサイズが同数だった場合は、平均したフォントサイズに本決定する。
ステップS60では、表内文字判定部142において、表内でないと判定された文字オブジェクトは、仮決定されたフォントサイズをそのまま本決定する。
【0032】
<各セルの分類方法>
図7(a)~(d)は、セル属性に基づいた各セル内の文字画像の分類方法の具体例を示す図である。
図7(a)は、画像データを記録媒体に印刷された原稿を示す図である。
図7(a)には、一般的な表の各部位の名称として、最上行に左から右に向かって、表側頭HST、表頭HD1、表頭HD3、表頭HD3が配列されている。
図7(a)に示す表には、最上行に左から右に向かって、食品名、タンパク質、脂質、糖質という文字が印刷されている。
また、一般的な表の各部位の名称として、最左列に上から下に向かって、表側頭HST、表側HS1、表側HS2、表側HS3、が配列されている。
図7(a)に示す表には、最左列に上から下に向かって、食品名、牛乳、濃厚牛乳、低脂肪乳という文字が印刷されている。
【0033】
図7(b)は、記録媒体に印刷された原稿のフォントと、そのフォントのフォントサイズを示す図である。
電子データを生成した後も、
図7(b)に示す状態になっていることが理想的である。なお、
図7(b)において、原稿のフォントのフォントサイズは、()内に注記している。
【0034】
図7(c)は、フォントサイズ仮決定部141により、フォントサイズを仮決定した後の一例を示す図である。
図7(c)においても、()内にはフォントサイズを注記している。また
図7(c)に示す()内の下線「_」は原稿のフォントサイズとの相違が出現している箇所である。
一部(_のある箇所)は原稿のフォントサイズを正確に再現できていない。フォントサイズ仮決定部141により、フォントサイズを仮に決定した時点では、隣接する文字だけを考慮してフォントサイズが決定されるため、セル内の文字画像のフォントサイズは統一することができる。
しかし、他セル内の文字画像のフォントサイズが考慮されないため、セル間でフォントサイズがバラバラになってしまうケースがある。例えば、
図7(c)に示すように、脂質列の数字は「40」のみpt20となっており、上下の数値のフォントサイズと異なっている。通常のオフィス文書では同じ文字揃えの種別、同一の文字体系の種別、同じ背景色の種別であれば、フォントサイズが同じになる方が目視した際の違和感がなく、自然である。
【0035】
<分類のルール>
次に、フォントサイズ群分類部144により、セル属性、仮に決定されたフォントサイズに基づいたフォントサイズ群の分類のルールについて説明する。分類のルールは以下である。
フォントサイズ群分類部144では、以下、[1]~[3]に段階分けして文字オブジェクトをフォントサイズ群に分類する。
[1]以下、条件を満たす文字オブジェクトは同じフォントサイズ群とする。
(ア)文字体系の種別(英字、数字、日本語字)、背景色の種別、文字揃えの種別が同じ
(イ)隣接している
(ウ)隣接セルの文字オブジェクトとの仮に決定されたフォントサイズとの差が所定値以下であること
【0036】
[2][1]において分類されなかったセル内の文字画像に対し、以下の条件を満たす文字オブジェクトは同じフォントサイズ群とする。
(エ)文字体系の種別(英字、数字、日本語)、文字揃えの種別がそろっている
(オ)隣接している
(カ)隣接セルの文字オブジェクトとの仮に決定されたフォントサイズとの差が所定値以下であること
【0037】
[3][1]および[2]において分類されなかったセルは、その他フォントサイズ群とする。
上記の分類ルールに従い、
図7(c)を分類した結果が
図7(d)となる。
なお、[1]の(ウ)および[2]の(カ)におけるフォントサイズとの差は、ここでは2ptとする。[1]の段階でI~IV群が分類される。
[2]の段階でV群が分類され、[3]でVI群が分類される。例えば[1]におえるIII群における文字オブジェクトは文字体系の種別が数字、背景色の種別は淡いグレー、文字揃えの種別は右揃えとなり、同じ群となる。III群とIV群を見比べると文字体系の種別、文字揃えの種別はそろっており、かつ隣接しており、フォントサイズの差も2pt以下だが、背景色の種別が異なるため、III群とIV群は別の群となっている。
【0038】
フォントサイズ本決定部145では、群ごとのフォントサイズのうち最も多いサイズにその群のサイズを統一する。ただし、その群のサイズが同数である場合は、その群のサイズを平均サイズに統一する。例えばI群の場合は、20,16,18ptと最も多いサイズが同数になるため、平均サイズとなる18ptに修正され、フォントサイズが本決定される。
【0039】
<従来技術による処理結果>
図8は、従来の画像処理装置による処理結果の一例を表として示した図である。
従来の画像処理装置にあっては、処理結果として表J1が生成され、表J1に含まれる枠J3内には、横方向に配列された4つのセルが含まれている。枠J3内の4つのセルには、それぞれフォントサイズが異なる文字画像が収容されている。すなわち、従来の処理結果によれば、セル単位で異なるフォントサイズの文字画像が決定されていた。
従来の画像処理装置では、原稿の画像データからフォントサイズを判定する領域として、“隣接”する文字、単語としていた。また、画像データにセルが含まれる場合、セル単位でフォントサイズを判定していた。
【0040】
<本発明による処理結果>
図9は、本発明の画像処理装置による認識結果を表として示した図である。
本発明の画像処理装置にあっては、処理結果として表J5が生成され、表J5に含まれる枠J7内には、横方向に配列された4つのセルが含まれている。枠J7内の4つのセルには、それぞれフォントサイズが同一になる文字画像が収容されている。すなわち、本発明の処理結果によれば、同一分類に含まれるセル内の文字画像に対しては同一になるフォントサイズの文字画像が決定される。
【0041】
本発明の画像処理装置にあっては、同一表内の各セル内の文字画像を分類し、分類ごとにフォントサイズを判定するので、同一表内における不本意なフォントサイズの不一致を解消することができる。
なお、分類には、各セル内の文字画像の属性である文字体系の種別、背景色の種別、文字揃えの種別のうちいずれか1つを用いる。ここで、セル内の文字画像の属性がより似ているものは、フォントサイズが同じになることを前提としている。
本発明では、表形式内の文字のフォントサイズを決定するのに際して、以下の特徴を有する。
単一セル内の文字画像のフォントサイズを仮に決定し、単一のセル内の文字画像の属性を検出し、セル内の文字画像の属性と仮に決定されたフォントサイズとに基づいてすべてのセルを分類し、分類と単一セルのフォントサイズに基づいて分類ごとのフォントサイズを決定する。
要するに、単一セル内の文字画像のフォントサイズとセルの分類により、フォントサイズを決定することが特徴になっている。
本発明によれば、同一表内の各セルを分類し、分類ごとにフォントサイズを判定するので、同一表内における不本意なフォントサイズの不一致を解消することができる。分類には、各セルの属性である文字体系の種別、背景色の種別、文字揃えの種別のうちいずれか1つを用いる。
【0042】
<本実施形態の態様例の作用、効果のまとめ>
<第1態様>
本態様の画像処理装置120は、複数のセル内にそれぞれ文字画像を含んだ原稿に係わる画像データから、複数のセルの各セル内の文字画像に対応する文字コードを特定するとともに、文字コードに対応するフォントサイズを決定する画像処理装置であって、注目したセルに隣接するセル内の文字画像に基づいて、注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定部141と、注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出部143と、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類部144と、フォントサイズ群分類部144による分類の結果と仮に決定されたフォントサイズとに基づいて、分類の結果ごとのフォントサイズを決定するフォントサイズ本決定部145と、を備えることを特徴とする。
本態様によれば、注目したセルに隣接するセル内の文字画像に基づいて、注目したセルのフォントサイズを仮に決定しておき、注目したセルに含まれる文字画像の特徴を表す属性を検出し、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類し、分類の結果と仮に決定されたフォントサイズに基づいて、分類の結果ごとのフォントサイズを決定することができる。
これにより、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一することができる。
【0043】
<第2態様>
本態様のセル属性検出部143は、文字体系の種別、背景色の種別、文字揃えの種別のうちの何れか1つをセル内の文字画像の属性として用いることを特徴とする。
本態様によれば、セル属性検出部143は、文字体系の種別、背景色の種別、文字揃えの種別のうちの何れか1つをセル内の文字画像の属性として用いることで、注目したセルに含まれる文字画像の特徴を表す属性を検出することができる。
【0044】
<第3態様>
本態様のセル属性検出部143は、背景色の種別として、注目したセル内の文字画像の色成分に基づいて、マイクロソフト・オフィース(登録商標)において定義される複数の標準の色のうち、最もユークリッド距離が小さい色に割り当てることを特徴とする。
本態様によれば、セル属性検出部143は、背景色の種別として、注目したセル内の文字画像の色成分に基づいて、マイクロソフト・オフィース(登録商標)において定義される複数の標準の色のうち、最もユークリッド距離が小さい色に割り当てることで、注目したセルに含まれる文字画像の色成分の特徴を表す属性を検出することができる。
【0045】
<第4態様>
本態様のフォントサイズ群分類部144は、セル属性がすべてそろっており、かつ、隣接セルであり、かつ隣接セル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とすることを特徴とする。
本態様によれば、フォントサイズ群分類部144は、セル属性がすべてそろっており、かつ、隣接セルであり、かつ隣接セル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とすることで、セル内の文字画像を分類することができる。
【0046】
<第5態様>
本態様のフォントサイズ群分類部144は、分類動作において分類されなかった文字に対して、セル属性のうち文字体系の種別、揃えの種別がそろっており、隣接するセルであり、かつ隣接するセル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とすることを特徴とする。
本態様によれば、フォントサイズ群分類部144は、分類動作において分類されなかった文字に対して、セル属性のうち文字体系の種別、揃えの種別がそろっており、隣接するセルであり、かつ隣接するセル内の文字と注目文字との仮に決定されたフォントサイズとの差が所定値以下である場合に、同じ分類の結果とすることで、セル内の文字画像を分類することができる。
【0047】
<第6態様>
本態様のフォントサイズ群分類部144は、分類動作において分類されなかった文字は、仮に決定されたフォントサイズをそのまま注目文字のフォントサイズとして決定することを特徴とする。
本態様によれば、フォントサイズ群分類部144は、分類動作において分類されなかった文字は、仮に決定されたフォントサイズをそのまま注目文字のフォントサイズとして決定することで、分類動作において分類されなかった文字に対して、フォントサイズを決定することができる。
【0048】
<第7態様>
本態様のフォントサイズ本決定部145は、分類の結果ごとのフォントサイズのうち最も多いフォントサイズに決定することを特徴とする。
本態様によれば、フォントサイズ本決定部145は、分類の結果ごとのフォントサイズのうち最も多いフォントサイズに決定することで、フォントサイズを決定することができる。
【0049】
<第8態様>
本態様のフォントサイズ本決定部145は、分類の結果ごとのフォントサイズのうち最も多いフォントサイズが同数だった場合は、平均したフォントサイズに決定することを特徴とする。
本態様によれば、フォントサイズ本決定部145は、分類の結果ごとのフォントサイズのうち最も多いフォントサイズが同数だった場合は、平均したフォントサイズに決定することで、フォントサイズを決定することができる。
【0050】
<第9態様>
本態様の画像処理方法は、複数のセル内にそれぞれ文字画像を含んだ原稿に係わる画像データから、複数のセルの各セル内の文字画像に対応する文字コードを特定するとともに、文字コードに対応するフォントサイズを決定する画像処理方法であって、注目したセルに隣接するセル内の文字画像に基づいて、注目したセルのフォントサイズを仮に決定するフォントサイズ仮決定ステップ(S10)と、注目したセルに含まれる文字画像の特徴を表す属性を検出するセル属性検出ステップ(S30)と、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類するフォントサイズ群分類ステップ(S40)と、フォントサイズ群分類ステップ(S40)による分類の結果と仮に決定されたフォントサイズとに基づいて、分類の結果ごとのフォントサイズを決定するフォントサイズ本決定ステップ(S50)と、を備えることを特徴とする。
本態様によれば、注目したセルに隣接するセル内の文字画像に基づいて、注目したセルのフォントサイズを仮に決定しておき、注目したセルに含まれる文字画像の特徴を表す属性を検出し、セル内の文字画像の属性と、セル内の文字画像に対して仮に決定されたフォントサイズとに基づいて、画像データに含まれるすべてのセル内の文字画像を分類し、分類の結果と仮に決定されたフォントサイズに基づいて、分類の結果ごとのフォントサイズを決定することができる。
これにより、互いに隣接しないセル内の文字画像に対応するフォントサイズを統一することができる。
【0051】
<第10態様>
本態様のプログラムは、第9態様記載の画像処理方法における各ステップをプロセッサに実行させることを特徴とする。
本態様によれば、各ステップをプロセッサに実行させることができる。
【符号の説明】
【0052】
1…システム、10…画像処理装置、20…コントローラ、22a…ROM、22b…RAM、23…PCIバス、25a…CPU、26…ASIC、28…HDDコントローラ、30…エンジン制御部、31…スキャナ部、32…プリンタ部、40…操作パネル、40a…パネル表示部、40b…操作パネル、50…ネットワークI/F、60…近距離通信回路、60…近距離通信回路、60a…通信回路、80…PC、90…PC、101…CPU、102…ROM、103…RAM、105…コントローラ、105…HDDコントローラ、106…ディスプレイ、108…外部機器接続I/F、109…ネットワークI/F、120…画像処理装置、125…画像取得部、111…キーボード、112…ポインティングデバイス、115…記録メディア、116…メディアI/F、120…画像取得部、130…オブジェクト認識部、140…フォントサイズ決定部、141…フォントサイズ仮決定部、142…表内文字判定部、143…セル属性検出部、144…フォントサイズ群分類部、145…フォントサイズ本決定部、150…電子データ生成部、208…コントローラ
【先行技術文献】
【特許文献】
【0053】