特許6000992 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラドキュメントソリューションズ株式会社の特許一覧

特許6000992文書ファイル生成装置及び文書ファイル生成方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6000992

(24)【登録日】2016年9月9日

(45)【発行日】2016年10月5日

(54)【発明の名称】文書ファイル生成装置及び文書ファイル生成方法

(51)【国際特許分類】

G06F 17/21 20060101AFI20160923BHJP

【ＦＩ】

G06F17/21 640

【請求項の数】12

【全頁数】17

(21)【出願番号】特願2014-11223(P2014-11223)

(22)【出願日】2014年1月24日

(65)【公開番号】特開2015-138496(P2015-138496A)

(43)【公開日】2015年7月30日

【審査請求日】2015年11月20日

【早期審査対象出願】

(73)【特許権者】

【識別番号】000006150

【氏名又は名称】京セラドキュメントソリューションズ株式会社

(74)【代理人】

【識別番号】100097113

【弁理士】

【氏名又は名称】堀城之

(74)【代理人】

【識別番号】100162363

【弁理士】

【氏名又は名称】前島幸彦

(72)【発明者】

【氏名】平塚元規

【審査官】川▲崎▼ 博章

(56)【参考文献】

【文献】特開２００５−０６３０５２（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／２０ − １７／２８

(57)【特許請求の範囲】

【請求項1】

文字認識によって得られる原稿の文字画像をデータ化した文書ファイルを生成する文書ファイル生成装置であって、
前記文字画像をベクトル化するベクトル化手段と、
該ベクトル化手段によるベクトル化の処理を制御するベクトル化処理制御手段とを備え、
前記ベクトル化処理制御手段は、
前記ベクトル化の処理の開始前である第１段階で、前記文字画像の文字数及び文字サイズに基づいた第１のファイルのサイズを算出し、
前記ベクトル化の処理の実行中である第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により抽出される文字画像の文字数及び文字サイズに基づいた第２のファイルのサイズを算出し、
前記ベクトル化の処理の終了後である第３段階で、前記文字画像の文字数及び前記ベクトル化したデータに基づく第３のファイルのサイズを算出し、
前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化手段によってベクトル化されているデータを書き込んだベクトル化ファイルを生成する
ことを特徴とする文書ファイル生成装置。

【請求項2】

前記ベクトル化処理制御手段は、
前記文字認識によって得られる原稿の文字画像を、それぞれの文字画像毎にカウントするカウント手段と、
前記ファイルのサイズを算出して比較するファイルサイズ算出比較手段と、
前記ベクトル化ファイル又は文書ファイルを生成する画像処理手段とを有し、
前記ファイルサイズ算出比較手段は、
前記第１段階で、前記文字画像の文字数にそれぞれの文字画像サイズを乗じた第１のファイルのサイズを算出し、
前記第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により対象文字を抽出し、前記文字画像の文字数に該抽出された対象文字のフォントのサイズを乗じた第２のファイルのサイズを算出し、
前記第３段階で、前記文字画像の文字数に前記ベクトル化によるデータを乗じた第３のファイルのサイズを算出し、
前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズと前記原稿のファイルのサイズとを比較し、
前記画像処理手段は、
前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化ファイルを生成し、
前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより大きい場合、以降の処理を中断し、前記原稿のファイルのファイル形式に従った文書ファイルを生成する
ことを特徴とする請求項１に記載の文書ファイル生成装置。

【請求項3】

前記ファイルサイズ算出比較手段は、前記第１のファイルのサイズを算出する際、前記カウント手段でカウントされたそれぞれの文字画像の合計文字数に、それぞれの文字画像のサイズを平均化した平均文字画像サイズを乗じることを特徴とする請求項２に記載の文書ファイル生成装置。

【請求項4】

前記画像処理手段は、
前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする請求項２又は３に記載の文書ファイル生成装置。

【請求項5】

前記画像処理手段は、前記文字認識により得られる文字画像のパターンから得られる特徴量と一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする請求項２又は３に記載の文書ファイル生成装置。

【請求項6】

前記フォント辞書への登録を行う場合、既に登録済みの文字についてはその登録が行われないことを特徴とする請求項４又は５に記載の文書ファイル生成装置。

【請求項7】

文字認識によって得られる原稿の文字画像をデータ化した文書ファイルを生成する文書ファイル生成方法であって、
ベクトル化手段により前記文字画像をベクトル化する工程と、
ベクトル化処理制御手段により該ベクトル化手段によるベクトル化の処理を制御する工程とを有し、
前記ベクトル化処理制御手段は、
前記ベクトル化の処理の開始前である第１段階で、前記文字画像の文字数及び文字サイズに基づいた第１のファイルのサイズを算出し、
前記ベクトル化の処理の実行中である第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により抽出される文字画像の文字数及び文字サイズに基づいた第２のファイルのサイズを算出し、
前記ベクトル化の処理の終了後である第３段階で、前記文字画像の文字数及び前記ベクトル化したデータに基づく第３のファイルのサイズを算出し、
前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化手段によってベクトル化されているデータを書き込んだベクトル化ファイルを生成する
ことを特徴とする文書ファイル生成方法。

【請求項8】

前記ベクトル化処理制御手段は、
カウント手段により、前記文字認識によって得られる原稿の文字画像を、それぞれの文字画像毎にカウントする工程と、
ファイルサイズ算出比較手段により、前記ファイルのサイズを算出して比較する工程と、
画像処理手段により、前記ベクトル化ファイル又は文書ファイルを生成する工程とを有し、
前記ファイルサイズ算出比較手段は、
前記第１段階で、前記文字画像の文字数にそれぞれの文字画像サイズを乗じた第１のファイルのサイズを算出し、
前記第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により対象文字を抽出し、前記文字画像の文字数に該抽出された対象文字のフォントのサイズを乗じた第２のファイルのサイズを算出し、
前記第３段階で、前記文字画像の文字数に前記ベクトル化によるデータを乗じた第３のファイルのサイズを算出し、
前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズと前記原稿のファイルのサイズとを比較し、
前記画像処理手段は、
前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化ファイルを生成し、
前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより大きい場合、以降の処理を中断し、前記原稿のファイルのファイル形式に従った文書ファイルを生成する
ことを特徴とする請求項７に記載の文書ファイル生成方法。

【請求項9】

前記ファイルサイズ算出比較手段は、前記第１のファイルのサイズを算出する際、前記カウント手段でカウントされたそれぞれの文字画像の合計文字数に、それぞれの文字画像のサイズを平均化した平均文字画像サイズを乗じることを特徴とする請求項８に記載の文書ファイル生成方法。

【請求項10】

前記画像処理手段は、
前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする請求項８又は９に記載の文書ファイル生成方法。

【請求項11】

前記画像処理手段は、前記文字認識により得られる文字画像のパターンから得られる特徴量と一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする請求項８又は９に記載の文書ファイル生成方法。

【請求項12】

前記フォント辞書への登録を行う場合、既に登録済みの文字についてはその登録が行われないことを特徴とする請求項１０又は１１に記載の文書ファイル生成方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文字認識によって得られる原稿の文字画像をデータ化し、たとえばＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）形式などの文書ファイルを生成する文書ファイル生成装置及び文書ファイル生成方法に関する。

【背景技術】

【0002】

電子書類の規格の一種としてＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）形式がある。ＰＤＦ形式のファイル（以下、ＰＤＦファイルという）には、文書内で用いられるフォント情報をそのＰＦＤファイル自体に埋め込んでおくことができる。そのため、フォントを埋め込んだＰＦＤファイルは、それを作成した環境以外でも、文書に埋め込まれたフォントを用いて作成者の意図通りに描画（表示あるいは印刷）することができる。

【0003】

また、ＰＤＦでは、文書を電子化するに際してファイルサイズを抑えるために、高圧縮方式が用いられている。これは、画像に含まれる文字や図形といったオブジェクト毎に画像層（画像レイヤ）で識別し、それぞれの画像レイヤに含まれるオブジェクトに応じて画像処理や画像圧縮が行われるようにしたものである。これにより、高画質と高圧縮とが同時に達成されるようになっている。

【0004】

ところで、ＰＤＦで描画される、たとえば文字画像を細かく綺麗に描画させる手段の一つとして、文字画像のベクトル化が挙げられる。ところが、文字画像をベクトル化すると、ベクトル化したフォントデータの描画処理をＰＤＦファイル上に記載する必要があり、テキストデータに対して大きくなってしまう。

【0005】

このような不具合を解消する場合、たとえば特許文献１に示されている文書作成方法を適用することが考えられる。すなわち、特許文献１では、フォントを文書ファイルに埋め込むか否かの基準となるフォント名及びポイント数（すなわちサイズ）の閾値をテーブルとして入力し、処理対象の元データからその中で使用されているフォント名とポイント数とを獲得し、元データ内で使用されているフォント名がテーブル中に登録されていれば、その元データ中におけるポイント数とテーブル中のポイント数閾値とを比較し、閾値よりも大きいポイントの文字があれば、そのフォントを埋め込むものと決定するようにした文書作成方法を提案している。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２００５−０６３０５２

【発明の概要】

【発明が解決しようとする課題】

【0007】

上述した特許文献１では、フォント情報を含むことのできる文書情報を作成する際に、フォントの名前のみならず、フォントのポイント数（すなわちサイズ）にも着目するようにしているため、作成される文書ファイルのサイズの縮小が可能となっている。

【0008】

ところが、フォント毎にポイント数などを持たせるようにすると、フォント毎のパターンが必要となり、登録されるフォント数が多くなるに従い、ファイルサイズが大きくなってしまうという問題があった。

【0009】

本発明は、このような状況に鑑みてなされたものであり、ファイルサイズを増大させることなく、画像を細かく綺麗に描画するための文書ファイルを生成することができる文書ファイル生成装置及び文書ファイル生成方法を提供することを目的とする。

【課題を解決するための手段】

【0010】

本発明の文書ファイル生成装置は、文字認識によって得られる原稿の文字画像をデータ化した文書ファイルを生成する文書ファイル生成装置であって、前記文字画像をベクトル化するベクトル化手段と、該ベクトル化手段によるベクトル化の処理を制御するベクトル化処理制御手段とを備え、前記ベクトル化処理制御手段は、前記ベクトル化の処理の開始前である第１段階で、前記文字画像の文字数及び文字サイズに基づいた第１のファイルのサイズを算出し、前記ベクトル化の処理の実行中である第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により抽出される文字画像の文字数及び文字サイズに基づいた第２のファイルのサイズを算出し、前記ベクトル化の処理の終了後である第３段階で、前記文字画像の文字数及び前記ベクトル化したデータに基づく第３のファイルのサイズを算出し、前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化手段によってベクトル化されているデータを書き込んだベクトル化ファイルを生成することを特徴とする。
また、前記ベクトル化処理制御手段は、前記文字認識によって得られる原稿の文字画像を、それぞれの文字画像毎にカウントするカウント手段と、前記ファイルのサイズを算出して比較するファイルサイズ算出比較手段と、前記ベクトル化ファイル又は文書ファイルを生成する画像処理手段とを有し、前記ファイルサイズ算出比較手段は、前記第１段階で、前記文字画像の文字数にそれぞれの文字画像サイズを乗じた第１のファイルのサイズを算出し、前記第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により対象文字を抽出し、前記文字画像の文字数に該抽出された対象文字のフォントのサイズを乗じた第２のファイルのサイズを算出し、前記第３段階で、前記文字画像の文字数に前記ベクトル化によるデータを乗じた第３のファイルのサイズを算出し、前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズと前記原稿のファイルのサイズとを比較し、前記画像処理手段は、前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化ファイルを生成し、前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより大きい場合、以降の処理を中断し、前記原稿のファイルのファイル形式に従った文書ファイルを生成することを特徴とする。
また、前記ファイルサイズ算出比較手段は、前記第１のファイルのサイズを算出する際、前記カウント手段でカウントされたそれぞれの文字画像の合計文字数に、それぞれの文字画像のサイズを平均化した平均文字画像サイズを乗じることを特徴とする。
また、前記画像処理手段は、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする。
また、前記画像処理手段は、前記文字認識により得られる文字画像のパターンから得られる特徴量と一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする。
また、前記フォント辞書への登録を行う場合、既に登録済みの文字についてはその登録が行われないことを特徴とする。
本発明の文書ファイル生成方法は、文字認識によって得られる原稿の文字画像をデータ化した文書ファイルを生成する文書ファイル生成方法であって、ベクトル化手段により前記文字画像をベクトル化する工程と、ベクトル化処理制御手段により該ベクトル化手段によるベクトル化の処理を制御する工程とを有し、前記ベクトル化処理制御手段は、前記ベクトル化の処理の開始前である第１段階で、前記文字画像の文字数及び文字サイズに基づいた第１のファイルのサイズを算出し、前記ベクトル化の処理の実行中である第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により抽出される文字画像の文字数及び文字サイズに基づいた第２のファイルのサイズを算出し、前記ベクトル化の処理の終了後である第３段階で、前記文字画像の文字数及び前記ベクトル化したデータに基づく第３のファイルのサイズを算出し、前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化手段によってベクトル化されているデータを書き込んだベクトル化ファイルを生成することを特徴とする。
また、前記ベクトル化処理制御手段は、カウント手段により、前記文字認識によって得られる原稿の文字画像を、それぞれの文字画像毎にカウントする工程と、ファイルサイズ算出比較手段により、前記ファイルのサイズを算出して比較する工程と、画像処理手段により、前記ベクトル化ファイル又は文書ファイルを生成する工程とを有し、前記ファイルサイズ算出比較手段は、前記第１段階で、前記文字画像の文字数にそれぞれの文字画像サイズを乗じた第１のファイルのサイズを算出し、前記第２段階で、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により対象文字を抽出し、前記文字画像の文字数に該抽出された対象文字のフォントのサイズを乗じた第２のファイルのサイズを算出し、前記第３段階で、前記文字画像の文字数に前記ベクトル化によるデータを乗じた第３のファイルのサイズを算出し、前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズと前記原稿のファイルのサイズとを比較し、前記画像処理手段は、前記第１段階〜第３段階で、前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより小さい場合、前記ベクトル化ファイルを生成し、前記第１段階、前記第２段階又は前記第３段階のいずれかで前記第１〜第３のファイルのサイズが前記原稿のファイルのサイズより大きい場合、以降の処理を中断し、前記原稿のファイルのファイル形式に従った文書ファイルを生成することを特徴とする。
また、前記ファイルサイズ算出比較手段は、前記第１のファイルのサイズを算出する際、前記カウント手段でカウントされたそれぞれの文字画像の合計文字数に、それぞれの文字画像のサイズを平均化した平均文字画像サイズを乗じることを特徴とする。
また、前記画像処理手段は、前記文字認識により得られる文字座標と前記ベクトル化したデータに含まれる文字座標との照合により一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする。
また、前記画像処理手段は、前記文字認識により得られる文字画像のパターンから得られる特徴量と一致する文字画像のベクトル化データをフォント辞書に登録し、該登録したベクトル化データを用いて前記ベクトル化ファイルを生成することを特徴とする。
また、前記フォント辞書への登録を行う場合、既に登録済みの文字についてはその登録が行われないことを特徴とする。
本発明の文書ファイル生成装置及び文書ファイル生成方法では、文字画像のベクトル化の処理の開始前である第１段階で、文字画像の文字数及び文字サイズに基づいた第１のファイルのサイズを算出し、文字画像のベクトル化の処理の実行中である第２段階で、文字認識により得られる文字座標とベクトル化したデータに含まれる文字座標との照合により抽出される文字画像の文字数及び文字サイズに基づいた第２のファイルのサイズを算出し、文字画像のベクトル化の処理の終了後である第３段階で、文字画像の文字数及びベクトル化したデータに基づく第３のファイルのサイズを算出し、第１段階〜第３段階で、第１〜第３のファイルのサイズが原稿のファイルのサイズより小さい場合、ベクトル化手段によってベクトル化されているデータを書き込んだベクトル化ファイルが生成される。
よって、第３段階での比較により、第３のファイルのサイズが原稿のファイルのサイズより小さい場合、ベクトル化されているデータを書き込んだベクトル化ファイルが原稿のファイルのサイズより小さくなる。

【発明の効果】

【0011】

本発明の文書ファイル生成装置及び文書ファイル生成方法によれば、第３段階での比較により、第３のファイルのサイズが原稿のファイルのサイズより小さい場合、ベクトル化されているデータを書き込んだベクトル化ファイルが原稿のファイルのサイズより小さくなることから、ファイルサイズを増大させることなく、画像を細かく綺麗に描画するための文書ファイルを生成することができる。

【図面の簡単な説明】

【0012】

【図1】本発明の文書ファイル生成装置の一実施形態を説明するための図である。

【図2】図１の文書ファイル生成装置による文書ファイル生成方法の概要を説明するためのフローチャートである。

【図3】図１の文書ファイル生成装置による画像処理の概要を説明するための図である。

【図4】図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。

【図5】図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。

【図6】図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。

【図7】図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。

【図8】図１の文書ファイル生成装置における、ベクトル化とＯＣＲ（文字認識）を利用したベクトル化処理について説明するための図である。

【図9】図１の文書ファイル生成装置における、ベクトル化とパターンマッチングを利用したベクトル化処理について説明するための図である。

【図10】図１の文書ファイル生成装置における、ベクトル化とパターンマッチングを利用したベクトル化処理について説明するための図である。

【発明を実施するための最良の形態】

【0013】

以下、本発明の文書ファイル生成装置の一実施形態を、図１〜図３を参照しながら説明する。まず、図１に示すように、文書ファイル生成装置１０は、制御部１１、操作部１２、表示部１３、スキャナー部１４を備えている。

【0014】

制御部１１は、図示しないＲＯＭ内の所定のプログラムに基づき、文書ファイル生成装置１０の全体の動作を制御するものであり、操作受付部１１ａ、画像認識部１１ｂ、画像処理部１１ｃ、ファイルサイズ算出比較部１１ｄ、カウンター１１ｅ、ベクトル化部１１ｆ、メモリー１１ｇを備えている。

【0015】

操作受付部１１ａは、操作部１２による画像処理に係わる操作を受け付ける。画像認識部１１ｂは、スキャナー部１４によって読み取られた文字画像のＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ：文字認識）を行う。すなわち、スキャナー部１４によって読み取られた文字画像が予め記憶されているパターンと照合されて特定され、その特定された文字画像のデータが得られる。

【0016】

画像処理部１１ｃは、ベクトル化部１１ｆによってベクトル化されているデータを書き込んだ文書ファイル（以下、ベクトル化ファイルという）、又は後述の原稿２０のファイル形式に従った文書ファイルの生成などを行う。ファイルサイズ算出比較部１１ｄは、ベクトル化部１１ｆによるベクトル化の処理開始前（第１段階）、ベクトル化部１１ｆによるベクトル化の処理実行中（第２段階）、ベクトル化部１１ｆによるベクトル化の処理終了後（第３段階）のそれぞれにてファイルのサイズを算出する。また、ファイルサイズ算出比較部１１ｄは、第１段階〜第３段階のそれぞれにて算出したファイルのサイズと後述の原稿２０のファイルのサイズとの比較を行うものであるが、その詳細については後述する。

【0017】

カウンター１１ｅは、画像認識部１１ｂによって認識された文字毎の数（文字数）をカウントする。ベクトル化部１１ｆは、画像認識部１１ｂによって認識された文字画像のベクトル化を行うものであるが、その詳細についても後述する。メモリー１１ｇには、スキャナー部１４によって読み取られた文字画像などが記憶される。

【0018】

操作部１２は、画像処理を指示する際に操作されるものであり、たとえばタッチパネルで構成されている。表示部１３は、画像処理などをガイドするメッセージや、画像処理を選択させる項目などを表示する。スキャナー部１４は、イメージセンサ（図示省略）によって読み取られる後述の原稿２０の文字画像を光学的に読み取る。

【0019】

次に、図２及び図３を参照し、画像処理の概要について説明する。まず、スキャナー部１４により、たとえば図３に示すような原稿２０の読み取りによるＯＣＲ（文字認識）を実行させる（ステップＳ１）。なお、図３に示す原稿２０は、たとえばＰＤＦ形式のファイル（以下、ＰＤＦファイルという）を印字した文書であり、説明の都合上、たとえばａ〜ｄの文字画像が表示されている文字層のみを示している。

【0020】

すなわち、そのＰＤＦファイルは、上述したように、画像層（画像レイヤ）に含まれるオブジェクトに応じて画像処理や画像圧縮が行われる高圧縮方式による構成となっている。また、原稿２０のＰＤＦファイルのサイズ（描画前のＰＤＦファイルの文字層のデータのサイズ）は、既に取得されているものとする。

【0021】

また、スキャナー部１４による原稿２０の読み取りは、矢印で示すように、たとえば上段から順に１行ずつ行われるようになっているものとする。ここで、原稿２０が読み取られると、新規の文字画像がＯＣＲ（文字認識）される毎に、それぞれ認識された文字画像の登録がカウンター１１ｅにて行われる（ステップＳ２）。

【0022】

すなわち、まず「ａ」の文字画像が認識されると、その認識された「ａ」の文字画像がカウンター１１ｅのａカウンター１１ｅ−１として登録される。続いて、次の「ａ」の文字画像が認識されると、ａカウンター１１ｅ−１の文字数が加算される。つまり、「ａ」の文字画像が認識される毎に、ａカウンター１１ｅ−１の文字数が加算されていく。

【0023】

次に、「ｂ」の文字画像が認識されると、その認識された「ｂ」の文字画像がカウンター１１ｅのｂカウンター１１ｅ−２として登録される。続いて、次の「ｂ」の文字画像が認識されると、ｂカウンター１１ｅ−２の文字数が加算される。つまり、「ｂ」の文字画像が認識される毎に、ｂカウンター１１ｅ−２の文字数が加算されていく。

【0024】

次に、「ｃ」の文字画像が認識されると、その認識された「ｃ」の文字画像がカウンター１１ｅのｃカウンター１１ｅ−３として登録される。続いて、次の「ｃ」の文字画像が認識されると、ｃカウンター１１ｅ−３の文字数が加算される。つまり、「ｃ」の文字画像が認識される毎に、ｃカウンター１１ｅ−３の文字数が加算されていく。

【0025】

次いで、原稿２０の読み取りが終わると、ファイルサイズ算出比較部１１ｄにより、ａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３のそれぞれの文字画像の合計文字数と平均文字画像サイズから第１のファイルのサイズが算出される（ステップＳ３）。すなわち、平均文字画像サイズにそれぞれのａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算された文字画像の合計文字数を乗じることで、第１のファイルのサイズが算出される。

【0026】

ここで、平均文字画像サイズを用いる理由は、「ａ」〜「ｂ」のそれぞれの文字画像サイズが異なるためである。特に、たとえばひらがなと漢字を比べた場合、漢字の方が文字画像サイズが大きくなることが多い。この場合、それぞれの文字画像サイズを用いて第１のファイルのサイズを算出しようとすると、その算出が複雑になってしまうが、平均文字画像サイズを用いることで、第１のファイルのサイズの算出が容易となる。

【0027】

そして、算出された第１のファイルのサイズとＰＤＦファイルの文字層のサイズとが比較される（ステップＳ４）。算出された第１のファイルのサイズがＰＤＦファイルの文字層のサイズより大きい場合（ステップＳ４：ＮＯ）、画像処理部１１ｃにより、次の処理となるベクトル化部１１ｆによる文字画像のベクトル化への移行が中断され、通常のＰＦＤファイルが生成される（ステップＳ５）。ここで、通常のＰＤＦファイルとは、文書内で用いられるフォント情報をそのファイル自体に埋め込んでおくことができる従来のファイル形式を有したものである。

【0028】

なお、ベクトル化して登録されるフォントは、ＰＤＦファイルにおいて圧縮して登録されることになる。そのため、第１のファイルのサイズを算出する際は圧縮率を考慮する必要があるが、本実施形態では最低圧縮率を利用するものとする。つまり、ＰＤＦファイルにおいて、たとえば最高画質（低圧縮）、高画質、普通、低画質（高圧縮）の４通りの設定が可能であるとすると、最高画質（低圧縮）での圧縮率を利用するものとして第１のファイルのサイズが算出されるようになっている。このように、最高画質（低圧縮）での圧縮率を利用することで、画像を細かく綺麗に描画するための文書ファイルを生成することが化膿となる。

【0029】

一方、算出された第１のファイルのサイズがＰＤＦファイルの文字層のサイズより小さい場合（ステップＳ４：ＹＥＳ）、ベクトル化部１１ｆによる文字画像のベクトル化が行われる（ステップＳ６）。すなわち、上述したカウンター１１ｅのａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算されたそれぞれの文字画像である「ａ」〜「ｃ」のベクトル化が行われる。

【0030】

次に、画像処理部１１ｃにより、ａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算されたそれぞれの文字画像に対して、ＯＣＲ（文字認識）で得られる文字座標とベクトル化したデータの文字座標とを照らし合わせ、対象文字の抽出が行われる（ステップＳ７）。ちなみに、ＯＣＲ（文字認識）で得られるＯＣＲ（文字認識）情報には文字座標や文字コードなどが含まれている。また、ベクトル化したデータには、線の起終点の座標（位置）などが含まれている。よって、ＯＣＲ（文字認識）情報とベクトル化したデータの文字座標を照らし合わせることで、対象文字の抽出が可能となる。

【0031】

次に、ファイルサイズ算出比較部１１ｄにより、抽出された対象文字のフォントのサイズとａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算された文字画像毎の合計文字数とから、それぞれの文字毎にサイズがいくつになるかが算出されることで、第２のファイルのサイズが算出される（ステップＳ８）。次いで、算出された第２のファイルのサイズがＰＤＦファイルの文字層のサイズと比較される（ステップＳ９）。

【0032】

算出された第２のファイルのサイズがＰＤＦファイルの文字層のサイズより大きい場合（ステップＳ９：ＮＯ）、次の処理となるフォント置き換え処理が行われず、画像処理部１１ｃにより通常のＰＤＦファイルが生成される（ステップＳ５）。これに対し、算出された第２のファイルのサイズがＰＤＦファイルの文字層のサイズより小さい場合（ステップＳ９：ＹＥＳ）、画像処理部１１ｃによりフォント置き換え処理が実行される（ステップＳ１０）。すなわち、ステップＳ６で行われたベクトル化部１１ｆによるそれぞれの文字画像のベクトル化されたデータがたとえば上述したメモリー１１ｇに記憶される。

【0033】

次に、画像処理部１１ｃによりメモリー１１ｇに記憶されているベクトル化されたデータに基づき、第３のファイルのサイズが算出される（ステップＳ１１）。第３のファイルのサイズは、メモリー１１ｇに記憶されているベクトル化されたデータとファイル化の際に使用されるフォント数とから算出することができる。

【0034】

そして、算出された第３のファイルのサイズとＰＤＦファイルの文字層のサイズとが比較される（ステップＳ１２）。ここで、その第３のファイルのサイズがＰＤＦファイルの文字層のサイズより大きい場合（ステップＳ１２：ＮＯ）、次の処理となるベクトル化ファイルの生成が行われず、画像処理部１１ｃにより通常のＰＤＦファイルが生成される（ステップＳ５）。

【0035】

これに対し、その第３のファイルのサイズがＰＤＦファイルの文字層のサイズより小さい場合（ステップＳ１２：ＹＥＳ）、画像処理部１１ｃによりベクトル化ファイルの生成が行われる（ステップＳ１３）。

【0036】

以上のように、本実施形態では、ステップＳ６でのベクトル化部１１ｆによるそれぞれの文字画像のベクトル化の処理の開始前の段階（第１段階）でＯＣＲ（文字認識）により得られる文字画像の合計文字数と平均文字画像サイズから第１のファイルのサイズを算出し、ベクトル化部１１ｆによるベクトル化の処理の実行中の段階（第２段階）でＯＣＲ（文字認識）情報とベクトル化したデータの文字座標との照合により抽出された対象文字のフォントのサイズとａカウンター１１ｅ−１、ｂカウンター１１ｅ−２、ｃカウンター１１ｅ−３で加算された文字画像毎の合計文字数とから得られる第２のファイルのサイズを算出し、ベクトル化部１１ｆによるベクトル化の処理の終了後の段階（第３段階）でベクトル化されたデータとファイル化の際に使用されるフォント数とから得られる第３のファイルのサイズを算出している。

【0037】

そして、それぞれの段階で算出されたファイルのサイズとＰＤＦファイルの文字層のサイズとを比較することで、最終的な第３のファイルのサイズがＰＤＦファイルの文字層のサイズより小さければベクトル化ファイルが生成されるようになっている。

【0038】

次に、上述した画像処理の具体例について説明する。図４〜図８は、ベクトル化とＯＣＲ（文字認識）を利用した文書ファイルの低サイズ化のためのベクトル化処理について説明するものである。なお、以下に説明するベクトル化処理は、上述した画像処理部１１ｃが行うものとする。

【0039】

まず、図４に示すように、原稿２０を上述したスキャナー部１４により読み込み、文字画像とＯＣＲ（文字認識）情報ｂとを取得する。なお、ベクトル画像情報（ベクトルデータ）ａは、上述したように、原稿２０そのもののＰＤＦファイルの情報であり、既に取得されているものとする。また、以下に説明するフォント辞書ｃは、ＰＤＦファイル内に含まれているものである。ここで、描画される文字が、ベクトル画像情報（ベクトルデータ）ａからでは特定できないため、ＯＣＲ（文字認識）情報ｂから文字コードと文字座標とを取得し、以下の手順でフォント辞書ｃへの登録を行う。

【0040】

すなわち、図５及び図６に示すように、
（１）たとえば「Ｋ」の文字画像がＯＣＲ（文字認識）されたとすると、「Ｋ」の文字画像の左端から右端の間で一致する描画開始位置のＸ座標を、ＯＣＲ（文字認識）情報ｂから検索する。
（２）ＯＣＲ座標（ＯＣＲ（文字認識）情報ｂの文字座標）とベクトル画像情報ａの描画開始位置のＸ座標とが一致した場合、Ｙ座標の上端から下端間で一致する描画開始位置のＹ座標を検索する。
（３）どちらも一致した場合は、該当文字と判断しベクトル画像情報ａのｆｉｌｌまでを文字としてフォント辞書ｃに登録する。
（４）既に登録済みの文字が検索で見つかった場合はフォント辞書ｃへの登録を行わない。

【0041】

なお、図６に示すように、フォント辞書ｃに登録された文字がたとえば「Ｋ」「ｙ」「ｏ」「ｃ」となっていると、それぞれの文字が描画処理の際にそのフォント辞書ｃから読み出されることになる。

【0042】

次に、図７に示すように、ベクトル画像情報ａのＥＯＦ（データの終端）までの検索を終えたら、次はベクトル画像情報ａのベクトル座標からＯＣＲ（文字認識）情報ｂに対して検索をかける。ここで、ＯＣＲ（文字認識）で認識できていない文字があり得るので、以下の手順でベクトル画像情報ａから再度検索する。

【0043】

（５）ベクトルデータの書き出し開始位置について、ＯＣＲ（文字認識）で認識された文字に一致しないものを検索する。
（６）一致した文字は、別認識した記号や既にフォント辞書ｃに登録済みであるため破棄する。
（７）一致しない文字は、ベクトル列をまとめて１つのフォント辞書ｃに追加登録する。
ここで、一致しない文字のブロックができるが、９割以上はフォント辞書ｃに登録されるためファイルのサイズの低減につながる。

【0044】

次に、図８に示すように、
（８）文字を登録したフォント辞書ｃからフォントを取得し、サイズ、記載座標を指定して描画処理を行う。すなわち、たとえば「Ｋ」「ｙ」「ｏ」「ｃ」「ｏ」「ｏ」を描画する場合、それぞれの文字のフォントがフォント辞書ｃから取得されることになる。

【0045】

次に、図９などを参照し、ベクトル化とパターンマッチングを利用した文書ファイルの低サイズ化のためのベクトル化処理について説明する。なお、以下に説明するパターンマッチングは、上述した画像処理部１１ｃが行うものとする。

【0046】

まず、図９に示すように、原稿２０を上述したスキャナー部１４により読み込み、文字画像を取得し、以下の手順でフォント辞書ｃへの登録を行う。
すなわち、図１０（ａ）に示すように、
（１）ベクトル化前の２値画像の近傍画素において同じ輝度を持つ要素を探し出しラベルを作成する。ここでは、たとえば「Ｋ」の文字のラベルが取得されることなる。
（２）ラベル取得時の基点ｄの場所の座標と、縦横のドット幅を記憶する。
（３）文字画像内の記載座標に対して検索をかける。
（４）横ドット幅（Ｘ座標）を、文字画像の左端から右端の間で、一致する描画開始位置のＸ座標をベクトル画像情報ａから検索する。
（５）Ｘ座標が一致した場合は、縦ドット幅（Ｙ座標）の上端から下端間で一致する描画開始位置のＹ座標をベクトル画像情報ａから検索する。
（６）どちらも一致した場合は該当文字と判断し、ベクトル画像情報ａのｆｉｌｌまでを文字として上述したフォント辞書ｃに登録する。
（７）既に登録済みの文字が検索で見つかった場合はフォント辞書ｃへの登録を行わない。

【0047】

次に、図１０（ｂ）に示すように、
（８）ラベルの重心ｅを決め、その重心ｅの位置からのラベルの特徴量を算出する。
なお、特徴量は、ラベルの重心ｄから最外周輪郭線間までの距離（点線矢印で示している）である。これにより対象ラベルが拡大／縮小、回転をしても特徴の周期で一致させることが可能となる。
（９）特徴量の一致する文字をベクトル画像情報ａから検索する。
（１０）一致した文字の座標と縦横の幅を記憶する。
（１１）文字が見つからなくなるまで（９）、（１０）を繰り返す。
（１２）次のラベルを取得し、上記同様のパターンマッチングを行う。
このとき、記憶した文字と座標を次の検索対象から外す。
（１３）描画処理の際は、フォント辞書ｃからフォントを取得し、サイズ、記載座標が指定される。

【0048】

このように、本実施形態では、文字画像をベクトル化するベクトル化手段であるベクトル化部１１ｆと、このベクトル化部１１ｆによるベクトル化の処理を制御するベクトル化処理制御手段とを備えている。

【0049】

そして、ベクトル化処理制御手段により、ベクトル化の処理の開始前である第１段階で算出した第１のファイルのサイズが原稿２０のファイルのサイズより小さい場合、ベクトル化の処理の実行中である第２段階に進み、第２段階で算出した第２のファイルのサイズが原稿２０のファイルのサイズより小さい場合、ベクトル化の処理の終了後である第３段階に進み、第３段階で算出した第３のファイルのサイズが原稿２０のファイルのサイズより小さい場合、ベクトル化部１１ｆによってベクトル化されているデータを書き込んだベクトル化ファイルが生成される。

【0050】

具体的には、ベクトル化処理制御手段は、文字認識によって得られる原稿２０の文字画像を、それぞれの文字画像毎にカウントするカウント手段であるカウンター１１ｅと、ファイルのサイズを算出して比較するファイルサイズ算出比較手段であるファイルサイズ算出比較部１１ｄと、ベクトル化ファイル又は文書ファイルを生成する画像処理手段である画像処理部１１ｃとを有している。

【0051】

ファイルサイズ算出比較部１１ｄは、第１段階で、文字画像の文字数にそれぞれの文字画像サイズを乗じた第１のファイルを算出し、第２段階で、文字認識により得られる文字座標とベクトル化したデータに含まれる文字座標との照合により対象文字を抽出し、文字画像の文字数に抽出された対象文字のフォントのサイズを乗じた第２のファイルを算出し、第３段階で、文字画像の文字数にベクトル化によるデータを乗じた第３のファイルのサイズを算出し、第１段階、第２段階又は第３段階のいずれかで第１〜第３のファイルのサイズと原稿のファイルのサイズとを比較している。

【0052】

そして、画像処理部１１ｃは、第１段階〜第３段階で、第１〜第３のファイルのサイズが原稿のファイルのサイズより小さい場合、ベクトル化ファイルを生成し、第１段階、第２段階又は第３段階のいずれかで第１〜第３のファイルのサイズが原稿２０のファイルのサイズより大きい場合、以降の処理を中断し、原稿２０のファイルのファイル形式に従った文書ファイルを生成する。

【0053】

これにより、第３段階での比較により、第３のファイルのサイズが原稿２０のファイルのサイズより小さい場合、ベクトル化されているデータを書き込んだベクトル化ファイルが原稿２０のファイルのサイズより小さくなることから、ファイルサイズを増大させることなく、画像を細かく綺麗に描画するための文書ファイルを生成することができる。

【0054】

また、第１段階、第２段階又は第３段階のいずれかで第１〜第３のファイルのサイズが原稿２０のファイルのサイズより大きい場合、以降の処理が中断されるため、無用な処理を省くことができる。

【0055】

また、ファイルサイズ算出比較部１１ｄにより第１のファイルのサイズが算出される際、カウンター１１ｅでカウントされたそれぞれの文字画像の合計文字数に、それぞれの文字画像のサイズを平均化した平均文字画像サイズが乗じられることから、第１のファイルのサイズの算出を容易に行うことができる。

【0056】

また、画像処理部１１ｃにより、文字認識により得られる文字座標とベクトル化したデータに含まれる文字座標との照合により一致する文字画像のベクトル化データをフォント辞書ｃに登録し、この登録したベクトル化データを用いてベクトル化ファイルが生成されるようにしているので、文字認識により得られる文字画像のベクトル化を容易かつ確実に行うことができる。

【0057】

また、画像処理部１１ｃにより、文字認識により得られる文字画像のパターンから得られる特徴量と一致する文字画像のベクトル化データをフォント辞書に登録し、この登録したベクトル化データを用いてベクトル化ファイルが生成されるようにしているので、上記同様に、文字認識により得られる文字画像のベクトル化を容易かつ確実に行うことができる。

【0058】

また、フォント辞書ｃへの登録を行う場合、既に登録済みの文字についてはその登録が行われないようにしているため、登録すべき文字画像が増えてもファイルサイズが増大してしまうことを抑制することができる。

【符号の説明】

【0059】

１０文書ファイル生成装置
１１制御部
１１ａ操作受付部
１１ｂ画像認識部
１１ｃ画像処理部
１１ｄファイルサイズ算出比較部
１１ｅカウンター
１１ｅ−１ａカウンター
１１ｅ−２ｂカウンター
１１ｅ−３ｃカウンター
１１ｆベクトル化部
１１ｇメモリー
１２操作部
１３表示部
１４スキャナー部
２０原稿
ａベクトル画像情報（ベクトルデータ）
ｂＯＣＲ（文字認識）情報
ｃフォント辞書
ｄ基点
ｅ重心

【図1】