IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7468103FAX受信装置、FAX受信方法およびプログラム
<>
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図1
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図2
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図3
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図4
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図5
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図6
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図7
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図8
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図9
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図10
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図11
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図12
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図13
  • 特許-FAX受信装置、FAX受信方法およびプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】FAX受信装置、FAX受信方法およびプログラム
(51)【国際特許分類】
   G06V 30/24 20220101AFI20240409BHJP
   H04N 1/00 20060101ALI20240409BHJP
【FI】
G06V30/24 620D
H04N1/00 J
【請求項の数】 7
(21)【出願番号】P 2020072766
(22)【出願日】2020-04-15
(65)【公開番号】P2021170206
(43)【公開日】2021-10-28
【審査請求日】2023-02-13
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】宮本 恵一
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2013-127815(JP,A)
【文献】特開2006-011967(JP,A)
【文献】特開2012-118650(JP,A)
【文献】特開2001-134026(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/424
H04N 1/00 - 1/409
(57)【特許請求の範囲】
【請求項1】
FAXデータを受信する受信部と、
前記FAXデータから文字を認識し、前記文字の確からしさを示す確度を算出する文字認識部と、
算出された前記確度があらかじめ定められた閾値以下であるか否かを判定する判定部と、
前記確度が前記閾値以下であると判定された場合に、前記FAXデータに含まれる文字の特徴を示す特徴量を測定する測定部と、
前記確度が前記閾値以下であると判定された場合の前記特徴量に基づいて、前記特徴量の閾値を示す特徴量閾値を決定する閾値決定部と、を有し、
前記判定部は、前記特徴量閾値が決定されると、前記測定部が測定した特徴量が前記特徴量閾値以下であるか否かを判定し、
前記特徴量が前記特徴量閾値以下であると判定された場合に、超解像処理によって前記文字を復元する文字復元部、を有し、
前記文字認識部は、復元された前記文字を認識する、
FAX受信装置。
【請求項2】
前記閾値決定部は、前記測定部が前記FAXデータから測定した複数の文字ごとの前記特徴量の統計値を算出し、算出された前記統計値に基づいて、前記特徴量閾値を決定する、
請求項に記載のFAX受信装置。
【請求項3】
前記特徴量は、文字の大きさを示す値である、
請求項1または2に記載のFAX受信装置。
【請求項4】
前記特徴量は、文字の太さを示す値である、
請求項1または2に記載のFAX受信装置。
【請求項5】
前記FAXデータから文字のフォントを特定するフォント特定部と、
前記確度が前記閾値以下であると判定された場合の前記フォントに基づいて、判定用のフォントを決定する判定用フォント決定部と、
前記判定部は、前記判定用の前記フォントが決定されると、前記フォント特定部によって特定された前記フォントが前記判定用の前記フォントであるか否かを判定し、
前記文字復元部は、前記フォント特定部によって特定された前記フォントが前記判定用の前記フォントであると判定された場合に、前記超解像処理によって前記文字を復元する、
請求項1に記載のFAX受信装置。
【請求項6】
FAX受信装置が実行する方法であって、
FAXデータを受信するステップと、
前記FAXデータから文字を認識し、前記文字の確からしさを示す確度を算出するステップと、
算出された前記確度があらかじめ定められた閾値以下であるか否かを判定するステップと、
前記確度が前記閾値以下であると判定された場合に、前記FAXデータに含まれる文字の特徴を示す特徴量を測定するステップと、
前記確度が前記閾値以下であると判定された場合の前記特徴量に基づいて、前記特徴量の閾値を示す特徴量閾値を決定するステップと、
前記特徴量閾値が決定されると、前記測定するステップで測定された特徴量が前記特徴量閾値以下であるか否かを判定するステップと、
前記特徴量が前記特徴量閾値以下であると判定された場合に、超解像処理によって前記文字を復元するステップと、
復元された前記文字を認識するステップと、を備える、
FAX受信方法。
【請求項7】
コンピュータに、
FAXデータを受信するステップと、
前記FAXデータから文字を認識し、前記文字の確からしさを示す確度を算出するステップと、
算出された前記確度があらかじめ定められた閾値以下であるか否かを判定するステップと、
前記確度が前記閾値以下であると判定された場合に、前記FAXデータに含まれる文字の特徴を示す特徴量を測定するステップと、
前記確度が前記閾値以下であると判定された場合の前記特徴量に基づいて、前記特徴量の閾値を示す特徴量閾値を決定するステップと、
前記特徴量閾値が決定されると、前記測定するステップにより測定された特徴量が前記特徴量閾値以下であるか否かを判定するステップと、
前記特徴量が前記特徴量閾値以下であると判定された場合に、超解像処理によって前記文字を復元するステップと、
復元された前記文字を認識するステップと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、FAX受信装置、FAX受信方法およびプログラムに関する。
【背景技術】
【0002】
ファクシミリ(FAX)を受信して、受信したFAXに含まれる文字をOCR(Optical Character Recognition)によって読み取る技術が開発されている。
【0003】
例えば、解像度の異なるFAX画像を、別途入力された解像度情報を用いて、OCRに適する固有の解像度に拡大/縮小する画像処理装置が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来技術は、単に文字を拡大/縮小するだけであり、文字が潰れたままの状態であったり、原稿に付着した汚れが送信機におけるスキャン時に読み取られた場合に、付着した汚れをそのまま拡大してしまったりするため、文字の読み取りの確度が十分ではないという問題があった。
【0005】
開示の技術は、受信したFAXに含まれる文字の読み取りの確度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
開示の技術は、FAXデータを受信する受信部と、前記FAXデータから文字を認識し、前記文字の確からしさを示す確度を算出する文字認識部と、算出された前記確度があらかじめ定められた閾値以下であるか否かを判定する判定部と、前記確度が前記閾値以下であると判定された場合に、前記FAXデータに含まれる文字の特徴を示す特徴量を測定する測定部と、前記確度が前記閾値以下であると判定された場合の前記特徴量に基づいて、前記特徴量の閾値を示す特徴量閾値を決定する閾値決定部と、を有し、前記判定部は、前記特徴量閾値が決定されると、前記測定部が測定した特徴量が前記特徴量閾値以下であるか否かを判定し、前記特徴量が前記特徴量閾値以下であると判定された場合に、超解像処理によって前記文字を復元する文字復元部、を有し、前記文字認識部は、復元された前記文字を認識する、FAX受信装置である。
【発明の効果】
【0007】
受信したFAXに含まれる文字の読み取りの確度を向上させることができる。
【図面の簡単な説明】
【0008】
図1】第一の実施形態に係るFAX受信装置の機能の一例を示す図である。
図2】FAX受信装置のハードウェア構成の一例を示す図である。
図3】第一の実施形態に係る文字認識処理のフローの一例を示す図である。
図4】超解像処理を説明するための図である。
図5】文字認識処理の処理結果を説明するための図である。
図6】第二の実施形態に係るFAX受信装置の機能の一例を示す図である。
図7】第二の実施形態に係る文字認識処理のフローの一例を示す図である。
図8】第二の実施形態に係る特徴量が文字の大きさである一例を示す図である。
図9】(a)第二の実施形態に係る特徴量が文字の太さである一例を示す第一の図、(b)第二の実施形態に係る特徴量が文字の太さである一例を示す第二の図である。
図10】第二の実施形態に係る学習済み処理のフローの一例を示す図である。
図11】第三の実施形態に係るFAX受信装置の機能の一例を示す図である。
図12】第三の実施形態に係る文字認識処理のフローの一例を示す図である。
図13】(a)第三の実施形態に係るフォントの一例を示す第一の図、(b)第二の実施形態に係るフォントの一例を示す第二の図である。
図14】第三の実施形態に係る学習済み処理のフローの一例を示す図である。
【発明を実施するための形態】
【0009】
(第一の実施形態)
以下に図面を参照して、本発明の実施の形態について説明する。
【0010】
図1は、第一の実施形態に係るFAX(facsimile)受信装置の機能の一例を示す図である。
【0011】
FAX受信装置10は、電話網30を介してFAX送信装置20と通信可能に接続されていて、FAX送信装置20からFAXデータ40を受信する装置である。FAX受信装置10は、FAX専用の装置であっても良いし、FAX通信の機能を有するMFP(MultiFunction Peripheral)、プリンタ等であっても良い。
【0012】
FAX送信装置20は、FAXデータ40をFAX受信装置10に送信する装置である。FAX送信装置20は、FAX専用の装置であっても良いし、FAX通信の機能を有するMFP、プリンタ等であっても良い。FAX送信装置20は、文字が印刷された印刷媒体等の原稿をスキャンして画像を読み取り、読み取った画像を示すFAXデータ40を生成する。
【0013】
また、FAX送信装置20は、文字が印刷された印刷媒体等の原稿を他の装置がスキャンして生成したデータ、または他の装置で生成された文字を含むデータを受信して、受信したデータをFAXデータ40として送信しても良い。
【0014】
電話網30は、例えば移動体通信、公衆交換電話網等の、音声通話を行うための電話網である。電話網30は、音声通話以外にFAX通信等のデータ通信に利用される。一般に、電話網30におけるデータ通信の回線速度は比較的小さい。
【0015】
FAXデータ40は、文字を画像として含むデータである。電話網30のデータ通信の回線速度が小さいため、FAXデータ40のデータ量は小さいことが多い。したがって、FAXデータ40に含まれる画像は、解像度が比較的低い。
【0016】
本実施形態に係るFAX受信装置10は、FAXデータ40から文字を認識して、テキストデータを生成する。さらにFAX受信装置10は、生成したテキストデータを記憶するか、または他の装置等に出力しても良い。上述のように、FAXデータ40に含まれる画像の解像度は比較的低い場合があるため、FAX受信装置10による文字の読み取りの確度を向上させることが重要である。
【0017】
具体的には、FAX受信装置10は、記憶部11と、受信部12と、文字認識部13と、判定部14と、文字復元部15と、を備える。
【0018】
記憶部11は、各種情報を記憶する。具体的には、記憶部11には、設定情報110が格納される。
【0019】
設定情報110は、後述する各種処理の動作を規定する閾値等の情報が含まれる。
【0020】
受信部12は、FAX送信装置20からFAXデータ40を受信する。
【0021】
文字認識部13は、受信部12が受信したFAXデータ40から、OCR(Optical Character Recognition)によって文字を認識し、文字の確からしさを示す確度を算出する。
【0022】
確度とは、文字の確からしさを示す値である。具体的には、文字認識部13は、読み取った文字の確度を、0から100までの値で算出する。
【0023】
例えば、FAXデータ40に含まれる画像に、「発」という文字がはっきりと表されている場合には、文字認識部13は、「発」という文字であることが確からしいと判断し、「発」である確度を90、「登」である確度を30と算出する。
【0024】
逆に、FAXデータ40に含まれる画像に、「発」という文字がぼんやりと表されている場合には、文字認識部13は、「発」である確度を50、「登」である確度を40と算出する。
【0025】
判定部14は、文字認識部13によって算出された確度が、あらかじめ定められた閾値Th1以下であるか否かを判定する。閾値Th1は、設定情報110として記憶部11に格納された値であって、例えば70と設定される。
【0026】
文字復元部15は、判定部14によって、確度が閾値Th1以下であると判定された場合に、超解像処理によって文字を復元する。
【0027】
超解像処理とは、解像度の低いデータを、規定された計算式による補完処理や機械学習によって得られた予測モデルによる予測処理によって、解像度の高いデータを取得する処理である。
【0028】
文字復元部15は、文字を復元するための超解像処理として、例えば、バイリニアフィルター、バイキュービックフィルター等のフィルターによる補完処理を実行しても良いし、SRCNN(Super-Resolution Convolutional Neural Network)やSRResNet(Super-Resolution Residual Network)などのディープラーニングを使った予測処理を実行しても良い。
【0029】
また、文字認識部13は、文字復元部15によって復元された文字を認識する。
【0030】
FAX受信装置10は、文字の認識が完了すると、認識された文字を示すテキストデータを生成して、生成されたテキストデータを記憶部11に格納するか、または他の装置に出力しても良い。
【0031】
次に、FAX受信装置10のハードウェア構成について説明する。
【0032】
図2は、FAX受信装置のハードウェア構成の一例を示す図である。
【0033】
FAX受信装置10は、MFPであって、コントローラ410と、エンジン部(Engine)415と、を備える。コントローラ410およびエンジン部415は、PCI(peripheral Component Interface)バス416を介して接続されている。
【0034】
コントローラ410は、コンピュータによって構成され、FAX受信装置10の備える各部を制御する。例えば、コントローラ410は、描画、通信、操作表示部411からの入力等を制御する。
【0035】
エンジン部415は、PCIバス416に接続可能なプリンタエンジンなどであり、たとえば白黒プロッタ、1ドラムカラープロッタ、4ドラムカラープロッタ、スキャナ又はファックスユニットなどである。
【0036】
なお、このエンジン部415には、プロッタなどのいわゆるエンジン部分に加えて、誤差拡散やガンマ変換などの画像処理部分が含まれる。
【0037】
コントローラ410は、CPU401と、ノースブリッジ(NB)403と、システムメモリ(MEM-P)402と、サウスブリッジ(SB)404と、ローカルメモリ(MEM-C)407と、ASIC(Application Specific Integrated Circuit)406と、ハードディスクドライブ(HDD)408と、を備える。
【0038】
ノースブリッジ(NB)403およびASIC406は、AGP(Accelerated Graphics Port)バス405を介して接続されている。
【0039】
CPU401は、FAX受信装置10の全体制御を行う演算装置であり、NB403、MEM-P402及びSB404からなるチップセットを介して他の機器と接続される。
【0040】
NB403は、CPU401とMEM-P402、SB404、AGPバス405とを接続するためのブリッジであり、MEM-P402に対する読み書きなどを制御するメモリコントローラ、PCIマスタ及びAGPターゲットを有する。
【0041】
MEM-P402は、プログラムやデータの格納用メモリ、プログラムやデータの展開用メモリ、プリンタの描画用メモリなどとして用いるシステムメモリである。具体的には、MEM-P402は、ROM(Read Only Memory)402aと、RAM(Random Access Memory)402bと、を備える。
【0042】
ROM402aは、プログラムやデータの格納用メモリとして用いる読み出し専用のメモリであり、RAM402bは、プログラムやデータの展開用メモリ、プリンタの描画用メモリなどとして用いる書き込み及び読み出し可能なメモリである。
【0043】
SB404は、NB403とPCIデバイス、周辺デバイスとを接続するためのブリッジである。このSB404は、PCIバスを介してNB403と接続されており、このPCIバスには、ネットワークI/Fなども接続される。
【0044】
ASIC406は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス405、PCIバス416、HDD408及びMEM-C407をそれぞれ接続するブリッジの役割を有する。
【0045】
このASIC406は、PCIターゲット及びAGPマスタと、ASIC406の中核をなすアービタ(ARB)と、MEM-C407を制御するメモリコントローラと、ハードウェアロジックなどにより画像データの回転などをおこなう複数のDMAC(Direct Memory Access Controller)と、エンジン部415との間でPCIバスを介したデータ転送をおこなうPCIユニットとを有する。
【0046】
このASIC406には、PCIバスを介してFCU(Facsimile Control Unit)412、USB(Universal Serial Bus)413、IEEE1394(the Institute of Electrical and Electronics Engineers 1394)インタフェース414が接続される。
【0047】
操作表示部411はASIC406に直接接続されている。MEM-C407は、コピー用画像バッファ、符号バッファとして用いるローカルメモリである。HDD408は、画像データの蓄積、プログラムの蓄積、フォントデータの蓄積、フォームの蓄積を行うためのストレージである。
【0048】
また、HDD408は、FAX受信装置10で実行されるアプリケーションのライセンスファイルを保存する。AGPバス405は、グラフィック処理を高速化するためのグラフィックスアクセラレーターカード用のバスインターフェースであり、MEM-P402に高スループットで直接アクセスすることにより、グラフィックスアクセラレーターカードを高速にするものである。
【0049】
次に、FAX受信装置10の動作について、図面を参照して説明する。
【0050】
図3は、第一の実施形態に係る文字認識処理のフローの一例を示す図である。
【0051】
FAX受信装置10は、FAX送信装置20からFAX通信の着信を受けると、文字認識処理を開始する。そして、受信部12は、FAX送信装置20からFAXデータ40を受信する(ステップS101)。
【0052】
次に、文字認識部13は、FAXデータ40の文字領域を検出する(ステップS102)。具体的には、文字認識部13は、OCRによって、FAXデータ40に含まれる画像のうち、文字の領域とそれ以外の領域とを判別し、さらに文字の領域を1文字ごとの領域に分解する。
【0053】
本実施形態に係る文字認識部13は、1文字ごとに分解された文字の領域を文字領域として文字領域ごとにID(以下、文字領域IDという)を付与する。なお、複数の文字が含まれる領域を文字領域としても良い。
【0054】
次に、文字認識部13は、文字領域ごとにOCRによって文字を認識して確度を算出する(ステップS103)。具体的には、文字認識部13は、文字領域ごとに複数の文字の候補を決定し、それぞれの文字領域ごとに確度を算出する。そして、文字認識部13は、最も確度の高い文字の候補を選択する。
【0055】
例えば、文字領域ID=1の文字領域に、「発」という文字の形状の画像が表されている場合には、文字認識部13は、例えば、「文字領域ID1 一位[発]:90点、二位[登]:50点、三位[癸]:30点」のように、文字領域ごとに候補となる文字とそれぞれの確度を得点として算出し、確度の高い順に並べたリスト形式のデータを生成する。
【0056】
同様に、文字領域ID=2の文字領域に、「注」という文字の形状の画像が表され、文字領域ID=3の文字領域に、「書」という文字の形状の画像が表されている場合、文字認識部13は、「文字領域ID2 一位[注]:90点、二位[主]:20点、三位[ ]:0点」、「文字領域ID3 一位[書]:90点、二位[建]:30点、三位[津]:20点」のようなデータを生成する。
【0057】
なお、例えば、文字領域ID=1の文字領域に、「発」という文字がはっきりと表されていない場合には、算出結果は、「文字領域ID1 一位[登]:50点、二位[発]:40点、三位[癸]:30点」のように、最も確度の高い文字でも、相対的に低い確度となるものと考えられる。
【0058】
このように、確度は、OCRによる文字認識処理の過程において算出される値である。
【0059】
次に、判定部14は、確度が閾値Th1以下であるか否かを判定する(ステップS104)。ここで、確度とは、処理対象の文字領域の文字の候補のうち、最も確度の高い候補の確度である。例えば、「文字領域ID1 一位[発]:90点、二位[登]:50点、三位[癸]:30点」と算出された場合、確度は90である。また、「文字領域ID1 一位[登]:50点、二位[発]:40点、三位[癸]:30点」と算出された場合、確度は50である。
【0060】
閾値Th1は、あらかじめ設定情報110として記憶部11に格納されていて、例えば、Th1=70である。
【0061】
判定部14が、確度が閾値Th1以下であると判定すると(ステップS104:Yes)、文字復元部15は、超解像処理によって文字を復元する(ステップS105)。具体的には、文字復元部15は、補完処理、予測処理等を実行することによって、文字を復元する。
【0062】
図4は、超解像処理を説明するための図である。
【0063】
図4の上段に示される画像は、超解像処理によって文字を復元すると、図4の下段に示される画像のようになる。
【0064】
図3に戻り、次に、文字認識部13は、復元された文字をOCRによって認識する(ステップS106)。そして、FAX受信装置10は、すべての文字領域を処理したか否かを判定する(ステップS107)。
【0065】
FAX受信装置10は、いずれかの文字領域を処理していないと判定すると(ステップS107:No)、ステップS103に戻り、未処理の文字領域の処理を実行する。
【0066】
また、ステップS104の処理において、判定部14が、確度が閾値Th1以下でないと判定すると(ステップS104:No)、FAX受信装置10は、ステップS105およびステップS106の処理をスキップして、ステップS107の処理に進む。
【0067】
FAX受信装置10は、すべての文字領域を処理したと判定すると(ステップS107:Yes)、処理を終了する。
【0068】
図5は、文字認識処理の処理結果を説明するための図である。
【0069】
本実施形態に係るFAX受信装置10は、FAXデータ40に含まれる文字のうち、OCRによって確度を算出して、低い確度の文字については、超解像処理によって文字を復元し、復元された文字をOCRによって認識する。また、FAX受信装置10は、高い確度の文字については、超解像処理は行わず、すでに実行したOCRの結果を使用する。
【0070】
例えば、図5に示される矩形31-1から31-28まで(矩形31-N)に示される領域の文字は、確度が高いため、FAX受信装置10は、超解像処理を行わず、そのままの状態の文字の認識結果を使用する。
【0071】
また、図5に示される矩形32-1から32-7まで(矩形32-M)に示される領域の文字は、確度が低いため、FAX受信装置10は、超解像処理によって文字を復元し、復元された文字の認識結果を使用する。
【0072】
このように、本実施形態に係るFAX受信装置10は、FAXデータ40に含まれる文字認識の確度が低い文字についてのみ超解像処理によって文字を復元することによって、文字認識の確度を上げることができる。したがって、FAX受信装置10は、必要に応じて超解像処理を実行するため、すべての文字に超解像処理を実行するよりも処理の負荷が小さい。
【0073】
また、本実施形態に係るFAX受信装置10は、超解像処理を実行するか否かの判定を、OCRによって算出された確度に基づいて行うため、文字の大きさ、太さ等の他の方法による判定よりも正確に判定することができる。例えば、文字のフォント、太さ等や、他の要因によっては、必ずしも文字が大きければ正確に認識されるわけでは無い。それに対して、確度は、OCRによる文字認識処理の過程において算出される値であるため、認識の正確さを直接示す値である。したがって、文字の大きさによる判定よりも確度に基づく判定の方が正確であると考えられる。
【0074】
(第二の実施形態)
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、文字の特徴量を測定して、測定した特徴量による判定を、確度による判定と併用する点が、第一の実施形態と相違する。以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
【0075】
図6は、第二の実施形態に係るFAX受信装置の機能の一例を示す図である。
【0076】
第二の実施形態に係るFAX受信装置10は、第一の実施形態として説明した機能部に加えて、測定部16と、閾値決定部17と、をさらに備える。
【0077】
測定部16は、FAXデータ40に含まれる文字の特徴を示す特徴量を測定する。具体的には、特徴量は、例えば、文字の大きさ、太さ等を示す値である。
【0078】
閾値決定部17は、判定部14によって確度が閾値Th1以下であると判定された場合の特徴量に基づいて、特徴量の閾値を示す特徴量閾値を決定する。具体的には、閾値決定部17は、測定部16がFAXデータ40から測定した複数の文字ごとの特徴量の統計値を算出し、算出された統計値に基づいて、特徴量閾値を決定する。
【0079】
また、本実施形態に係る判定部14は、閾値決定部17によって特徴量閾値が決定されると、測定部16が測定した特徴量が特徴量閾値以下であるか否かを判定する。
【0080】
次に、本実施形態に係るFAX受信装置10の動作について、図面を参照して説明する。
【0081】
図7は、第二の実施形態に係る文字認識処理のフローの一例を示す図である。
【0082】
本実施形態に係る文字認識処理のステップS201およびステップS202の処理については、第一の実施形態に係る文字認識処理のステップS101およびステップS102の処理と同様である。
【0083】
次に、FAX受信装置10は、学習済みフラグがONであるか否かを判定する(ステップS203)。学習済みフラグは、設定情報110として記憶部11に格納されている。そして、学習済みフラグは、後述する処理においてONに変更されるまでは、初期状態ではOFFとなっている。
【0084】
FAX受信装置10が、学習済みフラグがONでないと判定すると(ステップS203:No)、文字認識部13は、文字領域ごとにOCRによって文字を認識して確度を算出する(ステップS204)。このステップS204の処理は、第一の実施形態に係る文字認識処理のステップS103の処理と同様である。また、ステップS205の処理は、第一の実施形態に係る文字認識処理のステップS104の処理と同様である。
【0085】
ステップS205の処理において、判定部14が、確度が閾値Th1以下であると判定すると(ステップS205:Yes)、測定部16は、文字領域ごとに特徴量を測定する(ステップS206)。特徴量とは、文字の大きさ、太さ等であって、ステップS202の処理によって文字領域として検出された領域における文字の特徴を示す値である。
【0086】
図8は、第二の実施形態に係る特徴量が文字の大きさである一例を示す図である。
【0087】
測定部16は、文字の大きさを特徴量とする場合、例えば、文字を囲む四角形を区画し、四角形の横の長さと縦の長さの和を文字の大きさとして測定する。また、文字の大きさの定義は他でも良く、例えば、言語の性質等によっては、縦の長さまたは横の長さを文字の大きさとしても良い。すなわち、言語の性質等によってOCRの認識の確度との相関が大きいものを文字の大きさとして定義すれば良い。
【0088】
図9(a)は、第二の実施形態に係る特徴量が文字の太さである一例を示す第一の図である。図9(b)は、第二の実施形態に係る特徴量が文字の太さである一例を示す第二の図である。
【0089】
図9(a)は、いわゆる普通文字の例であり、図9(b)は、いわゆる太字の例である。測定部16は、文字の太さを特徴量とする場合、例えば、文字を囲む四角形を区画し、四角形に占める文字の線を示す部分の割合を充填率として定義し、充填率と文字の線を示す線分の長さや文字の内容等に基づいて、文字の太さを算出する。
【0090】
例えば、充填率と文字の内容に基づいて文字の太さを算出する場合、同じ「発」という文字について、図9(a)に示した普通文字の場合の充填率が30%であって、図9(b)に示した太字の場合の充填率が50%である場合、「発」の充填率30%は太さ3、「発」の充填率50%は太さ5のように、文字ごとの充填率に基づいて文字の太さを決定する。
【0091】
同様に、「一」のようにもともとも充填率が低くなる文字の場合には、「一」の充填率10%は太さ3、「一」の充填率20%は太さ5のように、充填率と太さとの関係を文字ごとに規定することによって、文字の太さを決定する。
【0092】
また、例えば、充填率と文字の線を示す線分の長さとに基づいて文字の太さを算出する場合、その線分の長さLcと充填率Pfとに基づいて、Pf/Lcを文字の太さとする。
【0093】
「発」という文字の線を示す線分の長さが10、「一」という文字の線を示す線分の長さが1である場合、「発」の充填率30%の太さは、30/10=3であり、「一」の充填率10%の太さは、10/1=10である。
【0094】
上述した文字の大きさ、太さ等の算出方法は、一例であって他でも良い。
【0095】
次に、閾値決定部17は、特徴量の統計値の変動量が閾値Th2以下であるか否かを判定する(ステップS207)。具体的には、閾値決定部17は、文字領域ごとに取得した特徴量の最大値を算出する。すなわち、ステップS206の処理が測定部16によって文字領域ごとに繰り返し処理され、処理されるたびに測定される特徴量のうちの最大値を、閾値決定部17は取得し、その変動量を取得する。
【0096】
閾値Th2は、あらかじめ設定情報110として記憶部11に格納されている。一定量の処理を行った後で、変動量が少なくなることは、統計値が収束し、統計的に十分な量のデータに基づく学習が為されたことを意味する。
【0097】
そして、閾値決定部17は、特徴量の統計値の変動量が閾値Th2以下であると判定すると(ステップS207:Yes)、特徴量閾値Th3を決定する(ステップS208)。
【0098】
具体的には、閾値決定部17は、特徴量の統計値に基づいて、特徴量閾値Th3を決定する。例えば、閾値決定部17は、特徴量の統計値(例えば最大値)を特徴量閾値Th3としても良いし、特徴量の統計値に補正値を加算したものを特徴量閾値Th3としても良い。そして、閾値決定部17は、決定した特徴量閾値Th3を、設定情報110として記憶部11に格納する。
【0099】
また、特徴量の統計値は、最大値でなくても良く、平均値等の他の統計値であっても良い。
【0100】
そして、閾値決定部17は、学習済みフラグをONにする(ステップS209)。これによって、次に、FAXデータ40を受信した場合のステップS203における判定結果が変わることになる。
【0101】
そして、ステップS210の処理に進む。また、閾値決定部17が、特徴量の統計値の変動量が閾値Th2以下でないと判定すると(ステップS207:No)、ステップS208とステップS209の処理をスキップして、ステップS210の処理に進む。
【0102】
ステップS210からステップS212までの処理は、第一の実施形態に係る文字認識処理のステップS105からステップS107までの処理と同様である。
【0103】
また、ステップS203の処理において、FAX受信装置10は、学習済みフラグがONであると判定すると(ステップS203:Yes)、学習済み処理を実行する(ステップS213)。
【0104】
図10は、第二の実施形態に係る学習済み処理のフローの一例を示す図である。
【0105】
測定部16は、文字領域ごとに特徴量を測定する(ステップS301)。このステップS301の処理は、本実施形態に係る文字認識処理のステップS206と同様である。
【0106】
次に、判定部14は、ステップS301で測定された特徴量が、特徴量閾値Th3以下であるか否かを判定する(ステップS302)。判定部14が、特徴量がTh3以下であると判定すると(ステップS302:Yes)、文字復元部15は、超解像処理によって文字を復元する(ステップS303)。
【0107】
また、判定部14が、特徴量がTh3以下でないと判定すると(ステップS302:No)、FAX受信装置10は、ステップS303の処理をスキップする。
【0108】
文字認識部13は、OCRによって文字を認識する(ステップS304)。具体的には、ステップS303の処理が実行された場合は、文字認識部13は、復元された文字を認識し、ステップS303の処理が実行されなかった場合は、文字認識部13は、そのままの文字を認識する。
【0109】
そして、FAX受信装置10は、すべての文字領域を処理したか否かを判定する(ステップS305)。
【0110】
FAX受信装置10は、いずれかの文字領域を処理していないと判定すると(ステップS305:No)、ステップS301に戻り、未処理の文字領域の処理を実行する。
【0111】
FAX受信装置10は、すべての文字領域を処理したと判定すると(ステップS305:Yes)、処理を終了する。
【0112】
本実施形態に係るFAX受信装置10によれば、FAX受信装置10が受信するFAXデータ40の特性に応じて、特徴量閾値Th3を決定することができる。そして、特徴量閾値Th3を決定した後は、OCRよりも処理の負荷が小さい特徴量の測定によって、超解像処理をするか否かを判定することができるため、処理時間の低減および処理負荷の軽減が達成される。
【0113】
(第三の実施形態)
以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、文字のフォントを特定して、特定したフォントによる判定を、確度による判定と併用する点が、第二の実施形態と相違する。以下の第三の実施形態の説明では、第二の実施形態との相違点について説明し、第二の実施形態と同様の機能構成を有するものには、第二の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
【0114】
図11は、第三の実施形態に係るFAX受信装置の機能の一例を示す図である。
【0115】
本実施形態に係るFAX受信装置10は、第一の実施形態として説明した機能部に加えて、フォント特定部18と、判定用フォント決定部19と、をさらに備える。
【0116】
フォント特定部18は、FAXデータ40から文字のフォントを特定する。具体的には、あらかじめフォントの種類と特徴を示す情報が設定情報110として記憶部11に格納されている。そして、フォント特定部18はFAXデータ40に含まれる文字の特徴からフォントの種類を特定する。
【0117】
判定用フォント決定部19は、判定部14によって確度が閾値Th1以下であると判定された場合のフォントに基づいて、判定用のフォントを決定する。具体的には、判定用フォント決定部19は、フォント特定部18がFAXデータ40から測定した複数の文字ごとのフォントを統計的に分析し、分析結果に基づいて、判定用のフォントを決定する。
【0118】
また、本実施形態に係る判定部14は、判定用フォント決定部19によって判定用のフォントが決定されると、フォント特定部18によって特定されたフォントが判定用のフォントであるか否かを判定する。
【0119】
次に、本実施形態に係るFAX受信装置10の動作について、図面を参照して説明する。
【0120】
図12は、第三の実施形態に係る文字認識処理のフローの一例を示す図である。
【0121】
本実施形態に係る文字認識処理のステップS401からステップS405までの処理については、第二の実施形態に係る文字認識処理のステップS201からステップS205までの処理と同様である。
【0122】
ステップS405の処理において、判定部14が、確度が閾値Th1以下であると判定すると(ステップS405:Yes)、フォント特定部18は、文字領域ごとのフォントを特定する(ステップS406)。具体的には、フォント特定部18は、文字の特徴を検出して、検出された特徴と、設定情報110に含まれるフォントの種類と特徴を示す情報と、に基づいて、フォントを特定する。
【0123】
図13(a)は、第三の実施形態に係るフォントの一例を示す第一の図である。また、図13(b)は、第三の実施形態に係るフォントの一例を示す第二の図である。
【0124】
図13(a)は、フォントがゴシック体である例であり、線分の太さが変動しない特徴を示している。また、図13(b)は、フォントが明朝体である例であり、線分の太さが変動する特徴を示している。
【0125】
そこで、例えば、フォント特定部18は、線分の太さが変動する特徴から、フォントが明朝体であることを特定する。
【0126】
次に、判定用フォント決定部19は、文字数が閾値Th4以上のフォントが存在するか否かを判定する(ステップS407)。文字数とは、ステップS206の処理がフォント特定部18によって文字領域ごとに繰り返し処理され、処理されるたびにフォントが特定される文字の数を、フォントごとにカウントしたものである。
【0127】
閾値Th4は、あらかじめ設定情報110として記憶部11に格納されている。一定量の処理を行った後で、文字数が多いことは、確度が低いと判定される可能性が高いフォントが特定され、統計的に十分な量のデータに基づく学習が為されたことを意味する。
【0128】
そして、判定用フォント決定部19は、文字数が閾値Th4以上のフォントが存在すると判定すると(ステップS407:Yes)、判定用フォントを決定する(ステップS408)。具体的には、判定用フォント決定部19は、文字数が閾値Th4以上のフォントを、判定用フォントとして決定する。
【0129】
そして、判定用フォント決定部19は、学習済みフラグをONにする(ステップS409)。これによって、次に、FAXデータ40を受信した場合のステップS403における判定結果が変わることになる。
【0130】
そして、ステップS410の処理に進む。また、判定用フォント決定部19が、文字数が閾値Th4以上のフォントが存在しないと判定すると(ステップS407:No)、ステップS408とステップS409の処理をスキップして、ステップS410の処理に進む。
【0131】
ステップS410からステップS412までの処理は、第二の実施形態に係る文字認識処理のステップS210からステップS212までの処理と同様である。
【0132】
また、ステップS403の処理において、FAX受信装置10は、学習済みフラグがONであると判定すると(ステップS403:Yes)、学習済み処理を実行する(ステップS413)。
【0133】
図14は、第三の実施形態に係る学習済み処理のフローの一例を示す図である。
【0134】
フォント特定部18は、文字領域ごとにフォントを特定する(ステップS501)。このステップS501の処理は、本実施形態に係る文字認識処理のステップS406と同様である。
【0135】
次に、判定部14は、ステップS501で特定されたフォントが、判定用フォントと同じであるか否かを判定する(ステップS502)。判定部14が、特定されたフォントが判定用フォントと同じであると判定すると(ステップS502:Yes)、文字復元部15は、超解像処理によって文字を復元する(ステップS503)。
【0136】
また、判定部14が、特定されたフォントが判定用フォントと同じでないと判定すると(ステップS502:No)、FAX受信装置10は、ステップS303の処理をスキップする。
【0137】
また、本実施形態に係るステップS504およびステップS505の処理は、第二の実施形態に係る学習済み処理のステップS304およびステップS305の処理と同様である。
【0138】
本実施形態に係るFAX受信装置10によれば、FAX受信装置10が受信するFAXデータ40の特性に応じて、判定用フォントを決定することができる。そして、判定用フォントを決定した後は、OCRよりも処理の負荷が小さいフォントの特定によって、超解像処理をするか否かを判定することができるため、処理時間の低減および処理負荷の軽減が達成される。
【0139】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等のデバイスを含むものとする。
【0140】
以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0141】
10 FAX受信装置
11 記憶部
12 受信部
13 文字認識部
14 判定部
15 文字復元部
16 測定部
17 閾値決定部
18 フォント特定部
19 判定用フォント決定部
20 FAX送信装置
30 電話網
40 FAXデータ
【先行技術文献】
【特許文献】
【0142】
【文献】特開平02-123489号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14