特許第6983687号(P6983687)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許6983687スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム
<>
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000010
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000011
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000012
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000013
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000014
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000015
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000016
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000017
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000018
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000019
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000020
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000021
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000022
  • 特許6983687-スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6983687
(24)【登録日】2021年11月26日
(45)【発行日】2021年12月17日
(54)【発明の名称】スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム
(51)【国際特許分類】
   H04N 1/00 20060101AFI20211206BHJP
   G06K 9/20 20060101ALI20211206BHJP
【FI】
   H04N1/00 Z
   G06K9/20 340J
   G06K9/20 340C
【請求項の数】10
【全頁数】26
(21)【出願番号】特願2018-16604(P2018-16604)
(22)【出願日】2018年2月1日
(65)【公開番号】特開2019-134364(P2019-134364A)
(43)【公開日】2019年8月8日
【審査請求日】2021年1月28日
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】丹羽 広次
【審査官】 豊田 好一
(56)【参考文献】
【文献】 特開2016−018454(JP,A)
【文献】 特開2016−111482(JP,A)
【文献】 米国特許出願公開第2015/0304520(US,A1)
【文献】 特開平07−028935(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 1/00
G06K 9/20
(57)【特許請求の範囲】
【請求項1】
文書をスキャンして得られたスキャン画像データに関連する情報を設定するためのシステムであって、
処理対象のスキャン画像データを解析して1または複数の文字列領域を抽出する解析手段と、
前記処理対象のスキャン画像データに類似する過去のスキャン画像データがある場合、前記解析手段で抽出された文字列領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域とに基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定する特定手段と、を備え、
前記特定手段は、前記解析手段で抽出された文字列領域のうち、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域との両方に対応すると判定された文字列領域について分割を行い、分割後の文字列領域に基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定することを特徴とするシステム
【請求項2】
前記特定手段は、前記解析手段で前記処理対象のスキャン画像データから抽出された文字列領域の情報と、前記過去のスキャン画像データの文字列領域の情報とを比較することによって前記処理対象のスキャン画像データに類似する過去のスキャン画像データがあるかどうか判定することを特徴とする請求項1に記載のシステム
【請求項3】
前記特定手段は、前記解析手段で前記処理対象のスキャン画像データから抽出された文字列領域の座標と大きさを示す情報と、前記過去のスキャン画像データの文字列領域の座標と大きさを示す情報とを比較することによって、前記処理対象のスキャン画像データに類似する過去のスキャン画像データがあるかどうか判定することを特徴とする請求項2に記載のシステム
【請求項4】
前記特定手段は、前記解析手段で前記処理対象のスキャン画像データから抽出された文字列領域のうち、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域に重なる文字列領域を候補領域とし、当該候補領域のうち、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域に重なる候補領域について分割を行い、当該分割後の候補領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域に重ならない候補領域とに基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定することを特徴とする請求項1乃至3のいずれか1項に記載のシステム。
【請求項5】
前記特定手段は、更に、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域に重ならない候補領域のうち、当該候補領域の周辺領域の個数が減少している候補領域について分割を行い、当該分割後の候補領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域に重ならず且つ周辺領域の個数が減少しなかった候補領域とに基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定することを特徴とする請求項4に記載のシステム。
【請求項6】
前記特定手段は、前記解析手段で抽出された文字列領域のうち、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域との両方に対応すると判定された文字列領域を、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域の幅に基づいて分割することを特徴とする請求項1乃至5のいずれか1項に記載のシステム
【請求項7】
前記スキャン画像データを表示画面に表示するとともに、前記特定手段により特定された文字列領域を選択状態にして表示するように制御する表示制御手段を、更に備えることを特徴とする請求項1乃至6のいずれか1項に記載のシステム
【請求項8】
前記処理対象のスキャン画像データに関連する情報は、前記処理対象のスキャン画像データのファイル名であり、前記特定手段で特定された文字列領域の文字認識結果を前記ファイル名に用いることを特徴とする請求項1乃至7のいずれか1項に記載のシステム
【請求項9】
文書をスキャンして得られたスキャン画像データに関連する情報を設定するための方法であって、
処理対象のスキャン画像データを解析して1または複数の文字列領域を抽出する解析ステップと、
前記処理対象のスキャン画像データに類似する過去のスキャン画像データがある場合、前記解析ステップで抽出された文字列領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域とに基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定する特定ステップと、を備え、
前記特定ステップでは、前記解析ステップで抽出された文字列領域のうち、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域との両方に対応すると判定された文字列領域について分割を行い、分割後の文字列領域に基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定することを特徴とする方法
【請求項10】
コンピュータを、請求項1乃至8のいずれか1項に記載のシステムの各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スキャンして得られたスキャン画像データに関連する情報を設定する技術に関する。
【背景技術】
【0002】
従来、紙文書をスキャンして得られた画像データ(以下、スキャン画像データともいう)に対して文字認識処理(OCR処理)を行い、認識された文字を用いて、そのスキャン画像データのファイル名を設定する技術が知られている。特許文献1には、スキャン画像データをプレビュー画面に表示して、ユーザが選択した文字列領域に対してOCR処理を実行して認識結果を取得し、その認識結果に基づいてスキャン画像データのファイル名を設定することが記載されている。また、近年では、過去にスキャンした文書とフォーマットが類似する文書(以下、類似フォーマットの文書ともいう)をスキャンした場合に、ユーザが過去に選択した文字列領域に基づいてスキャン画像データのファイル名を設定することが検討されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開昭62−51866号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、類似フォーマットの文書であっても、文字列領域の位置や大きさが異なる場合があり、その結果、不要な文字列も取得してしまうことがあった。
【0005】
本発明は、このような問題に鑑みてなされたものであり、類似フォーマットの文書を処理する際に、ユーザが文字列領域を選択する手間を省きつつ、適切な文字列を取得することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態において、文書をスキャンして得られたスキャン画像データに関連する情報を設定するためのシステムは、処理対象のスキャン画像データを解析して1または複数の文字列領域を抽出する解析手段と、前記処理対象のスキャン画像データに類似する過去のスキャン画像データがある場合、前記解析手段で抽出された文字列領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域とに基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定する特定手段と、を備え、前記特定手段は、前記解析手段で抽出された文字列領域のうち、前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられた文字列領域と前記類似する過去のスキャン画像データに関連する情報を設定する際に用いられなかった文字列領域との両方に対応すると判定された文字列領域について分割を行い、分割後の文字列領域に基づいて、前記処理対象のスキャン画像データに関連する情報を設定する際に用いるべき文字列領域を特定することを特徴とする。
【発明の効果】
【0007】
本発明によると、類似フォーマットの文書を処理する際に、ユーザが文字列領域を選択する手間を省きつつ、適切な文字列を取得することができる。
【図面の簡単な説明】
【0008】
図1】システム全体図である。
図2】MFPのソフトウェア構成図である。
図3】スキャン画像データを生成してアップロードする処理を示すフローチャートである。
図4】MFPのスキャン設定画面を示す図である。
図5】画像解析処理を示すフローチャートである。
図6】選択文字列領域の復元情報生成処理を示すフローチャートである。
図7】復元候補領域の分割処理を示すフローチャートである。
図8】MFPのプレビュー画面を示す図である。
図9】ファイル名生成処理を示すフローチャートである。
図10】MFPのアップロード設定画面を示す図である。
図11】MFPのプレビュー画面を示す図である。
図12】MFPのプレビュー画面を示す図である。
図13】復元候補領域の分割処理を示すフローチャートである。
図14】MFPのプレビュー画面を示す図である。
【発明を実施するための形態】
【0009】
以下、図面を参照して本発明の実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。また、以下の実施形態で説明されている特徴の組み合わせの全てが、本発明に必須のものとは限らない。
【0010】
<第1の実施形態>
図1は、本実施形態に係る画像処理システムの全体構成を示すブロック図である。画像処理システムは、MFP(Multifunction Peripheral)101と、ファイルサーバ102とを備える。MFP101とファイルサーバ102は、ネットワーク(例えば、LAN:Local Area Network)100を介して互いに通信可能に接続されている。本実施形態では、MFP101とファイルサーバ102とで画像処理システムを構成しているが、ファイルサーバ102の機能をMFP101が併有する構成であってもよい。
【0011】
MFP101は、スキャン機能、FAX機能、及びコピー機能などの複数の機能を有する複合機であり、画像処理装置の一例である。MFP101は、制御部210、操作部220、プリンタ221、スキャナ222、及びモデム223を有する。制御部210は、MFP101全体の動作を制御する。
【0012】
CPU211は、ROM212に記憶された制御プログラムを読み出して、読取、印刷、通信などの各種制御を行う。RAM213は、CPU211の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、MFP101は、1つのCPU211が1つのメモリ(RAM213またはHDD214)を用いて後述するフローチャートに示す処理を実行するものとするが、複数のCPUや複数のRAMまたはHDDを協働させて実行するようにしてもよい。
【0013】
HDD214は、画像データや各種プログラムを記憶する。操作部I/F215は、操作部220と制御部210を接続するインタフェースである。操作部220は、タッチパネル機能を有する液晶表示部やボタンボードなどを備えており、ユーザによる操作、入力、指示を受け付ける受付手段としての役割を担う。
【0014】
プリンタI/F216は、プリンタ221と制御部210を接続するインタフェースである。プリンタ221で印刷される画像データは、プリンタI/F216を介して制御部210からプリンタ221へ転送され、プリンタ221により記録媒体上に印刷される。
【0015】
スキャナI/F217は、スキャナ222と制御部210を接続する。スキャナ222は、原稿上の画像を読み取って画像データ(すなわち、スキャン画像データ)を生成し、スキャナI/F217を介して制御部210に入力する。MFP101は、スキャナ222で生成された画像データを、プリンタ221で印刷する他に、ファイル送信またはメール送信することができる。
【0016】
モデムI/F218は、モデム223と制御部210を接続するインタフェースである。モデム223は、PSTN(Public Switched Telephone Networks)110を介して、不図示のファクシミリ装置との間における画像データのファクシミリ通信を実行する。ネットワークI/F219は、制御部210(すなわち、MFP101)をネットワーク100に接続するインタフェースである。MFP101は、ネットワークI/F219を用いてネットワーク100上の外部装置(ファイルサーバ102など)に画像データや情報を送信したり、各種情報を受信したりする。
【0017】
ファイルサーバ102は、電子化された文書ファイルの保存や管理を行う外部サーバの一例である。ファイルサーバ102は、制御部310を有する。制御部310は、ファイルサーバ102全体の動作を制御する。CPU311は、ROM312に記憶された制御プログラムを読み出して各種制御処理を実行する。RAM313は、CPU311の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD314は、画像データや各種プログラムを記憶する。
【0018】
ネットワークI/F315は、制御部310(すなわち、ファイルサーバ102)をネットワーク100に接続するインタフェースである。ファイルサーバ102は、ネットワークI/F315を介してネットワーク100上の他の装置との間で各種情報を送受信する。
【0019】
図2は、本実施形態に係るMFP101のソフトウェア構成図である。MFP101のソフトウェアは、ネイティブ機能部410と追加アプリケーション420の大きく2つに分けられる。ネイティブ機能部410に含まれる各部は、MFP101に標準的に備えられたものである。一方、追加アプリケーション420は、MFP101に追加インストールされたアプリケーションである。追加アプリケーション420は、Java(登録商標)をベースとしたアプリケーションであり、MFP101への機能追加を容易に実現できる。なお、MFP101には図示しない他の追加アプリケーションがインストールされていても良い。
【0020】
アプリケーション表示部423は、MFP101の操作部220のタッチパネル機能を有する液晶表示部に、ユーザによる操作、入力、指示を受け付けるためのUI(User Interface)画面を表示する。UI画面の詳細については後述する。
【0021】
スキャン指示部421は、アプリケーション表示部423を介して入力されたユーザからの情報を受けて、入力情報に含まれるスキャン設定や転送設定と共に、スキャン部411にスキャン処理を要求する。また、後述するアプリケーション転送部424が、画像データの転送先であるファイルサーバ102のフォルダパスの情報を一時的に保存する。
【0022】
スキャン部411は、スキャン指示部421からのスキャン設定を含んだスキャン要求を受けて、スキャン処理を実行する。スキャン部411は、スキャナI/F217を介してスキャナ222によって、原稿を読み取って画像データを生成し、画像データと転送設定を転送部412に渡す。
【0023】
転送部412は、スキャン部411から受け取った画像データを、同じくスキャン部411から受け取った転送設定に従って転送する。画像データの転送先としては、ファイルサーバ102、ネットワーク100上のPC(不図示)等を設定可能である。なお、本実施形態では、スキャン部411が生成した画像データを一旦全て追加アプリケーション420に転送するように設定されているものとする。また、転送部412は、FTP(File Transfer Protocol)クライアント機能を有しており、FTPサーバ機能を有するアプリケーション受信部422に対してFTPで画像データを転送することができる。
【0024】
アプリケーション受信部422は、転送部412から内部転送された画像データを受信し、アプリケーション転送部424に渡す。
【0025】
アプリケーション転送部424は、受信した画像データを画像解析部425に渡す。
【0026】
画像解析部425は、画像データに対して文字列領域の判定、文字列領域の分割、及び文字列の認識などを行うことができる。画像解析部425は、判定した文字列領域と、帳票情報保持部428に保存された帳票情報の文字列領域とを比較し、類似する帳票情報に基づいて、画像データに関連する情報(例えば、ファイル名等)の設定に用いる文字列領域情報を抽出することができる。画像解析部425は、画像データから抽出した文字列領域情報を、アプリケーション転送部424に渡す。
【0027】
また、アプリケーション転送部424は、受信した画像データ、抽出した文字列領域情報、及び、ユーザが選択した文字列領域の選択情報を、アプリケーション表示部423に渡す。
【0028】
アプリケーション表示部423は、アプリケーション転送部424から受信した画像データ、文字列領域情報、及び、選択情報を、プレビュー表示部426に渡す。
【0029】
プレビュー表示部426は、操作部220のタッチパネル機能を有する液晶表示部に、ユーザによる操作、入力、指示を受け付けるためのファイル名設定に関するUI画面を表示する。表示するUI画面の詳細については後述する。
【0030】
アップロード指示部427は、操作部220の液晶表示部に、フォルダパス設定に関するUI画面を表示する。フォルダパス設定に関するUI画面の詳細については後述する。また、アップロード指示部427は、UI画面に入力されたフォルダパスを受け取り、アプリケーション転送部424に渡す。
【0031】
また、アプリケーション転送部424は、アップロード指示部427が受け取ったフォルダパスに、プレビュー表示部426から受け取った文字列をフォルダやファイル名として追加する。そして、アプリケーション転送部424は、ファイルサーバ102に画像データを転送(送信)する。
【0032】
アプリケーション転送部424は、転送が終了すると、アプリケーション表示部423に転送が終了したことを通知する。アプリケーション表示部423は、アプリケーション転送部424からの通知を受けて、表示内容を更新する。
【0033】
また、アプリケーション転送部424は、SMB(Server Message Block)クライアント機能を有している。これにより、アプリケーション転送部424は、SMBサーバ機能を有するファイルサーバ102に対してSMBを用いてファイル及びフォルダ操作を行うことができる。なお、SMBの他に、WebDAV(Distributed Authoring and Versioning protocol for the WWW)や、FTP(File Transfer Protocol)等を使用してもよい。また、SMTP(Simple Mail Transfer Protocol)等を使用してもよい。また、ファイル送信目的以外のSOAP(Simple Object Access Protocol)やREST(Representational State Transfer)等も使用可能である。
【0034】
図3は、MFP101がスキャン画像データを生成してファイルサーバ102にアップロードする処理を示すフローチャートである。フローチャートに示す各動作(ステップ)は、MFP101のCPU211がHDD214に記憶された制御プログラムを読み出して実行することにより実現される。
【0035】
以下では、図3のフローチャートを3回実施する例を説明する。実施1回目では、帳票情報保持部428がスキャン対象の文書の類似文書情報を保持していない状態でスキャン処理を行う場合の処理について説明する。続いて、実施2回目では、帳票情報保持部428が実施1回目の文書情報を保持しており、実施1回目でスキャン処理した文書に類似する文書をスキャン処理する場合について説明する。したがって、実施2回目では、帳票情報保持部428に保持された文書情報を用いて、スキャン画像データから適切な文字情報が取得される。そして、実施3回目では、実施1回目の文書に類似する文書をスキャン処理するが、スキャン画像データにおいて、隣接する2つの文字列領域が1つの文字列領域として判定されてしまう場合の処理について説明する。
【0036】
<実施1回目>
まず、実施1回目の処理について、図3を参照して説明する。
【0037】
ステップS301では、アプリケーション表示部423が、操作部220の液晶表示部にスキャン設定画面を表示する。ユーザは、表示されたスキャン設定画面を介して、スキャン部411に行わせるスキャン処理の設定を行う。
【0038】
図4は、本実施形態に係るスキャン設定画面400の一例を示す。スキャン設定画面400は、5つのスキャン設定ボタン401乃至405を有する。[カラー設定]ボタン401は、原稿スキャン時のカラーまたはモノクロ設定を受け付ける。[解像度設定]ボタン402は、原稿スキャン時の解像度設定を受け付ける。[両面読み取り設定]ボタン403は、原稿スキャン時の両面読み取り設定を受け付ける。[原稿混載設定]ボタン404は、原稿スキャン時にサイズが異なる原稿をまとめてスキャンするかどうかの設定を受け付ける。[画像形式設定]ボタン405は、スキャン画像データの画像形式を受け付ける。ユーザがこれらのスキャン設定ボタン401乃至405を用いて設定を行う際には、MFP101がサポートしている範囲で設定項目の候補が表示される。ユーザは、表示された候補から所望の設定項目を選択する。なお、上述した設定ボタンは一例であって、これら全ての設定ボタンが存在しなくてもよいし、これら以外の設定ボタンが存在してもよい。ユーザは、このようなスキャン設定画面400を介して、スキャン処理についての詳細な設定を行なうことができる。[キャンセル]ボタン406は、スキャン設定を中止する場合に用いるボタンである。[スキャン開始]ボタン407は、原稿台等にセットした原稿に対するスキャン処理の開始を指示するためのボタンである。
【0039】
ステップS302では、アプリケーション表示部423は、[スキャン開始]ボタン407が押下されたか、[キャンセル]ボタン406が押下されたかを判定する。[スキャン開始]ボタン407が押下されたと判定すると、アプリケーション表示部423は、スキャン設定ボタン401乃至405で選択された設定で、スキャン指示部421に対してスキャン処理を実行させる。[キャンセル]ボタン406が押下されたと判定すると処理を終了する。
【0040】
ステップS303では、スキャン指示部421は、スキャン部411にスキャン処理を指示し、原稿をスキャンする。原稿をスキャンして生成されたスキャン画像データは、ステップS304において、転送部412を通じてアプリケーション受信部422にFTPで内部転送される。
【0041】
ステップS305では、画像解析部425が、アプリケーション受信部422からの指示にしたがって、スキャン画像データの画像解析(レイアウト解析処理やOCR処理)を行う。画像解析部425は、例えば、スキャン画像データのヒストグラムを抽出したり、画素の塊を抽出したりして、文字列領域や図形領域など、スキャン画像データのレイアウトを解析する。文字列領域は、文字列と推認される領域(画像領域)である。文字列領域は、一文字の領域も含む。
【0042】
図5は、ステップS305の画像解析処理の詳細を示すフローチャートである。
【0043】
ステップS501では、画像解析部425は、アプリケーション受信部422から受け取ったスキャン画像データを、解析できる形態にして読み込む。
【0044】
ステップS502では、画像解析部425は、読み込んだスキャン画像データを、領域判定や文字列解析しやすい状態に補正する。具体的には、画像解析部425は、スキャン時にずれた文書の傾きがなくなるようにスキャン画像の傾きを補正したり、文書の方向を検知してスキャン画像を回転させたりする。
【0045】
ステップS503では、画像解析部425は、ステップS502で補正したスキャン画像データを解析して文字列領域を判定し、文字列領域の情報(以下、文字列領域情報という)を抽出する。表1は、文字列領域情報の一例を示す。
【0046】
【表1】
【0047】
上記表1において、[番号]は、特定された各文字列領域を一意に示す番号である。この例では、1から9までの通し番号が、認識された順番に付けられている。[領域のX座標]は、特定された各文字列領域の左上隅のX座標を示す。[領域のY座標]は、特定された各文字列領域の左上隅のY座標を示す。以後、文字列領域に対して“座標”と言う場合は、特に断らない限り、文字列領域の左上隅の位置座標のことを意味するものとする。[領域の幅]は、特定された各文字列領域の左辺から右辺までの距離を示す。[領域の高さ]は、特定された各文字列領域の上辺から下辺までの距離を示す。本実施形態では、[領域のX座標]、[領域のY座標]、[領域の幅]、及び[領域の高さ]はいずれもピクセルで示すが、ポイントやインチ等で示してもよい。文字列領域情報は、CSVまたはXMLのフォーマットで取得されるものとするが、他のフォーマットでもよい。
【0048】
ステップS504では、画像解析部425は、ステップS503で抽出した文字列領域情報と、後述するステップS318の処理により帳票情報保持部428に保存された各帳票情報の文字列領域情報とを比較する。すなわち、画像解析部425は、過去に類似原稿を処理したことがあるかどうか判定する。画像解析部425は、過去に処理した類似原稿において以前にユーザが選択した選択文字列領域を、今回スキャンして得られたスキャン画像データ(処理対象のスキャン画像データ)上に復元するために必要な情報(以下、復元情報という)を生成する。選択文字列領域とは、以前に処理した過去の類似原稿において、後述するステップS308の処理によりユーザが選択した文字列領域のことである。選択文字列領域の復元とは、後述するステップS307のプレビュー画面の表示時に、復元情報に基づいて特定された文字列領域を予め選択状態とし、その文字列領域に含まれる文字列を今回のスキャン画像データに関連する情報として設定することである。例えば、特定された文字列領域に含まれる文字列は、今回のスキャン画像データのファイル名に適用することができる。以下、本実施形態では、スキャン画像データに関連する情報としてファイル名を例に説明する。
【0049】
図6は、ステップS504の選択文字列領域の復元情報生成処理の詳細を示すフローチャートである。
【0050】
ステップS601では、画像解析部425は、ステップS503で抽出した文字列領域情報と、帳票情報保持部428に保存された各帳票情報の文字列領域情報とを比較して、類似する帳票情報が存在するかどうかを判定する。実施1回目では、帳票情報保持部428に帳票情報(すなわち、過去に処理した原稿の文字列領域情報)が保存されていないため、ステップS602においてNoと判定され、復元情報生成処理を終了する。すなわち、画像解析部425は。選択文字列領域の復元情報を生成せずに、処理を終了する。次いで、処理は、図3のステップS306へ進む。図6に記載の他の処理(すなわち、ステップS603乃至S605の処理)については後述する。
【0051】
ステップS306では、アプリケーション転送部424は、画像解析部425がステップS503で抽出した文字列領域情報を取得する。アプリケーション転送部424は、画像解析部425がHDD214に一旦保存した文字列領域情報を取得するようにしてもよい。
【0052】
ステップS307では、プレビュー表示部426が、アプリケーション表示部423を介してアプリケーション転送部424から取得したスキャン画像データ及び文字列領域情報を用いて、操作部220の液晶表示部にプレビュー画面を表示する。ユーザは、プレビュー画面を介して、スキャン画像データに関連する情報(例えば、スキャン画像データのファイル名)を入力することができる。
【0053】
図8は、プレビュー画面800の一例を示す。プレビュー画面800は、スキャン画像データのファイル名表示領域801、ファイル名のフォーマット等を設定するためのボタン802、及びスキャン画像データをプレビュー表示するためのプレビュー表示領域810を有する。また、[戻る]ボタン830、及び[次へ]ボタン831を有する。
【0054】
プレビュー表示領域810は、スキャン画像データを表示するとともに、スキャン画像データの表示状態を変更するボタン811乃至814、及び文字列領域815乃至823を含む。
【0055】
[画面上部スクロール]ボタン811がユーザによって選択(タッチ)されると、プレビュー表示部426は、プレビュー表示領域810に表示されているスキャン画像データの領域を上方向に向かってスクロールする。[画面下部スクロール]ボタン812がユーザによって選択(タッチ)されると、プレビュー表示部426は、プレビュー表示領域810に表示されているスキャン画像データの領域を下方向に向かってスクロールする。[画面拡大]ボタン813がユーザによって選択(タッチ)されると、プレビュー表示部426は、プレビュー表示領域810に表示されているスキャン画像データの領域を拡大表示する。[画面縮小]ボタン814がユーザによって選択(タッチ)されると、プレビュー表示部426は、プレビュー表示領域810に表示されているスキャン画像データの領域を縮小表示する。
【0056】
プレビュー表示部426は、文字列領域815乃至823を、画像解析部425が取得した文字列領域情報に従って、プレビュー表示領域810に表示する。文字列領域情報は、上記表1に示したように、スキャン画像データ上での文字列領域の位置を示している。文字列領域815乃至823は、文字列領域情報に従って、スキャン画像データのスクロール位置や拡大縮小を考慮した位置に表示される。文字列領域815乃至823は、ユーザによって選択可能である。ユーザがいずれかの文字列領域を選択すると、プレビュー表示部426は、選択された文字列領域に対して文字認識処理(OCR処理:Optical Character Recognition処理)を行う。プレビュー表示部426は、文字認識処理によって、選択された文字列領域(画像領域)に含まれている文字(テキストデータ)を抽出する。
【0057】
文字認識処理は、例えば、文字列領域に含まれている画素群と、予め登録されている辞書とをマッチング処理することで、文字(テキストデータ)を認識する処理である。かかる文字認識処理は、処理に時間を要する場合がある。そのため、本実施形態では、画像解析によって抽出された文字列領域に逐次的に文字認識処理を行わずに、ユーザが所望する文字列領域に対して文字認識処理を行うことで、処理の高速化を図っている。
【0058】
プレビュー表示部426は、ユーザによって選択された文字列領域から抽出した文字(テキストデータ)を、ファイル名表示領域801に設定する。なお、ファイル名表示領域801がタッチ(選択)されると、プレビュー表示部426は、ソフトウェアキーボード(不図示)を表示し、ユーザがソフトウェアキーボードを操作することによって、ファイル名の編集を可能にすることができる。
【0059】
実施1回目で最初に表示されるプレビュー画面800では、図8(a)に示すように、いずれの文字列領域も選択状態ではない。
【0060】
図3に戻り、ステップS308では、プレビュー表示部426は、プレビュー画面800を介して入力されたユーザ操作に従って、スキャン画像データのファイル名を生成する。
【0061】
図9は、ステップS308のファイル名生成処理の詳細を示すフローチャートである。
【0062】
ステップS901では、プレビュー表示部426は、ユーザが操作部220の液晶表示部(すなわち、プレビュー画面800)にタッチしたかどうかを判定する。タッチされたと判定すると、ステップS902へ進み、プレビュー表示部426は、タッチされた位置の座標を取得する。タッチされていないと判定するとステップS901へ戻る。
【0063】
ステップS903では、プレビュー表示部426は、タッチされた位置の座標がプレビュー表示領域810に表示されている文字列領域と重なるか判定する。重なるか否かの判定は、タッチされた位置の座標が、プレビュー表示領域810内の文字列領域815乃至823の座標領域内にあるかどうかで判定する。重なると判定すると、ステップS904へ進み、重なっていないと判定するとステップS909へ進む。なお、ステップS909では、[次へ]ボタン831もしくは[戻る]ボタン830が押下されたと判定されれば処理を終了して、図3に戻り、ステップS309へ進む。一方、押下されてないと判定されればステップS901へ戻る。
【0064】
ステップS904では、画像解析部425は、タッチされた位置の座標が重なった文字列領域に対してOCR処理を行い、当該文字列領域に含まれている文字列を取得する。取得した文字列は、解析結果としてプレビュー表示部426へ渡す。
【0065】
ステップS905では、プレビュー表示部426は、ファイル名表示領域801に表示中のファイル名を取得する。ファイル名表示領域801に何も表示されていない場合には、ファイル名は取得できないため、次に進む。
【0066】
ステップS906では、プレビュー表示部426は、ステップS905で取得したファイル名の末尾に区切り文字を追加する。本実施形態では、区切り文字としてアンダーバー(“_”)を使用するが、その他の文字を使用してもよい。なお、ステップS905でファイル名を取得できなかった場合は、区切り文字を追加せずに次に進む。
【0067】
ステップS907では、プレビュー表示部426は、ステップS906で追加した区切り文字に続けて、ステップS904で解析結果として取得した文字列領域の文字列を追加する。なお、ステップS905でファイル名を取得できなかった場合には、ステップS906で区切り文字も追加されないため、ステップS904で取得した文字列が、ファイル名として最初の文字列となる。
【0068】
ステップS908では、プレビュー表示部426は、ステップS907で生成した文字列をファイル名としてファイル名表示領域801に設定し、ステップS909へ戻る。
【0069】
なお、実施1回目では、ステップS901乃至S908を繰り返し、文字列領域815、816、817が順に選択されたものとする。図8(b)は、その場合のプレビュー画面800を示す。なお、ユーザによって選択された文字列領域に、転送先のファイルサーバでファイル名に使用できない文字が含まれている場合、プレビュー表示部426は、文字列をファイル名表示領域801に設定する際に、該当する文字を除去しても良い。図8(b)のプレビュー画面800では、文字列領域817に含まれるスラッシュ(“/”)が除去されている。除去対象の文字列は、予めMFP101に記憶しておいてもよいし、外部装置から当該文字列に関する情報を取得するようにしてもよい。
【0070】
以上説明したように、ステップS308のファイル名生成処理が行われる。
【0071】
次いで、図3に戻り、ステップS309では、プレビュー表示部426は、上述したステップS909での操作内容を判定する。具体的には、プレビュー表示部426は、ステップS909で[次へ]ボタン831が押下されたのか、それとも、[戻る]ボタン830が押下されたのかを判定する。[次へ]ボタン831が押下されたと判定すると、ステップS310へ進み、[戻る]ボタン830が押下されたと判定すると、ステップS301へ戻る。
【0072】
ステップS310では、プレビュー表示部426は、ファイル名表示領域801に設定されているファイル名を取得する。プレビュー表示部426は、取得したファイル名をアップロード指示部427へ渡す。
【0073】
ステップS311では、アップロード指示部427は、アップロード設定画面を操作部220の液晶表示部に表示する。ユーザは、アップロード設定画面を介して、アプリケーション転送部424に行わせるファイルサーバ102への外部転送(アップロード)に関する設定を行うことができる。
【0074】
図10は、アップロード設定画面1000の一例を示す。アップロード設定画面1000において、フォルダパス入力欄1001は、外部転送先であるファイルサーバ102のフォルダパス設定を受け付ける。ユーザがフォルダパス入力欄1001をタップすると、アップロード指示部427は、ソフトウェアキーボード(不図示)を表示する。ユーザは、表示されたソフトウェアキーボードを介して、フォルダパス入力欄1001にフォルダパスを入力する。図10の例では、フォルダパス入力欄1001に文字列“2017_09_10”が入力されている。フォルダパスの設定を終了する指示を受けると、アップロード指示部427は、設定されたフォルダパスを取得し、ソフトウェアキーボードを閉じる。なお、フォルダパスの設定は、フォルダパス入力欄1001以外から設定可能であってもよい。例えば、MFP101が保持するアドレス帳からフォルダパスを設定可能なようにしても良い。
【0075】
ステップS312では、アップロード指示部427は、アップロード設定画面1000の[アップロード]ボタン1021が押下されたのか、それとも、[戻る]ボタン1020が押下されたのかを判定する。[アップロード]ボタン1021が押下されたと判定すると、ステップS313へ進み、[戻る]ボタン1020が押下されたと判定すると、ステップS307へ戻る。
【0076】
ステップS313では、アップロード指示部427は、HDD214等のメモリに予め記憶されたファイルサーバ設定を取得する。ファイルサーバ設定には、ファイルサーバ102のホスト名、フォルダパスの起点、ファイルサーバ102にログインするためのユーザ名及びパスワードが含まれる。アップロード指示部427は、取得したファイルサーバ設定、ステップS311で取得したフォルダパス設定、及びステップS310で取得したファイル名を、アプリケーション転送部424へ渡す。
【0077】
ステップS314では、アプリケーション転送部424は、スキャン画像データの格納先となる格納先パスを生成する。格納先パスは、ファイルサーバ設定に含まれるファイルサーバ102のホスト名とフォルダパスの起点に、ステップS311で取得したフォルダパスを加えて生成される。これにより、例えば“\\server01\Share\2017_09_10”という格納先パスが生成される。
【0078】
ステップS315では、アプリケーション転送部424は、ファイルサーバ102にアクセスする。アプリケーション転送部424は、ステップS313で取得したファイルサーバ設定に含まれるユーザ名とパスワードをファイルサーバ102に送信し、ファイルサーバ102によるユーザ認証の結果を受信する。
【0079】
ステップS316では、アプリケーション転送部424は、受信したユーザ認証の結果に基づいて、ユーザ認証が成功したか(ファイルサーバ102にログインできたか)否かを判定する。ユーザ認証が成功した場合はステップS317に進み、ユーザ認証が失敗した場合は処理を終了する。
【0080】
ステップS317では、アプリケーション転送部424が、ステップS314で生成した格納先パスが示すフォルダに、スキャン画像データを外部転送(アップロード)する。
【0081】
ステップS318では、画像解析部425は、ステップS306でスキャン画像から取得した文字列領域情報と、ステップS308でプレビュー画面上でユーザが選択した文字列領域の情報(すなわち、選択情報)を、帳票情報保持部428に保存する。表2は、帳票情報保持部428に保存する文字列領域情報および選択情報の一例を示す。
【0082】
【表2】
【0083】
表2において、[帳票No]は、保存する帳票情報ごとに一意の番号が割り当てられる。表2は、1種類目の帳票情報を示しているので「1」が割り当てられている。また、表2は、文字列領域情報に加えて、選択情報を保存する。すなわち、選択情報は、[帳票No]が「1」のスキャン画像データに対応付けて保持される。また、選択情報は、ステップS308でユーザがプレビュー画面上で選択した文字列領域の順番を表している。また、選択情報における「‐」は、該当する文字列領域がユーザによって選択されていないことを表している。
【0084】
<実施2回目>
次に、実施2回目について説明する。実施2回目では、実施1回目でスキャンされた原稿と類似する原稿がスキャンされ、図3のフローチャートを参照して上述した処理が実施されるものとする。以下では、実施1回目と異なる処理を主に説明し、実施1回目と同様の処理については説明を省略する。また、実施2回目のプレビュー画面は、図11を参照して説明する。
【0085】
表3は、図3のステップS305における画像解析処理、すなわち、図5のステップS503において、画像解析部425がスキャン画像データから抽出した文字列領域情報の一例を示す。
【0086】
【表3】
【0087】
次に、図6のステップS601では、画像解析部425は、ステップS503で抽出した文字列領域情報と、帳票情報保持部428に保存された各帳票情報の文字列領域情報とを比較する。そして、画像解析部425は、各帳票情報の中から、文字列領域の重なりが多い帳票情報を類似帳票情報として判定する。ここでは、帳票情報保持部428には、表2に示す帳票情報が保存されているものとする。この場合、表2に示す帳票Noが「1」である帳票情報の文字列領域と、表3に示す文字列領域との差分は、番号「8」の領域の幅のみである。その他の文字列領域は、表2と表3で同じ位置(X座標及びY座標)にあり、同じ大きさ(幅及び高さ)を有する。したがって、画像解析部425は、帳票Noが「1」である帳票情報を類似帳票情報と判定する(すなわち、類似帳票が存在すると判定する)。類似帳票が存在すると判定されたため、ステップS602においてYesと判定され、ステップS603へ進む。なお、帳票の類似判定は、例えば、比較対象とする文字列領域の総数に対して、互いに重なる文字領域の数の割合(類似度)が、予め定めた閾値以上であるかどうかに基づいて行うことができる。
【0088】
ステップS603では、画像解析部425は、類似帳票情報に含まれる選択情報に基づいて、今回のスキャン画像データに含まれる文字列領域の中から復元候補領域を決定する。具体的には、画像解析部425は、表3に示す文字列領域のうち、表2の類似帳票情報において「選択情報」に番号が格納されている文字列領域と最も重なる文字列領域を特定し、復元候補領域と決定する。ここでは、表3に示す番号「1」、「8」、「7」の文字列領域が、それぞれ類似帳票の選択情報「1」、「2」、「3」を有する文字列領域と最も重なる領域(すなわち、復元候補領域)であると特定される。
【0089】
ステップS604では、画像解析部425は、復元候補領域である各文字列領域の分割処理を行う。図7は、ステップS604における文字列領域分割処理の詳細を示すフローチャートである。
【0090】
ステップS701では、画像解析部425は、ステップS603で決定した復元候補領域が、類似帳票で選択されなかった文字列領域、すなわち、表2の類似帳票情報において「選択情報」に番号が格納されていない文字列領域と重なるかどうか判定する。以下では、類似帳票で選択されなかった文字列領域を、非選択文字列領域(または、非選択の文字列領域)ともいう。具体的には、画像解析部425は、表3に示す番号「1」、「8」、「7」の文字列領域(すなわち、復元候補領域)が、表2に示す類似帳票の番号「2」乃至「6」および「9」の文字列領域(すなわち、非選択文字列領域)と重なるかどうかを判定する。表2と表3の例では、復元候補領域と非選択文字列領域は重ならないため、続くステップS702ではNoと判定され、文字列領域分割処理を終了し、図6のステップS605へ進む。すなわち、復元候補領域と、類似帳票の非選択文字列領域とが重ならない場合、文字列領域(復元候補領域)の分割処理は行われない。図7に記載のその他の処理(すなわち、ステップS703、S704の処理)については、実施3回目の例で説明する。
【0091】
ステップS605では、画像解析部425は、選択文字列領域の復元に必要な復元情報を生成する。具体的には、ステップS603で取得した復元候補領域の文字認識を行う。実施1回目では、ステップS306において、画像解析部425は、表1に示すような文字列領域ごとの座標と大きさ(すなわち、文字列領域情報)を、アプリケーション転送部424に渡していた。一方、実施2回目では、画像解析部425は、文字列領域情報に選択情報と文字認識結果(「領域内文字列」)を加えた表4に示す復元情報を、画像解析データとしてアプリケーション転送部424に渡す。
【0092】
【表4】
【0093】
ステップS307では、プレビュー表示部426が、アプリケーション転送部424から取得したスキャン画像データ及び文字列領域情報(ここでは、復元情報)を用いて、操作部220の液晶表示部にプレビュー画面を表示する。すなわち、実施2回目では、プレビュー表示部426は、復元候補領域の復元情報に基づいて、以前にユーザによって選択された文字列領域が選択された状態で、プレビュー画面を表示する。
【0094】
図11は、実施2回目のステップS307において表示されるプレビュー画面1100の一例を示す。プレビュー画面1100は、図8のプレビュー画面800と同様に、ファイル名表示領域1101、フォーマット等設定ボタン1102、プレビュー表示領域1110、[戻る]ボタン1130、及び[次へ]ボタン1131を有する。また、プレビュー表示領域1110は、[画面上部スクロール]ボタン1111、[画面下部スクロール]ボタン1112、[画面拡大]ボタン1113、及び[画面縮小]ボタン1114を有する。これらのボタンは、図8のプレビュー画面800と同様であるため、説明は省略する。また、プレビュー表示領域1110は、スキャン画像の文字列領域1115乃至1123を表示する。
【0095】
ステップS308では、プレビュー表示部426は、図9を参照して上述したファイル名生成処理を行う。プレビュー表示部426は、表4に示したように、実施2回目では、画像解析部425から文字列領域の選択情報と文字認識結果を取得している。プレビュー表示部426は、ユーザの操作を受け付ける前に、選択情報「1」、「2」、「3」に対応する文字列領域が、番号順に選択されたものとして、ステップS901乃至S908の処理を行い、スキャン画像データのファイル名を生成する。実施2回目では、ユーザが操作を行う前から、図11に示したように、ファイル名の生成に使用にする文字列領域1115、1116、及び1117が予め選択状態となっている。また、選択状態となった文字列領域1115、1116、及び1117に含まれる文字列が、今回のスキャン画像データのファイル名としてファイル名表示領域1101に表示されている。これにより、ユーザによる文字列領域選択の手間を省きつつ、今回のスキャン画像データに適切なファイル名を設定することができる。
【0096】
なお、実施2回目では、実施1回目の帳票に類似する帳票が処理対象となるため、ステップS308の処理においてファイル名に使用する文字列領域に変更が無い場合は、ステップS318では文字列領域情報等を帳票情報保持部428に保存しない。一方、ステップS308でファイル名に使用する文字列領域に変更があった場合は、帳票情報保持部428に保存している情報のうち、少なくとも選択情報を修正するようにしてもよい。
【0097】
<実施3回目>
次に、実施3回目について説明する。実施3回目では、実施1回目の原稿に類似する原稿がスキャンされるものとするが、実施2回目とは異なり、処理対象のスキャン画像データの復元候補領域が、過去のスキャン画像データの非選択文字列領域と重なる場合について説明する。また、実施3回目においても、図3のフローチャートを参照して上述した処理が実施される。以下では、実施1回目及び実施2回目と異なる処理を主に説明し、実施1回目及び実施2回目と同様の処理については説明を省略する。また、実施3回目のプレビュー画面は、図12を参照して説明する。
【0098】
表5は、図3のステップS305における画像解析処理、すなわち、図5のステップS503において、画像解析部425がスキャン画像データから抽出した文字列領域情報の一例を示す。
【0099】
【表5】
【0100】
次に、図6のステップS601では、画像解析部425は、ステップS503で抽出した文字列領域情報と、帳票情報保持部428に保存された各帳票情報の文字列領域情報とを比較する。そして、画像解析部425は、各帳票情報の中から、文字列領域の重なりが多い帳票情報を類似帳票情報として判定する。ここでは、帳票情報保持部428には、表2に示す帳票情報が保存されているものとする。この場合、画像解析部425は、表2に示す帳票Noが「1」である帳票情報を類似帳票情報と判定する。類似帳票が存在すると判定されたため、ステップS602においてYesと判定され、ステップS603へ進む。
【0101】
ステップS603では、画像解析部425は、類似帳票情報に含まれる選択情報に基づいて、今回のスキャン画像データに含まれる文字列領域の中から復元候補領域を決定する。具体的には、画像解析部425は、表5に示す文字列領域のうち、表2の類似帳票情報において「選択情報」に番号が格納されている文字列領域と最も重なる文字列領域を特定し、復元候補領域と決定する。ここでは、表5に示す番号「1」、「8」、「7」の文字列領域が、それぞれ類似帳票の選択情報「1」、「2」、「3」を有する文字列領域と最も重なる領域(すなわち、復元候補領域)であると特定される。
【0102】
ステップS604では、画像解析部425は、復元候補領域である各文字列領域の分割処理を行う。図7は、ステップS604における文字列領域分割処理の詳細を示すフローチャートである。
【0103】
ステップS701では、画像解析部425は、ステップS603で決定した復元候補領域が、類似帳票の非選択文字列領域と重なるか判定する。具体的には、画像解析部425は、表5に示す番号「1」、「8」、「7」の文字列領域(すなわち、復元候補領域)が、表2に示す類似帳票の番号「2」乃至「6」および「9」の文字列領域(すなわち、非選択文字列領域)と重なるかどうか判定する。表2と表5の例では、表5の番号「8」の文字列領域と、類似帳票の番号「9」の文字列領域が重なる(文字列領域の重なりについては、図12を参照して後述する)。したがって、ステップS702では、画像解析部425はYesと判定し、ステップS703に進む。
【0104】
ステップS703では、画像解析部425は、ステップS701の処理により、非選択文字列領域を含むと判定された番号「8」の文字列領域を分割するための座標(以下、分割座標ともいう)を決定する。画像解析部425は、表5の例では、番号「8」の文字列領域の右端(領域のX座標+領域の幅)から、表2の類似帳票の番号「9」の文字列領域の幅分(すなわち、45ピクセル)左に移動した座標を分割座標とする。すなわち、番号「8」の文字列領域において、以下の式(1)により分割座標(X座標)が決定される。
分割座標(214)=領域のX座標(35)+幅(224)−差分(45)・・・(1)
【0105】
なお、非選択文字列領域が復元候補領域の左側に含まれる場合は、復元候補領域の左端から非選択文字列領域の幅分右に移動した座標を分割座標としても良い。また、ステップS503で行う文字列領域の判定方法によっては、文字列領域に加えて、1文字ずつの領域を取得するようにしてもよい。その場合、類似帳票の幅の長さをそのまま用いるのではなく、文字と文字の中間点になるよう長さを伸縮させても良い。
【0106】
ステップS704では、画像解析部425は、ステップS703で決定した分割座標を用いて、復元候補領域である文字列領域を分割する。すなわち、画像解析部425は、表5の番号「8」の文字列領域を、X座標35、Y座標166、幅179(224−45)、高さ30の領域と、X座標214、Y座標166、幅45、高さ30の2つの領域に分割する。画像解析部425は、分割を行った後、表5の番号「8」の文字列領域の幅を更新する。また、画像解析部425は、非選択文字列領域に対応する文字列領域を番号「9」として表5に追加し、図7の処理を終了する。
【0107】
図6に戻り、ステップS605では、画像解析部425は、選択文字列領域の復元に必要な復元情報を生成する。具体的には、画像解析部425は、ステップS704で分割した復元候補領域(すなわち、選択文字列領域)の文字認識を行う。実施3回目では、ステップS306において、画像解析部425は、分割処理を行った後の復元候補領域(すなわち、選択文字列領域)に対して文字認識を行う。画像解析部425は、選択情報と文字認識結果(「領域内文字列」)を加えた表6に示す復元情報を、画像解析データとしてアプリケーション転送部424に渡す。
【0108】
【表6】
【0109】
ステップS307では、プレビュー表示部426が、アプリケーション転送部424から取得したスキャン画像データ及び文字列領域情報(ここでは、復元情報)を用いて、操作部220の液晶表示部にプレビュー画面を表示する。すなわち、実施3回目では、プレビュー表示部426は、復元候補領域から非選択文字列領域を分割し、分割した復元候補領域が選択された状態で、プレビュー画面を表示する。
【0110】
図12は、実施3回目のプレビュー画面1200の一例を示す。プレビュー画面1200は、図8のプレビュー画面800と同様に、ファイル名表示領域1201、フォーマット等設定ボタン1202、プレビュー表示領域1210、[戻る]ボタン1230、及び[次へ]ボタン1231を有する。また、プレビュー表示領域1210は、[画面上部スクロール]ボタン1211、[画面下部スクロール]ボタン1212、[画面拡大]ボタン1213、及び[画面縮小]ボタン1214を有する。これらのボタンは、図8のプレビュー画面800と同様であるため、説明は省略する。また、プレビュー表示領域1210は、スキャン画像の文字列領域1215乃至1226、および重複領域1250を表示する。
【0111】
図12(a)は、仮にステップS703、及びS704の領域分割処理を行わなかった場合に、プレビュー表示部426が操作部220の液晶表示部に表示するプレビュー画面1200を示す。重複領域1250は、表5の番号「8」の文字列領域1216において、類似帳票の番号「9」の文字列領域が重なる領域を示している。
【0112】
図12(b)は、復元候補領域から非選択文字列領域を分割した後のプレビュー画面1200を示す。図12(b)では、図12(a)の文字列領域1216が、2つの文字列領域1225、1226に分割されている。文字列領域1225は、選択文字列領域として処理され、選択状態で表示される。また、文字列領域1226は、非選択文字列領域として処理され、非選択状態で表示される。
【0113】
ステップS308では、プレビュー表示部426は、図9を参照して上述したファイル名生成処理を行う。プレビュー表示部426は、表6に示したように、実施3回目では、画像解析部425から分割処理後の文字列領域の選択情報と文字認識結果を取得している。プレビュー表示部426は、ユーザ操作を受け付ける前に、選択情報「1」、「2」、「3」に対応する文字列領域が、番号順に選択されたものとして、ステップS901乃至S908の処理を行い、スキャン画像データのファイル名を生成する。実施3回目では、ユーザが操作を行う前から、図12(b)に示したように、ファイル名の生成に使用する文字列領域1215、1225、及び1217が予め選択状態となる。また、選択状態となった文字列領域1215、1225、及び1217に含まれる文字列が、今回のスキャン画像データのファイル名としてファイル名表示領域1201に表示される。一方、復元候補領域から分割された非選択文字列領域に対応する文字列領域1226は、非選択状態となる。すなわち、文字列領域1226は、最初にプレビュー画面が表示される段階では、ファイル名として使用されない。これにより、ユーザによる選択の手間を省きつつ、適切なファイル名を設定することができる。
【0114】
上述したように、本実施形態では、実施1回目で保存された帳票情報の文字列領域情報を用いて、実施3回目のように隣接する2つの文字列領域が1つの文字列領域として判定された場合に当該文字列領域を分割して、適切なファイル名を設定することができる。しかし、帳票情報保持部428に類似帳票情報が保存されていない状態で、実施3回目のような隣接する2つの文字列領域が1つの文字列領域と判定される場合がある。その場合、ユーザは、当該文字列領域を選択した後、不要な文字列を削除する。このように、文字列領域を選択した後、文字列の削除を行った場合は、ステップS318の処理において、画像解析部425は、削除した文字列の領域を特定し、選択した文字列領域と削除した文字列の領域を分割して、保存するようにしてもよい。すなわち、実施3回目と同様の文書をスキャンし、図12(a)に示したプレビュー画面1200が表示された場合、文字列領域1215、1216、1217を選択すると、ファイル名は“見積書_東京特許株式会社御中_20171015”と設定される。その後、ユーザが、“御中”という文字列を削除したとする。その場合は、文字列領域1216を、“東京特許株式会社”という文字列を含む領域と、“御中”という文字列を含む領域に分割して、表6に示すような文字領域情報を帳票情報保持部428に保存してもよい。
【0115】
なお、本実施形態では、画像処理を行って抽出した文字列を、スキャン画像データのファイル名として使用したが、その他の目的で使用してもよい。例えば、抽出した文字列に対応する電話番号を特定して、スキャン画像データをその電話番号を使用してファクス送信してもよい。また、抽出した文字列に対応するメールアドレスを特定して、スキャン画像データをそのメールアドレスを使用してメール送信してもよい。
【0116】
<第2の実施形態>
次に、本発明の第2の実施形態について説明する。上述した第1の実施形態との差異は、文字列領域分割処理(図6のステップS604)、およびプレビュー画面である。文字列領域分割処理の詳細は、図13のフローチャートを参照して説明する。また、本実施形態におけるプレビュー画面は、図14を参照して説明する。その他の構成について、第1の実施形態と同様であるものは説明を省略する。なお、本実施形態では、表2に示した文字列領域情報が、帳票情報保持部428に保存されているものとする。
【0117】
表7は、図2のステップS305における画像解析処理、すなわち、図5のステップS503において、画像解析部425がスキャン画像データから抽出した文字列領域情報の一例を示す。
【0118】
【表7】
【0119】
次に、図6のステップS601では、画像解析部425は、ステップS503で抽出した文字列領域情報と、帳票情報保持部428に保存された各帳票情報の文字列領域情報とを比較する。そして、画像解析部425は、各帳票情報の中から、文字列領域の重なりが多い帳票情報を類似帳票情報として判定する。ここでは、画像解析部425は、表2に示す帳票No.が「1」である帳票情報を類似帳票情報と判定する。類似帳票が存在すると判定されたため、ステップS602においてYesと判定され、ステップS603へ進む。
【0120】
ステップS603では、画像解析部425は、類似帳票情報に含まれる選択情報に基づいて、今回のスキャン画像データに含まれる文字列領域の中から復元候補領域を決定する。具体的には、画像解析部425は、表7に示す文字列領域のうち、表2の類似帳票情報において「選択情報」に番号が格納されている文字列領域と最も重なる文字列領域を特定し、復元候補領域と決定する。ここでは、表7に示す番号「1」、「8」、「7」の文字列領域が、それぞれ類似帳票の選択情報「1」、「2」、「3」を有する文字列領域と最も重なる領域(すなわち、復元候補領域)であると特定される。
【0121】
ステップS604では、画像解析部425は、復元候補領域である各文字列領域の分割処理を行う。図13は、本実施形態におけるステップS604の文字列領域分割処理の詳細を示すフローチャートである。
【0122】
ステップS1301では、画像解析部425は、ステップS603で決定した復元候補領域が、類似帳票の非選択文字列領域と重なるか判定する。具体的には、画像解析部425は、表7に示す番号「1」、「8」、「7」の復元候補領域が、類似帳票の番号「2」乃至「6」および「9」の非選択文字列領域と重なるかどうか判定する。表2と表7の例では、復元候補領域と非選択文字列領域は重ならないため、続くステップS1302ではNoと判定され、ステップS1310に進む。なお、本実施形態における復元候補領域と非選択文字列領域との関係は、図14を参照して後述する。
【0123】
ステップS1310では、画像解析部425は、復元候補領域の周辺領域に存在する文字列領域の個数と、類似帳票情報において当該周辺領域に存在する文字列領域の個数を比較する。周辺領域とは、例えば、文字列領域の左右一定幅の領域を指す。表2と表7の文字列領域情報を比較すると、表7に示す番号「8」の復元候補領域の周辺領域に含まれる文字列領域の個数は1つであるのに対し、当該周辺領域に含まれる表2の類似帳票の文字列領域の個数は2個(番号「8」と「9」の文字列領域)である。すなわち、復元候補領域の周辺領域に存在する文字列領域の個数は減少している。したがって、続くステップS1311では、Yesと判定され、ステップS1303へ進む。なお、文字列領域の個数が変化しない場合は、文字列領域を分割せずに処理を終了し、図6のステップS605に進む。このように、本実施形態では、復元候補領域の周辺領域に含まれる文字列領域の個数に基づいて、当該周辺領域に過去のスキャン画像データの非選択文字列領域が含まれているかどうか判定する。
【0124】
ステップS1303では、画像解析部425は、ステップS1311で文字列領域の個数が減少したと判定された番号「8」の文字列領域(すなわち、復元候補領域)を分割するための座標を決定する。画像解析部425は、表7の例では、番号「8」の文字列領域の右端から、類似帳票の番号「9」の文字列領域の幅分(すなわち、45ピクセル)左に移動した座標を分割座標とする。なお、番号「9」の文字列領域は、「選択情報」に番号が格納されていない文字列領域である。
【0125】
ステップS1304では、画像解析部425は、ステップS1303で決定した分割座標を用いて、復元候補領域である文字列領域を分割する。すなわち、画像解析部425は、表7の番号「8」の文字列領域を、X座標34、Y座標166、幅30(75−45)、高さ30の領域と、X座標64(34+30)、Y座標166、幅45、高さ30の2つの領域に分割する。画像解析部425は、分割を行った後、表7の番号「8」の文字列領域の幅を更新し、分割された新たな文字列領域を番号「9」として表7に追加する。
【0126】
図6に戻り、ステップS605では、画像解析部425は、選択文字列領域の復元に必要な復元情報を生成する。本実施形態では、ステップS306において、画像解析部425は、ステップS1304の分割処理後の文字列領域に対して文字認識を行い、選択情報と文字認識結果を加えた表8に示す復元情報を、画像解析データとしてアプリケーション転送部424に渡す。
【0127】
【表8】
【0128】
ステップS307では、プレビュー表示部426が、アプリケーション転送部424から取得したスキャン画像データ及び文字列領域情報(ここでは、復元情報)を用いて、操作部220の液晶表示部にプレビュー画面を表示する。すなわち、本実施形態では、プレビュー表示部426は、復元候補領域から非選択文字列領域を分割し、分割した復元候補領域が選択された状態で、プレビュー画面を表示する。
【0129】
図14は、本実施形態のプレビュー画面1400の一例を示す。プレビュー画面1400は、図8のプレビュー画面800と同様に、ファイル名表示領域1401、フォーマット等設定ボタン1402、プレビュー表示領域1410、[戻る]ボタン1430、及び[次へ]ボタン1431を有する。また、プレビュー表示領域1410は、[画面上部スクロール]ボタン1411、[画面下部スクロール]ボタン1412、[画面拡大]ボタン1413、及び[画面縮小]ボタン1414を有する。これらのボタンは、図8のプレビュー画面800と同様であるため、説明は省略する。また、プレビュー表示領域1410は、スキャン画像の文字列領域1415乃至1423、1460、1461を表示する。さらに、図14(a)には、文字列領域1415乃至1417のそれぞれの周辺領域1451乃至1453と、類似帳票に存在する文字列領域1450を示している。
【0130】
図14(a)は、仮にステップS1303、S1304の領域分割処理を行わなかった場合に、プレビュー表示部426が操作部220の液晶表示部に表示するプレビュー画面1400を示す。図14(a)では、「(株)雅」という文字列と「御中」という文字列を含む文字列領域1416が選択状態となっており、「(株)雅御中」という文字列がファイル名表示領域1401に設定されたファイル名に適用されている。なお、文字列領域1416は、類似帳票の非選択文字列領域と重ならないため、上述した第1の実施形態の処理方法では、分割対象の文字列領域とはならない。
【0131】
図14(b)は、復元候補領域から非選択文字列領域を分割した後のプレビュー画面1400を示す。図14(b)では、文字列領域1416が、2つの文字列領域1460、1461に分割されている。文字列領域1460は、選択文字列領域として処理され、選択状態で表示される。また、文字列領域1461は、非選択文字列領域として処理され、非選択状態で表示される。すなわち、文字列領域1416は、周辺領域に非選択文字列領域に対応する文字列領域を含むため、分割される。
【0132】
ステップS308では、プレビュー表示部426は、図9を参照して上述したファイル名生成処理を行う。本実施形態では、プレビュー表示部426は、表8に示したように、画像解析部425から分割処理後の文字列領域の選択情報と文字認識結果を取得している。プレビュー表示部426は、ユーザ操作を受け付ける前に、選択情報「1」、「2」、「3」に対応する文字列領域が、番号順に選択されたものとして、ステップS901乃至S908の処理を行い、スキャン画像データのファイル名を生成する。本実施形態では、ユーザが操作を行う前から、図14(b)に示したように、ファイル名の生成に使用する文字列領域1415、1460、及び1417が予め選択状態となる。また、選択状態となった文字列領域1415、1460、及び1417に含まれる文字列が、今回のスキャン画像データのファイル名としてファイル名表示領域1401に表示される。一方、復元候補領域から分割された非選択文字列領域に対応する文字列領域1461は、非選択状態となる。すなわち、文字列領域1461は、最初にプレビュー画面が表示される段階では、ファイル名として使用されない。これにより、ユーザによる選択の手間を省きつつ、適切なファイル名を設定することができる。
【0133】
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14