IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許-情報処理装置及びプログラム 図1
  • 特許-情報処理装置及びプログラム 図2
  • 特許-情報処理装置及びプログラム 図3
  • 特許-情報処理装置及びプログラム 図4
  • 特許-情報処理装置及びプログラム 図5
  • 特許-情報処理装置及びプログラム 図6
  • 特許-情報処理装置及びプログラム 図7
  • 特許-情報処理装置及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-19
(45)【発行日】2024-02-28
(54)【発明の名称】情報処理装置及びプログラム
(51)【国際特許分類】
   G06V 30/412 20220101AFI20240220BHJP
   G06F 16/35 20190101ALI20240220BHJP
   G06F 16/383 20190101ALI20240220BHJP
   G06F 16/583 20190101ALI20240220BHJP
【FI】
G06V30/412
G06F16/35
G06F16/383
G06F16/583
【請求項の数】 6
(21)【出願番号】P 2019178597
(22)【出願日】2019-09-30
(65)【公開番号】P2021056722
(43)【公開日】2021-04-08
【審査請求日】2022-08-31
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】清水 淳一
(72)【発明者】
【氏名】岡田 茂
(72)【発明者】
【氏名】吉塚 公則
【審査官】笠田 和宏
(56)【参考文献】
【文献】特開2014-016762(JP,A)
【文献】米国特許出願公開第2017/0155783(US,A1)
【文献】特開平09-319824(JP,A)
【文献】特開2003-168073(JP,A)
【文献】特開2000-251012(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/412
G06F 16/35
G06F 16/383
G06F 16/583
(57)【特許請求の範囲】
【請求項1】
プロセッサを備え、
前記プロセッサは、
文書の読取画像から当該文書の種類を表す表題を抽出すると、予め定められている文書の種別に文書の種類を表す表題を対応付けして含む種別分類情報を参照することによって、当該種類の文書が分類される文書の種別を特定し、
文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する、
ことを特徴とする情報処理装置。
【請求項2】
前記種別分類情報に含まれる表題は、当該種別に分類される種類の文書の表題であり、
前記種別は、少なくとも発注書、請求書又は領収書を含む、
ことを特徴とする請求項に記載の情報処理装置。
【請求項3】
前記プロセッサは、
複数の文書の読取画像を連続して取得した場合、文書毎に文書の種別を特定し、
特定した各文書の種別に応じて前記複数の文書の分類処理を行う、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
分類処理を行う際に文書の種別が指定された場合、連続する複数の文書を、指定された文書の種別に該当する文書から、次に指定された文書の種別に該当する文書が表れる直前の文書、若しくは最終の文書までが組となるよう文書を分類する、
ことを特徴とする請求項に記載の情報処理装置。
【請求項5】
各組に分類された各文書には、当該文書の種別に対応する処理が施される、
ことを特徴とする請求項又はに記載の情報処理装置。
【請求項6】
コンピュータに、
文書の読取画像から当該文書の種類を表す表題を抽出すると、予め定められている文書の種別に文書の種類を表す表題を対応付けして含む種別分類情報を参照することによって、当該種類の文書が分類される文書の種別を特定する機能、
文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する機能、
を実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及びプログラムに関する。
【背景技術】
【0002】
文書から特定の項目に対する項目値を自動的に抽出したい場合がある。例えば、文書が請求書等の帳票の場合、帳票の形式は、発行元の企業等によって予め決められている場合が少なくない。従って、帳票の形式を解析し、帳票のどの箇所に項目値が記載されているのかを特定しておけば、以降に同じ形式の帳票を取得した場合には、その帳票から所望の項目値を自動的に抽出することが可能となる。
【0003】
また、所望の項目値は、一般に帳票上、対応する項目の項目名近傍に記載されている。例えば、合計金額という項目に対する項目値、すなわち合計金額を表す数字は、帳票上の「合計金額」という項目名を示す文字列の直下若しくは右側に存在する可能性が高いので、帳票の読取画像から「合計金額」という文字列を探し出すことで項目値を自動的に抽出することが可能となる。
【0004】
前述したいずれの場合でも、従来においては、項目値を抽出する規則等を定義した情報を文書の種類毎に事前に用意している。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2001-202466号公報
【文献】特開2013-142955号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出できるようにすることを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書の読取画像から当該文書の種類を表す表題を抽出すると、予め定められている文書の種別に文書の種類を表す表題を対応付けして含む種別分類情報を参照することによって、当該種類の文書が分類される文書の種別を特定し、文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出することを特徴とする。
【0009】
また、前記種別分類情報に含まれる表題は、当該種別に分類される種類の文書の表題であり、前記種別は、少なくとも発注書、請求書又は領収書を含むことを特徴とする。
【0010】
また、前記プロセッサは、複数の文書の読取画像を連続して取得した場合、文書毎に文書の種別を特定し、特定した各文書の種別に応じて前記複数の文書の分類処理を行うことを特徴とする。
【0011】
また、分類処理を行う際に文書の種別が指定された場合、連続する複数の文書を、指定された文書の種別に該当する文書から、次に指定された文書の種別に該当する文書が表れる直前の文書、若しくは最終の文書までが組となるよう文書を分類することを特徴とする。
【0012】
また、各組に分類された各文書には、当該文書の種別に対応する処理が施されることを特徴とする。
【0013】
本発明に係るプログラムは、コンピュータに、文書の読取画像から当該文書の種類を表す表題を抽出すると、予め定められている文書の種別に文書の種類を表す表題を対応付けして含む種別分類情報を参照することによって、当該種類の文書が分類される文書の種別を特定する機能、文書の種別毎に予め用意されている定義情報であって文書から項目値を抽出する規則が定義されている定義情報の中から、特定した文書の種別に対応して用意されている定義情報を利用して、当該文書から項目名を抽出する機能、を実現させる。
【発明の効果】
【0014】
請求項1に記載の発明によれば、文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出することができる。また、種別分類情報に従って文書の種別を特定することができる。
【0016】
請求項に記載の発明によれば、文書を、当該文書の種類に応じた文書の種別に特定することができる。
【0017】
請求項に記載の発明によれば、特定した文書の種別を参考にして文書を分類することができる。
【0018】
請求項に記載の発明によれば、指定された文書の種別に該当しない文書は、指定された文書の種別に該当する文書に添付された文書という取り扱いにて文書の組を形成することができる。
【0019】
請求項に記載の発明によれば、指定された文書の種別に該当しない文書に対して、当該文書の種別に対応する処理を施すことができる。
【0020】
請求項に記載の発明によれば、文書から項目値を抽出する規則が定義されている定義情報を文書の種類毎に用意しなくても項目値を抽出することができる。また、種別分類情報に従って文書の種別を特定することができる。
【図面の簡単な説明】
【0021】
図1】実施の形態1における画像形成装置のブロック構成図である。
図2】実施の形態1における画像形成装置のハードウェア構成図である。
図3】実施の形態1における帳票種別情報記憶部に記憶される帳票種別情報のデータ構成の一例を示す図である。
図4】実施の形態1における項目値抽出処理を示すフローチャートである。
図5】実施の形態2における画像形成装置のブロック構成図である。
図6】実施の形態2における帳票分類処理を示すフローチャートである。
図7】実施の形態2においてスキャナに読み取られる複数の帳票及び各帳票に関連する情報を示す図である。
図8】実施の形態2において帳票を分類してフォルダに格納する場合を示す概念図である。
【発明を実施するための形態】
【0022】
以下、図面に基づいて、本発明の好適な実施の形態について説明する。後述する各実施の形態においては、帳票を文書の例として説明する。
【0023】
実施の形態1.
図1は、本実施の形態における画像形成装置10のブロック構成図である。図2は、本実施の形態における画像形成装置10のハードウェア構成図である。本実施の形態における画像形成装置10は、本発明に係る情報処理装置を搭載し、コピー機能、スキャナ機能等各種機能を搭載した複合機で実現可能である。図2において、ROM2には、本装置の制御や後述する本実施の形態の特徴的な処理機能を実現するための各種プログラムが格納されている。CPU1は、ROM2に格納された各種プログラムにしたがってスキャナ6やプリンタ7等本装置に搭載された各種機構の動作制御や各種機能を実現する。RAM3は、プログラム実行時のワークメモリや通信バッファとして利用される。HDD(Hard Disk Drive)4は、スキャナ6を使用して読み取った電子文書などを格納する。操作パネル5は、ユーザからの指示の受け付け、情報の表示を行う。スキャナ6は、ユーザがセットした原稿を読み取り、電子文書としてHDD4等に蓄積する。プリンタ7は、CPU1で実行される制御プログラムからの指示に従い出力用紙上に画像を印字する。ネットワークインタフェース(IF)8は、ネットワークを接続し、外部装置との電子データの送受信、またブラウザ経由による本装置へのアクセスなどに利用される。アドレスデータバス9は、CPU1の制御対象となる各種機構と接続してデータの通信を行う。
【0024】
図1には、画像形成装置10とインターネット等のネットワーク(図示せず)経由で通信可能に接続されたクラウド30が示されている。本実施の形態における画像形成装置10は、読取画像取得部11、画像解析部12、帳票種別特定部13、項目値抽出部14、情報提供部15、帳票種別情報記憶部16、定義情報記憶部17及び帳票情報記憶部18を有している。なお、本実施の形態において説明に用いない構成要素については図から省略している。
【0025】
読取画像取得部11は、スキャナ6により読み取られた帳票の読取画像を取得する。画像解析部12は、読取画像取得部11により取得された読取画像を解析して帳票に記載されている文字列を抽出する。帳票種別特定部13は、画像解析部12により抽出された文字列の中から当該帳票の種類を表す表題(以下、「タイトル」という)を抽出し、抽出したタイトルから当該帳票の種別を特定する。項目値抽出部14は、定義情報記憶部17に記憶されている定義情報の中から、帳票種別特定部13により特定された帳票の種別に対応して用意されている定義情報を利用して、帳票の読取画像から項目値を抽出する。そして、抽出した項目値を含む帳票情報を帳票情報記憶部18に保存する。情報提供部15は、帳票情報をユーザに提供する。
【0026】
ここで、「帳票の種類」と「帳票の種別」について説明する。
【0027】
帳票の種類は、帳票の提供元(「発行元」ともいう)及び提供先(「宛先」ともいう)と、帳票の種別から特定される。帳票の種別(以下、「帳票種別」ともいう)は、一般に帳票の種類とも呼ばれる場合があるが、各帳票を種類によって分類する各グループを示している。帳票種別は、管理者等によってある程度限定的に定められる。帳票の場合、請求書、見積書、発注書、領収書、契約書等が帳票種別に該当する。例えば、A社がB社から受け取る請求書と、A社がC社から受け取る請求書とは、発行元の異なる請求書なので、異なる種類の帳票となる。しかし、それぞれは、請求書という同じ帳票種別に分類される帳票となる。本実施の形態では、このように「帳票の種類」と「帳票種別」とを明確に使い分けている。
【0028】
図3は、本実施の形態における帳票種別情報記憶部16に記憶される帳票種別情報のデータ構成の一例を示す図である。帳票種別情報は、帳票種別と当該帳票種別に分類される帳票のタイトルとが対応付けして構成される種別分類情報である。帳票種別情報は、帳票の管理者等によって予め設定される。ところで、帳票種別が同じでも、帳票の種類が異なれば、各帳票におけるタイトルの表記が異なってくる場合がある。例えば、帳票種別が見積書の場合を例にすると、各見積書のタイトルは、基本的には発行元となる各会社が自由に決めることができる。従って、各会社が作成する見積書のタイトルを示す文字列は、“見積書”、“お見積書”、“御見積書”などのように必ずしも一致せず、表記に揺れが生じうる。つまり、同じ帳票種別でも帳票の種類が異なるとタイトルが異なる場合が生じうる。このように、帳票種別情報に設定されるタイトルには、当該帳票種別に該当する帳票のタイトル、特に各会社が帳票に設定するタイトルを設定するのが好ましい。
【0029】
定義情報記憶部17には、帳票種別毎に予め設定されている定義情報が記憶される。定義情報には、当該帳票種別に分類される帳票から1又は複数の項目値を抽出するための規則が予め定義されている。本実施の形態においては、帳票の種類毎ではなく帳票種別毎に定義情報を用意する。項目値抽出部14は、処理対象の帳票の帳票種別に対応する定義情報を利用して当該帳票の読取画像から抽出対象の項目値を抽出することになる。
【0030】
帳票情報記憶部18には、項目値抽出部14によって帳票毎に生成される項目値情報が記憶される。項目値情報は、処理対象の帳票の識別情報(例えば「帳票ID」)及び当該帳票の帳票種別に、項目値抽出部14によって抽出された項目値と当該項目値に対応する項目名との組が対応付けされて生成される。
【0031】
画像形成装置10における各構成要素11~15は、画像形成装置10に搭載されたコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。また、各記憶部16~18は、画像形成装置10に搭載されたHDD4にて実現される。あるいは、RAM3又は外部にある記憶手段をネットワーク経由で利用してもよい。
【0032】
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD-ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
【0033】
次に、本実施の形態において帳票の読取画像から項目値を抽出する処理について図4に示すフローチャートを用いて説明する。
【0034】
ユーザが帳票をスキャナ6に読み取らせると、読取画像取得部11は、その帳票の読取画像を取得する(ステップ101)。続いて、画像解析部12は、取得された読取画像を解析して帳票に記載されている文字列を抽出する(ステップ102)。具体的には、OCR(Optical Character Recognition)技術を利用して、証票の読取画像から文字列を抽出する。なお、「文字列」は、文字の集合のことを意味するが、集合の中に1文字のみが含まれる場合もある。
【0035】
続いて、帳票種別特定部13は、画像解析部12により抽出された文字列のうち、所定の抽出条件に合致する文字列を、その帳票のタイトルの候補として抽出する(ステップ103)。一般に、帳票のタイトルは、帳票の上方に位置し、一定以上のフォントの大きさの文字列である。従って、このような帳票上におけるタイトルの位置や、タイトルの表記文字の属性に関する条件を所定の抽出条件として予め設定しておき、この抽出条件に合致する文字列をタイトルの候補として抽出する。そして、帳票種別特定部13は、帳票種別情報記憶部16を参照し、タイトルの候補として抽出した文字列を、帳票種別情報に設定されている各タイトルと照合する。タイトルの候補となる文字列と一致するタイトルが存在すれば、その一致したタイトルを、当該帳票のタイトルと特定すると共に(ステップ104)、帳票種別情報において帳票のタイトルに対応する帳票種別を、当該帳票の帳票種別と特定する(ステップ105)。本実施の形態では、このように、帳票におけるタイトルの表記から当該帳票の帳票種別を特定する。
【0036】
なお、帳票がいずれの帳票種別にも該当しない場合、その帳票は「その他」という帳票種別に分類する。
【0037】
帳票の帳票種別が特定されると、項目値抽出部14は、その帳票種別に対応して設定されている定義情報を定義情報記憶部17から読み出すことによって取得し(ステップ106)、その定義情報に指定されている項目の項目値を帳票の読取画像から抽出する(ステップ107)。定義情報に、帳票上における抽出対象の各項目値の位置や領域が定義されている場合、項目値抽出部14は、定義情報を参照して帳票の読取画像の指定された位置等から項目値を抽出する。定義情報に、帳票上における抽出対象の各項目値の位置や領域が定義されてなく、抽出対象とする項目値に対応する項目名が定義されている場合、項目値抽出部14は、定義情報を参照して帳票の読取画像から項目名の位置を特定し、その項目名の近傍にある文字列を項目値として抽出させる。また、定義情報に、抽出対象の各項目値のパターン、例えば項目値を表すデータ型が定義されている場合、項目値抽出部14は、定義情報を参照して帳票の読取画像から定義されているデータ型に該当する文字列を項目値として抽出する。項目値を表すデータ型というのは、例えば項目値が日付の場合は“YYYY/MM/DD”であり、項目値抽出部14は、この“YYYY/MM/DD”という型に合致する文字列を項目値として抽出する。また、例えば項目値が金額の場合は、先頭に“¥”が付いている数字列であり、項目値抽出部14は、この“¥”が付いている数字列を項目値として抽出する。この項目値抽出部14による項目値の抽出処理は、既存技術を利用して行うようにしてもよい。
【0038】
項目値抽出部14は、以上のようにして抽出した項目値を、当該項目の項目名に対応付けして項目値情報を生成して、帳票情報記憶部18に保存する(ステップ108)。より具体的には、帳票の識別情報及び当該帳票が分類される帳票種別、そして、当該帳票から抽出する項目の項目名及び当該項目の項目値を含む項目値情報を生成し、保存する。
【0039】
情報提供部15は、生成された項目値情報を、例えば帳票を処理する後工程に提供したり、データ管理のためにクラウド30に提供したりする。提供する方法は特に限定しない。例えば、ファイル形式にてネットワークを介して送信したり、電子メール等の機能を利用して提供したりしてもよい。
【0040】
実施の形態2.
上記実施の形態1では、帳票を1枚ずつ処理する場合を想定しているが、業務上、複数の帳票を月末等にまとめて処理する場合がある。本実施の形態では、ユーザが複数の帳票を連続してスキャナ6に読み取らせた場合、関連性のある帳票毎に分類して格納できるようにしたことを特徴としている。
【0041】
図5は、本実施の形態における画像形成装置10のブロック構成図である。実施の形態1と同じ構成要素には、同じ符号を付け、説明を適宜省略する。本実施の形態における画像形成装置10は、実施の形態1における構成に、帳票分類処理部19を追加した構成を有している。
【0042】
帳票分類処理部19は、複数の帳票の読取画像が連続して取得された場合において、帳票種別特定部13により各帳票の種別が特定されると、特定された各帳票の種別に応じて複数の帳票の分類処理を行う。帳票分類処理部19は、画像形成装置10に搭載されたコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。
【0043】
次に、本実施の形態において処理対象の帳票を分類する処理について図6に示すフローチャートを用いて説明する。
【0044】
ユーザが複数の帳票をスキャナ6に読み取らせて後述する帳票の分類を行いたい場合、ユーザは、所定の操作を行って帳票種別の指定画面を操作パネル5に表示させる。そして、ユーザは、分類の基準となる帳票種別を指定画面から入力指定する。このように、ユーザにより帳票種別が指定されると、画像形成装置10は、指定された帳票種別(以下、「指定帳票種別」ともいう)を受け付ける(ステップ201)。
【0045】
続いて、ユーザは、処理対処運の複数の帳票を画像形成装置10のADF(Auto Document Feeder)にセットして順番に読み取らせる。画像形成装置10は、まず帳票を1枚読み取ると、実施の形態1において説明した項目値抽出処理を実施する(ステップ202)。項目値抽出処理の内容は、図3を用いて説明した実施の形態1と同じでよいので説明を省略する。
【0046】
ここで、処理対象の帳票の帳票種別が指定帳票種別と一致する場合(ステップ203でY)、帳票分類処理部19は、帳票を分類して管理するためにグループを新規に作成し(ステップ204)、処理対象の帳票を新規作成したグループに登録する(ステップ205)。そして、未処理の帳票がまだ存在する場合(ステップ206でY)、ステップ202に戻り、ADFから続いて読み取られた帳票に対して項目値抽出処理を実施する。
【0047】
ここで、処理対象の帳票の帳票種別が指定帳票種別と一致しない場合(ステップ203でN)、帳票分類処理部19は、処理対象の帳票を、作成済みであって直前の帳票が登録されたのと同じグループに登録する(ステップ205)。これにより、処理対象の帳票は、指定帳票種別に該当する直近の帳票と同じグループに振り分けられることになる。
【0048】
また、処理対象の帳票の帳票種別が指定帳票種別と一致する場合(ステップ203でY)、帳票分類処理部19は、上記説明したようにグループを新規に作成する(ステップ204)。つまり、作成済みのグループとは別のグループを作成して、処理対象の帳票を新規作成したグループに登録する(ステップ205)。
【0049】
以上の処理を繰り返し行い、全ての帳票に対して上記処理を実施すると(ステップ206でN)、帳票分類処理部19は、各帳票を、対応するグループのフォルダに格納する(ステップ207)。なお、各フォルダは、帳票情報記憶部18に設けられる。
【0050】
以上説明したように、本実施の形態においては、連続する複数の帳票を、指定帳票種別に該当する帳票から、次に指定帳票種別に該当する帳票が表れる直前の帳票、若しくは最終の帳票(つまり、読み取らせる複数の帳票のうち最後に読み取られる帳票)までが組となるよう文書を分類する。
【0051】
なお、同じ組に分類される帳票であっても、当該帳票の種別に該当する処理が施される。すなわち、項目値抽出部14は、指定帳票種別に該当しない文書に対して、指定帳票種別に対応して設定されている定義情報ではなく、当該文書の種別に対応して設定されている定義情報を用いて当該帳票の読取画像からを抽出する。
【0052】
以上説明した帳票分類処理について、具体的な例を用いて説明する。
【0053】
図7には、連続して読み取られる帳票31a~31fが示されている。また、各帳票31a~31fに対応させて、当該帳票から抽出されたタイトルが「タイトル抽出結果」として示されている。更に、当該帳票から特定された帳票種別も合わせて示されている。例えば、帳票31bのタイトルは、帳票種別情報のタイトルに設定されていない“添付1”なので、帳票種別は「その他」となる。帳票31cについても同様である。帳票31a,31d,31e,31fは、帳票種別情報の設定内容に従って帳票種別が特定される。
【0054】
ここで、ユーザが請求書を基準に複数の帳票をグループ分けしたいために、帳票種別の指定画面から“請求書”を指定したとする。この場合、帳票31aの帳票種別は「請求書」なので、帳票31aが処理されることによって、ステップ204においてグループ(例えば、「グループA」)が新規作成され、このグループAに登録される。なお、このグループAが現時点で以降の帳票の登録対象となるグループとなる。
【0055】
続く帳票31bの帳票種別は「その他」であって請求書ではないで、帳票31bは、ステップ205において直前に処理された帳票(つまり、直近に処理された請求書である帳票)31aと同じグループAに振り分けられる。帳票31cにおいても同様である。
【0056】
続く帳票31dの帳票種別は「請求書」なので、帳票31dが処理されることによって、ステップ204においてグループ(例えば、「グループB」)が新規作成され、このグループBに登録される。これにより、グループBが現時点で以降の帳票の登録対象となるグループとなる。続く帳票31eの帳票種別は「見積書」であって請求書ではないで、帳票31eは、ステップ205において直近に処理された請求書である帳票31dと同じグループBに振り分けられる。
【0057】
前述したように、同じ組に分類される帳票であっても、当該帳票の種別に該当する処理が施される。すなわち、項目値抽出部14は、例えばグループAに分類された帳票31b,31cに対して、請求書ではなくその他に対応する定義情報に従って項目値を抽出する。また、項目値抽出部14は、グループBに分類された帳票31eに対して、請求書ではなく見積書に対応する定義情報に従って項目値を抽出する。
【0058】
なお、帳票31fの帳票種別は「請求書」なので、ステップ204において新たなグループ(例えば、「グループC」)が作成されることになる。これにより、グループBは、帳票31d,31eで構成されることが確定する。
【0059】
図8は、図7に例示した帳票がフォルダに格納される場合を示す概念図である。図8に例示するように、各帳票31a~31fは、該当するグループに分類されて格納される。なお、帳票31aに符号を付けて示すように、各帳票31a~31fには、項目値抽出部14により生成された、対応する項目値情報が紐付けられる。
【0060】
本実施の形態によれば、指定帳票種別が指定されると、読み取られた各帳票の帳票種別を参照することにより複数の帳票を分類することができる。
【0061】
なお、本実施の形態では、ステップ201においてユーザが分類の基準となる帳票種別(上記例では、「請求書」)を指定するようにしたが、仮に、帳票種別を指定しなかった場合、帳票分類処理部19は、例えば帳票を帳票種別毎に分類して格納するようにしてもよい。つまり、請求書、見積書、及びその他という帳票種別毎にグループが作成され、各帳票が該当するグループに分類されることになる。
【0062】
上記各実施の形態では、帳票を文書の一例として説明したが、複数の種類が設けられている文書であれば適用可能であり、帳票に限定する必要はない。
【0063】
また、上記各実施の形態においては、本発明に係る情報処理装置が画像形成装置10に搭載されているものとして説明したが、画像形成装置10から帳票の読取画像を取得するよう構成することで、情報処理装置を画像形成装置10とは別の装置として設けてもよい。あるいは、クラウド30で実現するように構成してもよい。また、画像形成装置10が有する処理機能の一部、例えば、図1,5に示す処理機能のうち画像解析部12等を他の情報処理装置で実行させるように構成してもよい。
【0064】
上記各実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
【0065】
また上記各実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
【符号の説明】
【0066】
1 CPU、2 ROM、3 RAM、4 ハードディスクドライブ(HDD)、5 操作パネル、6 スキャナ、7 プリンタ、8 ネットワークインタフェース(IF)、9 アドレスデータバス、10 画像形成装置、11 読取画像取得部、12 画像解析部、13 帳票種別特定部、14 項目値抽出部、15 情報提供部、16 帳票種別情報記憶部、17 定義情報記憶部、18 帳票情報記憶部、19 帳票分類処理部、30 クラウド。
図1
図2
図3
図4
図5
図6
図7
図8