IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラドキュメントソリューションズ株式会社の特許一覧

特許7364998文書分類システムおよび文書分類プログラム
<>
  • 特許-文書分類システムおよび文書分類プログラム 図1
  • 特許-文書分類システムおよび文書分類プログラム 図2
  • 特許-文書分類システムおよび文書分類プログラム 図3
  • 特許-文書分類システムおよび文書分類プログラム 図4
  • 特許-文書分類システムおよび文書分類プログラム 図5
  • 特許-文書分類システムおよび文書分類プログラム 図6
  • 特許-文書分類システムおよび文書分類プログラム 図7
  • 特許-文書分類システムおよび文書分類プログラム 図8
  • 特許-文書分類システムおよび文書分類プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-11
(45)【発行日】2023-10-19
(54)【発明の名称】文書分類システムおよび文書分類プログラム
(51)【国際特許分類】
   G06F 16/55 20190101AFI20231012BHJP
   G06F 16/583 20190101ALI20231012BHJP
   G06T 7/00 20170101ALI20231012BHJP
【FI】
G06F16/55
G06F16/583
G06T7/00 350B
【請求項の数】 5
(21)【出願番号】P 2019118742
(22)【出願日】2019-06-26
(65)【公開番号】P2021005226
(43)【公開日】2021-01-14
【審査請求日】2022-06-20
(73)【特許権者】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】100140796
【弁理士】
【氏名又は名称】原口 貴志
(72)【発明者】
【氏名】永田 憲行
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2017-107455(JP,A)
【文献】国際公開第2019/012570(WO,A1)
【文献】特開2006-209261(JP,A)
【文献】特開2011-118513(JP,A)
【文献】米国特許出願公開第2010/0142832(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
文書を分類するための雛形となる画像のファイルである画像ファイルを使用して機械学習によって文書を分類する文書分類部と、
前記文書分類部による分類が失敗した前記文書の画像としての分類失敗画像を通知する分類失敗画像通知部と
画像のメタデータの項目と、この画像における、このメタデータの領域とを示すデータファイルと、前記画像ファイルとを含むテンプレートファイルを受け付けるテンプレート受付部と
を備え
前記文書分類部は、前記テンプレートファイルに含まれる前記画像ファイルを使用して機械学習によって前記文書を分類するとともに、このテンプレートファイルに含まれる前記データファイルを使用して、この文書の画像からOCRによって前記メタデータを取得し、
前記分類失敗画像通知部は、前記分類失敗画像における前記領域の指定を受け付けるために前記分類失敗画像を示す画面を通知し、
前記テンプレート受付部は、前記画面において指定された前記領域と、この領域に対応する前記項目とを示す前記データファイルと、この画面に示される前記分類失敗画像のファイルである前記画像ファイルとを含む前記テンプレートファイルを受け付けることを特徴とする文書分類システム。
【請求項2】
前記文書分類部は、前記テンプレートファイルが設定されているワークフローを実行することによって、このワークフローに設定されている前記テンプレートファイルに含まれる前記画像ファイルを使用して機械学習によって前記文書を分類するとともに、このテンプレートファイルに含まれる前記データファイルを使用して、この文書の画像からOCRによって前記メタデータを取得し、
前記分類失敗画像通知部は、前記分類失敗画像からOCRによって取得したテキストと、前記ワークフローに設定されている前記テンプレートファイルに含まれる前記データファイルに示される前記項目とに基づいて、前記分類失敗画像における、この項目に対応する前記領域の候補を特定し、特定した前記候補を前記画面において示すことを特徴とする請求項1に記載の文書分類システム。
【請求項3】
前記文書分類部は、前記テンプレート受付部によって前記テンプレートファイルが受け付けられた場合に、このテンプレートファイルに含まれる前記データファイルを使用して、前記分類失敗画像からOCRによって前記メタデータを自動で取得することを特徴とする請求項1または請求項2に記載の文書分類システム。
【請求項4】
前記文書分類部は、前記テンプレート受付部によって前記テンプレートファイルが受け付けられた場合に、このテンプレートファイルに含まれる前記データファイルを使用して、前記分類失敗画像からOCRによって前記メタデータを自動で取得し、この取得が成功した場合に、このテンプレートファイルを前記ワークフローに自動で設定することを特徴とする請求項2に記載の文書分類システム。
【請求項5】
文書を分類するための雛形となる画像のファイルである画像ファイルを使用して機械学習によって文書を分類する文書分類部と、
前記文書分類部による分類が失敗した前記文書の画像としての分類失敗画像を通知する分類失敗画像通知部と、
画像のメタデータの項目と、この画像における、このメタデータの領域とを示すデータファイルと、前記画像ファイルとを含むテンプレートファイルを受け付けるテンプレート受付部と
をコンピューターに実現させ、
前記文書分類部は、前記テンプレートファイルに含まれる前記画像ファイルを使用して機械学習によって前記文書を分類するとともに、このテンプレートファイルに含まれる前記データファイルを使用して、この文書の画像からOCRによって前記メタデータを取得し、
前記分類失敗画像通知部は、前記分類失敗画像における前記領域の指定を受け付けるために前記分類失敗画像を示す画面を通知し、
前記テンプレート受付部は、前記画面において指定された前記領域と、この領域に対応する前記項目とを示す前記データファイルと、この画面に示される前記分類失敗画像のファイルである前記画像ファイルとを含む前記テンプレートファイルを受け付けることを特徴とする文書分類プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書を分類する文書分類システムおよび文書分類プログラムに関する。
【背景技術】
【0002】
従来、スキャナーによって文書から読み取った画像を他の装置に送信するものが知られている(例えば、特許文献1参照。)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2004-289500号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
スキャナーによって文書から読み取った画像を、文書を分類する文書分類システムに送信することによって、スキャナーによって文書から読み取った画像に基づいて、この文書を文書分類システムに分類させることが考えられる。
【0005】
スキャナーによって文書から読み取った画像に基づいて、この文書を文書分類システムに分類させる場合に、例えば1枚ずつの文書からなる100枚の文書群など、多数の文書からスキャナーによって画像が一括で読み取られるとき、スキャナーによって一括で読み取られた多数の文書の画像に基づいて、これらの文書が文書分類システムによって全て正しく分類されるとは限らない。文書分類システムによって文書が正しく分類されなかった場合において、例えば、スキャナーによって一括で読み取られた文書の数が100で、そのうち1つの文書のみが文書分類システムによって正しく分類されなかったとき、作業者は、例えば元の文書の群のうち何番目の文書が正しく分類されなかったかという結果など、文書分類システムによる処理の結果に基づいて、元の文書の群を1文書ずつ目視で確認することによって、文書分類システムによって正しく分類されなかった1つの文書を、100の文書の中から見つけ出す必要があり、作業時間が長く必要であるという問題がある。
【0006】
そこで、本発明は、作業時間を短縮することができる文書分類システムおよび文書分類プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の文書分類システムは、文書を分類するための雛形となる画像のファイルである画像ファイルを使用して機械学習によって文書を分類する文書分類部と、前記文書分類部による分類が失敗した前記文書の画像としての分類失敗画像を通知する分類失敗画像通知部とを備えることを特徴とする。
【0008】
この構成により、本発明の文書分類システムは、分類が失敗した文書の画像を通知するので、例えば元の文書の群のうち何番目の文書が正しく分類されなかったかという結果など、文書分類システムによる処理の結果に基づいて、元の文書の群を作業者が1文書ずつ目視で確認する必要がなく、作業時間を短縮することができる。
【0009】
本発明の文書分類システムは、画像のメタデータの項目と、この画像における、このメタデータの領域とを示すデータファイルと、前記画像ファイルとを含むテンプレートファイルを受け付けるテンプレート受付部を備え、前記文書分類部は、前記テンプレートファイルに含まれる前記画像ファイルを使用して機械学習によって前記文書を分類するとともに、このテンプレートファイルに含まれる前記データファイルを使用して、この文書の画像からOCRによって前記メタデータを取得し、前記分類失敗画像通知部は、前記分類失敗画像における前記領域の指定を受け付けるために前記分類失敗画像を示す画面を通知し、前記テンプレート受付部は、前記画面において指定された前記領域と、この領域に対応する前記項目とを示す前記データファイルと、この画面に示される前記分類失敗画像のファイルである前記画像ファイルとを含む前記テンプレートファイルを受け付けても良い。
【0010】
この構成により、本発明の文書分類システムは、分類失敗画像を示す画面を通知し、この画面において指定された、メタデータの領域と、この領域に対応する、メタデータの項目とを示すデータファイルと、この画面に示される分類失敗画像のファイルである画像ファイルとを含むテンプレートファイルを受け付けるので、分類失敗画像に基づいたテンプレートファイルの作成を容易化することができ、その結果、作業時間を短縮することができる。
【0011】
本発明の文書分類システムにおいて、前記文書分類部は、前記テンプレートファイルが設定されているワークフローを実行することによって、このワークフローに設定されている前記テンプレートファイルに含まれる前記画像ファイルを使用して機械学習によって前記文書を分類するとともに、このテンプレートファイルに含まれる前記データファイルを使用して、この文書の画像からOCRによって前記メタデータを取得し、前記分類失敗画像通知部は、前記分類失敗画像からOCRによって取得したテキストと、前記ワークフローに設定されている前記テンプレートファイルに含まれる前記データファイルに示される前記項目とに基づいて、前記分類失敗画像における、この項目に対応する前記領域の候補を特定し、特定した前記候補を前記画面において示しても良い。
【0012】
この構成により、本発明の文書分類システムは、分類失敗画像における、メタデータの領域の候補を特定し、特定した候補を、分類失敗画像を示す画面において示すので、分類失敗画像に基づいたテンプレートファイルの作成を容易化することができ、その結果、作業時間を短縮することができる。
【0013】
本発明の文書分類システムにおいて、前記文書分類部は、前記テンプレート受付部によって前記テンプレートファイルが受け付けられた場合に、このテンプレートファイルに含まれる前記データファイルを使用して、前記分類失敗画像からOCRによって前記メタデータを自動で取得しても良い。
【0014】
この構成により、本発明の文書分類システムは、分類失敗画像に基づいて作成されたテンプレートファイルを受け付けた場合に、このテンプレートファイルに含まれるデータファイルを使用して、分類失敗画像からOCRによってメタデータを自動で取得するので、分類失敗画像からのメタデータの取得を容易化することができ、その結果、作業時間を短縮することができる。
【0015】
本発明の文書分類システムにおいて、前記文書分類部は、前記テンプレート受付部によって前記テンプレートファイルが受け付けられた場合に、このテンプレートファイルに含まれる前記データファイルを使用して、前記分類失敗画像からOCRによって前記メタデータを自動で取得し、この取得が成功した場合に、このテンプレートファイルを前記ワークフローに自動で設定しても良い。
【0016】
この構成により、本発明の文書分類システムは、分類失敗画像に基づいて作成されたテンプレートファイルを受け付けた場合に、このテンプレートファイルに含まれるデータファイルを使用して、分類失敗画像からOCRによってメタデータを自動で取得したとき、この取得が成功すると、このテンプレートファイルをワークフローに自動で設定するので、ワークフローへのテンプレートファイルの設定を容易化することができ、その結果、作業時間を短縮することができる。
【0017】
本発明の文書分類プログラムは、文書を分類するための雛形となる画像のファイルである画像ファイルを使用して機械学習によって文書を分類する文書分類部と、前記文書分類部による分類が失敗した前記文書の画像としての分類失敗画像を通知する分類失敗画像通知部とをコンピューターに実現させることを特徴とする。
【0018】
この構成により、本発明の文書分類プログラムを実行するコンピューターは、分類が失敗した文書の画像を通知するので、例えば元の文書の群のうち何番目の文書が正しく分類されなかったかという結果など、文書分類システムによる処理の結果に基づいて、元の文書の群を作業者が1文書ずつ目視で確認する必要がなく、作業時間を短縮することができる。
【発明の効果】
【0019】
本発明の文書分類システムおよび文書分類プログラムは、作業時間を短縮することができる。
【図面の簡単な説明】
【0020】
図1】本発明の一実施の形態に係るシステムのブロック図である。
図2】1台のコンピューターによって構成される場合の図1に示す文書分類システムのブロック図である。
図3図2に示すテンプレートファイルに含まれる画像ファイルの一例を示す図である。
図4】MFPである場合の図1に示す画像形成装置のブロック図である。
図5図1に示す利用者端末のブロック図である。
図6】文書分類処理が文書分類システムで実行される場合の図1に示すシステムの動作のシーケンス図である。
図7】利用者端末にテンプレートエディターが表示される場合の図1に示すシステムの動作のシーケンス図である。
図8図5に示す表示部に表示されるテンプレートエディターのWebページの画面の一例を示す図である。
図9】テンプレートファイルが追加される場合の図1に示すシステムの動作のシーケンス図である。
【発明を実施するための形態】
【0021】
以下、本発明の実施の形態について、図面を用いて説明する。
【0022】
まず、本発明の一実施の形態に係るシステムの構成について説明する。
【0023】
図1は、本実施の形態に係るシステム10のブロック図である。
【0024】
図1に示すように、システム10は、文書を分類する文書分類システム20を備えている。文書分類システム20は、1台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。
【0025】
システム10は、原稿から画像を読み取る読取デバイスであるスキャナーを備える画像形成装置30を備えている。システム10は、原稿から画像を読み取る読取デバイスであるスキャナーを備える画像形成装置を画像形成装置30以外にも少なくとも1つ備えることが可能である。システム10における画像形成装置は、例えば、MFP(Multifunction Peripheral)、スキャナー専用機などによって構成されている。
【0026】
システム10は、作業者によって使用される利用者端末40を備えている。システム10は、作業者によって使用される利用者端末を利用者端末40以外に少なくとも1つ備えることが可能である。システム10における利用者端末は、例えば、PC(Personal Computer)などのコンピューターによって構成されている。
【0027】
文書分類システム20と、システム10における画像形成装置とは、LAN(Local Area Network)、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、通信である。同様に、文書分類システム20と、システム10における利用者端末とは、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、通信である。
【0028】
図2は、1台のコンピューターによって構成される場合の文書分類システム20のブロック図である。
【0029】
図2に示すように、文書分類システム20は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部21と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部22と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部23と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部24と、文書分類システム20全体を制御する制御部25とを備えている。
【0030】
記憶部24は、文書を分類するための文書分類プログラム24aと、文書を分類するための後述のワークフローに設定されている後述のテンプレートファイルを作成するためのWebアプリケーションであるテンプレートエディターを実現するためのテンプレートエディタープログラム24bとを記憶している。文書分類プログラム24aおよびテンプレートエディタープログラム24bは、それぞれ、例えば、文書分類システム20の製造段階で文書分類システム20にインストールされていても良いし、CD(Compact Disk)、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体から文書分類システム20に追加でインストールされても良いし、ネットワーク上から文書分類システム20に追加でインストールされても良い。
【0031】
記憶部24は、画像処理のワークフロー24cを記憶している。ワークフロー24cは、ワークフロー24c自身に設定されている、後述のテンプレートファイルの識別情報(以下「テンプレートID」という。)を示す設定テンプレート情報24dを含んでいる。設定テンプレート情報24dには、複数のテンプレートファイルが示されている。記憶部24は、画像処理のワークフローをワークフロー24c以外に少なくとも1つ記憶することが可能である。なお、記憶部24に記憶されているワークフローは、他のワークフローと識別するための識別情報(以下「ワークフローID」という。)が付されている。
【0032】
記憶部24は、ワークフローに設定されるテンプレートファイル24eを記憶している。記憶部24は、ワークフローに設定されるテンプレートファイルをテンプレートファイル24e以外に少なくとも1つ記憶している。
【0033】
図3は、テンプレートファイル24eに含まれる画像ファイル24fの一例を示す図である。
【0034】
図2に示すように、テンプレートファイル24eは、例えばTIFF(Tagged Image File Format)形式のファイルである例えば図3に示すような画像ファイル24fと、例えばXML(Extensible Markup Language)形式のファイルであるデータファイル24gとを含む圧縮ファイルである。
【0035】
画像ファイル24fは、文書を分類するための雛形となる画像のファイルである。
【0036】
データファイル24gは、画像のメタデータの項目と、この画像における、このメタデータの領域とを示し、画像から、この画像のメタデータを取得するためのファイルである。データファイル24gは、画像からメタデータを取得するための目印となる、例えば固定の文字列や固定の画像などのアンカーの設定情報であるアンカー情報と、メタデータの設定情報であるメタデータ情報とを含んでいる。例えば、アンカー情報は、例えばアンカーの領域としてのアンカーを囲む矩形領域の上端の左端など、アンカーの領域に対する特定の位置の、画像における座標を示す座標情報と、アンカーの領域としてのアンカーを囲む矩形の、画像における大きさを示す矩形情報とを含んでいる。例えば、メタデータ情報は、例えばメタデータの領域としてのメタデータを囲む矩形領域の上端の左端など、メタデータの領域に対する特定の位置の、画像における座標を示す座標情報と、メタデータの領域としてのメタデータを囲む矩形の、画像における大きさを示す矩形情報と、日付、数字、小数点、手書き、マークなど、メタデータの属性を示すプロパティー情報とを含んでいる。メタデータの領域に対する特定の位置の、画像における座標を示す座標情報は、アンカーが存在する場合、アンカーに対する相対的な座標でも良い。
【0037】
図2に示すように、記憶部24は、文書を保存するフォルダー24hを記憶することが可能である。記憶部24は、文書を保存するフォルダーをフォルダー24h以外に少なくとも1つ記憶することが可能である。
【0038】
記憶部24は、各種の情報の連絡先を示す連絡先情報24iを記憶している。連絡先情報24iに示される連絡先は、例えば電子メールアドレスである。
【0039】
制御部25は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部25のCPUの作業領域として用いられるメモリーとしてのRAM(Random Access Memory)とを備えている。制御部25のCPUは、記憶部24または制御部25のROMに記憶されているプログラムを実行する。
【0040】
制御部25は、文書分類プログラム24aを実行することによって、画像ファイルを使用して機械学習によって文書を分類する文書分類部25aと、文書分類部25aによる分類が失敗した文書の画像としての分類失敗画像を通知する分類失敗画像通知部25bと、テンプレートファイルを受け付けるテンプレート受付部25cとを実現する。
【0041】
図4は、MFPである場合の画像形成装置30のブロック図である。
【0042】
図4に示す画像形成装置30は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部31と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部32と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター33と、原稿から画像を読み取る読取デバイスであるスキャナー34と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部35と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部36と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部37と、画像形成装置30全体を制御する制御部38とを備えている。
【0043】
制御部38は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部38のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部38のCPUは、記憶部37または制御部38のROMに記憶されているプログラムを実行する。
【0044】
図5は、利用者端末40のブロック図である。
【0045】
図5に示すように、利用者端末40は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部41と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部42と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部43と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部44と、利用者端末40全体を制御する制御部45とを備えている。
【0046】
記憶部44は、Webブラウザーを実現するためのWebブラウザープログラム44aを記憶している。Webブラウザープログラム44aは、例えば、利用者端末40の製造段階で利用者端末40にインストールされていても良いし、CD、DVD、USBメモリーなどの外部の記憶媒体から利用者端末40に追加でインストールされても良いし、ネットワーク上から利用者端末40に追加でインストールされても良い。
【0047】
制御部45は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部45のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部45のCPUは、記憶部44または制御部45のROMに記憶されているプログラムを実行する。
【0048】
制御部45は、Webブラウザープログラム44aを実行することによって、Webブラウザー45aを実現する。
【0049】
次に、システム10の動作について説明する。
【0050】
まず、文書を分類する文書分類処理が文書分類システム20で実行される場合のシステム10の動作について説明する。
【0051】
図6は、文書分類処理が文書分類システム20で実行される場合のシステム10の動作のシーケンス図である。
【0052】
作業者は、原稿としての帳票を画像形成装置30のスキャナー34に少なくとも1枚セットするとともに、文書分類システム20に記憶されているいずれかのワークフローの実行を画像形成装置30の操作部31を介して指示することができる。なお、帳票は、スキャナー34に複数枚セットされることができるが、1枚ずつ別々の文書を構成している。
【0053】
画像形成装置30の制御部38は、文書分類システム20におけるいずれかのワークフローの実行が操作部31を介して指示されると、スキャナー34にセットされた帳票から画像を1枚ずつスキャナー34によって読み取る(S101)。
【0054】
制御部38は、S101の処理の後、操作部31を介して実行が指示されたワークフローのワークフローIDと、S101において読み取った画像とを文書分類システム20に送信する(S102)。
【0055】
文書分類システム20の文書分類部25aは、S102において送信されてきたワークフローIDおよび画像を画像形成装置30から受信すると(以下、S102において送信されてきたワークフローIDによって特定されるワークフローを「対象ワークフロー」という。また、S102において送信されてきた画像を「対象画像」という。)、対象画像の1枚ずつに対して、対象ワークフローの設定テンプレート情報において示されるテンプレートIDによって特定されるテンプレートファイルの画像ファイルを使用して、教師ありの機械学習による文書分類処理を実行する(S103)。なお、文書分類部25aは、S103において文書分類処理を実行する前に、対象画像の向きを文書分類処理やOCR(Optical Character Recognition)のために適切な向きに調整したり、対象画像において一部が欠けている文字の画像を文書分類処理やOCRのために補完したりなど、文書分類処理やOCRのための何らかの前処理を実行しても良い。
【0056】
文書分類部25aは、S103における文書分類処理が成功した対象画像に関しては、対象ワークフローの設定テンプレート情報において示されるテンプレートIDによって特定されるテンプレートファイルのうち、S103における文書分類処理によって対応付けられたテンプレートファイルのデータファイルに基づいて、画像の一部にOCRを実行するゾーンOCRによって対象画像からメタデータを取得する(S104)。
【0057】
次いで、文書分類部25aは、S103における文書分類処理が成功した対象画像を、S104において取得したメタデータと関連付けて、記憶部24におけるいずれかのフォルダーに保存する(S105)。ここで、文書分類部25aは、S103における文書分類処理によって対象画像が対応付けられたテンプレートファイルに対応するフォルダーを、対象画像の保存先のフォルダーとして決定しても良いし、S104において取得したメタデータに応じたフォルダーを、対象画像の保存先のフォルダーとして決定しても良い。なお、文書分類部25aは、S104において取得したメタデータに応じたフォルダーが記憶部24に存在しない場合、S104において取得したメタデータに応じたフォルダーを動的に生成しても良い。また、文書分類部25aは、フォルダーに保存する対象画像のファイル名も、S104において取得したメタデータに応じて動的に生成しても良い。例えば、文書分類部25aは、S103における文書分類処理によって対象画像が対応付けられたテンプレートファイルが請求書のテンプレートファイルである場合、S104において取得したメタデータのうち請求書における請求元に応じたフォルダーに、S104において取得したメタデータのうち請求書における請求書番号に応じたファイル名で、対象画像をメタデータと関連付けて保存することができる。
【0058】
文書分類システム20の分類失敗画像通知部25bは、S103における文書分類処理が失敗した対象画像、すなわち、分類失敗画像に関しては、画像の全体にOCRを実行するFullOCRによって対象画像からテキストを取得する(S106)。
【0059】
次いで、分類失敗画像通知部25bは、対象ワークフローの設定テンプレート情報において示されるテンプレートIDによって特定されるいずれのテンプレートファイルに、いずれの分類失敗画像が対応付けられるかを、対象ワークフローの設定テンプレート情報において示されるテンプレートIDによって特定されるテンプレートファイルのデータファイルに示されるメタデータの項目と、S106において取得したテキストとに基づいて、特定のアルゴリズムによって判定する(S107)。
【0060】
次いで、分類失敗画像通知部25bは、同一のテンプレートファイルに対応付けられるとS107において判定した分類失敗画像の群毎に、電子メールを作成する(S108)。
【0061】
分類失敗画像通知部25bは、S108において作成する電子メールの本文に、作業者に新規にテンプレートファイルを作成させるためのURL(Uniform Resource Locator)を記載する。なお、S108において作成する電子メールに記載されるURLは、電子メール毎に異なる。
【0062】
分類失敗画像通知部25bは、S108において作成する電子メールに分類失敗画像を添付または本文への挿入によって付加しても良い。なお、S108において作成される電子メールに付加される分類失敗画像は、作業者が意図して文書分類システム20に入力した画像であるか否かを作業者に確認させることが主目的の画像である。したがって、分類失敗画像通知部25bは、S108において作成する電子メールの対象の分類失敗画像のうち、対象ワークフローにおいて最初に文書分類処理が失敗した画像など、特定の1つの分類失敗画像を付加するだけでも良い。
【0063】
分類失敗画像通知部25bは、S108の処理の後、S108において作成した電子メールを、連絡先情報24iに示す連絡先に送信する(S109)。
【0064】
分類失敗画像通知部25bは、S107の処理の後、S108~S109の処理と並行して、分類失敗画像毎に、この分類失敗画像に対応付けられるとS107において判定したテンプレートファイルのデータファイルに示されるメタデータの項目に基づいて、キーワードを決定する(S110)。ここで、分類失敗画像通知部25bは、1つの分類失敗画像に対して、複数のキーワードを決定しても良い。例えば、分類失敗画像通知部25bは、分類失敗画像に対応付けられるとS107において判定したテンプレートファイルが請求書のテンプレートファイルである場合、このテンプレートファイルのデータファイルに含まれる「請求元」、「請求書番号」などのメタデータの項目名をキーワードとして決定しても良い。
【0065】
分類失敗画像通知部25bは、S110の処理の後、分類失敗画像毎に、S110において決定したキーワードに基づいて、分類失敗画像における、このキーワードに対応するメタデータの領域の候補を特定する(S111)。
【0066】
分類失敗画像通知部25bは、S111において、種々の方法によって、メタデータの領域の候補を特定することができる。
【0067】
例えば、分類失敗画像通知部25bは、S110において決定したキーワードを分類失敗画像において検索し、このキーワードに対して分類失敗画像において周辺に存在する文字列を囲む矩形の領域を、メタデータの領域の候補としてS111において特定しても良い。
【0068】
また、分類失敗画像通知部25bは、S110において決定したキーワードに応じた文字列を分類失敗画像において検索し、この文字列を囲む矩形の領域を、メタデータの領域の候補としてS111において特定しても良い。例えば、分類失敗画像通知部25bは、S110において決定したキーワードが請求書番号である場合に、請求書番号のような文字列を分類失敗画像において検索し、この文字列を囲む矩形の領域を、メタデータの領域の候補として特定しても良い。
【0069】
分類失敗画像通知部25bは、S111において、1つのキーワードに対して、メタデータの領域の候補を複数特定しても良い。例えば、分類失敗画像通知部25bは、S110において決定したキーワードを分類失敗画像において検索し、このキーワードに対して分類失敗画像において周辺に存在する文字列を囲む矩形の領域のうち、このキーワードに距離が近いものから特定の数だけ、メタデータの領域の候補として特定しても良い。
【0070】
なお、制御部25は、S106~S111の処理を実行しないことが事前に設定されることも可能である。
【0071】
次に、利用者端末40にテンプレートエディターが表示される場合のシステム10の動作について説明する。
【0072】
図7は、利用者端末40にテンプレートエディターが表示される場合のシステム10の動作のシーケンス図である。
【0073】
利用者端末40の制御部45は、文書分類システム20によってS109において送信された電子メールを受信すると、図7に示すように、受信した電子メールを表示部42に表示する(S121)。したがって、作業者は、表示部42に表示された電子メールの本文に記載されているURLを、利用者端末40の操作部41を介してクリックすることができる。
【0074】
制御部45は、S121において表示部42に表示された電子メールの本文に記載されているURLがクリックされると、Webブラウザー45aを起動する(S122)とともに、このURLへのアクセスを実行する(S123)。
【0075】
文書分類システム20の分類失敗画像通知部25bは、S123においてURLにアクセスされると、このURLに応じた分類失敗画像を開いた状態のテンプレートエディターのWebページを利用者端末40に送信する(S124)。なお、S124において送信されるWebページにおいて、分類失敗画像には、このURLに応じたメタデータの領域の候補、すなわち、S111において特定した候補が示される。
【0076】
したがって、利用者端末40の制御部45は、S124において文書分類システム20から送信されてきたWebページ、すなわち、分類失敗画像を開いた状態のテンプレートエディターのWebページを、S122において起動したWebブラウザー45aによって表示部42に表示する(S125)。ここで、S125においてテンプレートエディター上で開かれている分類失敗画像には、上述したようにメタデータの領域の候補が示される。
【0077】
図8は、表示部42に表示されるテンプレートエディターのWebページの画面50の一例を示す図である。
【0078】
図8に示す画面50は、分類失敗画像51aにおけるメタデータの領域の指定を受け付けるために分類失敗画像51aを示す画像表示領域51と、メタデータの項目を指定するための項目指定領域52と、項目指定領域52において指定されているメタデータの設定を指定するための設定指定領域53とを含んでいる。
【0079】
図8に示す例では、画像表示領域51には、分類失敗画像51aとして請求書の画像が示されており、メタデータの領域の候補として、「#1234」、「KYOCERA」および「xxxx-yyyy」の領域がハイライトされて示されている。
【0080】
図8に示す例では、項目指定領域52に示される、メタデータの項目は、「請求書番号」および「請求元」であり、「請求書番号」が指定されている状態が示されている。項目指定領域52において指定される、メタデータの項目が変更されると、画像表示領域51において指定されている、メタデータの領域が変更される。
【0081】
設定指定領域53は、メタデータのタイプを指定するためのドロップダウンリスト53aと、メタデータの処理方法を指定するためのドロップダウンリスト53bとが示されている。ドロップダウンリスト53aでは、例えば「Text」、「番号」、「小数点」などが指定可能である。ドロップダウンリスト53bでは、例えば「OCR」、「ICR(Intelligent Character Recognition)」、「OMR(Optical Mark Recognition)」などが指定可能である。図8に示す例では、ドロップダウンリスト53aで「Text」が指定されていて、ドロップダウンリスト53bで「OCR」が指定されている。
【0082】
作業者は、画像表示領域51に示されている、メタデータの領域の候補のうち、適切な候補以外の候補を操作部41を介して削除することによって、適切なメタデータの領域を指定することができる。また、作業者は、画像表示領域51に示されている、メタデータの領域の候補に適切なものが存在しない場合、画像表示領域51に示されている画像表示領域51に対して、適切なメタデータの領域を操作部41を介して手動で設定することができる。
【0083】
作業者は、操作部41を介した操作によって、項目指定領域52に示される、メタデータの項目を追加したり、削除したりすることができる。
【0084】
S123においてアクセスしたURLに応じた分類失敗画像が複数である場合には、作業者は、操作部41を介した操作によって、画面50上で分類失敗画像を切り替えることができる。
【0085】
次に、テンプレートファイルが追加される場合のシステム10の動作について説明する。
【0086】
図9は、テンプレートファイルが追加される場合のシステム10の動作のシーケンス図である。
【0087】
作業者は、S125において利用者端末40の表示部42に表示されたテンプレートエディターのWebページにおいて、メタデータの領域を指定した後、テンプレートファイルの保存を操作部41を介して指示することができる。
【0088】
利用者端末40の制御部45は、テンプレートファイルの保存が指示されると、図9に示すように、保存が指示されたテンプレートファイルを、このテンプレートファイルの対象の分類失敗画像に関連付けて文書分類システム20に送信する(S141)。ここで、保存が指示されたテンプレートファイルは、画面50の画像表示領域51において指定されていたメタデータの領域と、項目指定領域52において指定されていた、この領域に対応するメタデータの項目とを示すデータファイルと、画像表示領域51に示されていた分類失敗画像のファイルである画像ファイルとを含む。
【0089】
文書分類システム20のテンプレート受付部25cは、利用者端末40からS141において送信されてきたテンプレートファイルを受信すると、受信したテンプレートファイルを記憶部24に記憶する(S142)。したがって、このテンプレートファイルは、文書分類システム20によって実行される任意のワークフローに設定されることが可能になる。
【0090】
文書分類システム20の文書分類部25aは、S142の処理の後、S142において記憶部24に記憶したテンプレートファイルに基づいて、このテンプレートファイルに関連付けられた分類失敗画像からメタデータを取得する(S143)。
【0091】
文書分類部25aは、S143の処理においてエラーが発生しなかった場合、すなわち、S143における取得が成功した場合、S105の処理と同様に、利用者端末40からS141において送信されてきたテンプレートファイルに関連付けられた分類失敗画像を、S143において取得したメタデータと関連付けて、記憶部24におけるいずれかのフォルダーに保存する(S144)。
【0092】
次いで、文書分類部25aは、利用者端末40からS141において送信されてきたテンプレートファイルのテンプレートIDを対象ワークフローの設定テンプレート情報に追加する(S145)。
【0093】
文書分類部25aは、S143の処理において何らかのエラーが発生した場合、すなわち、S143における取得が失敗した場合には、S144~S145の処理を実行しない。
【0094】
以上に説明したように、文書分類システム20は、分類失敗画像を通知する(S108、S109およびS124)ので、例えば元の文書の群のうち何番目の文書が正しく分類されなかったかという結果など、文書分類システム20による処理の結果に基づいて、元の文書の群を作業者が1文書ずつ目視で確認する必要がなく、作業時間を短縮することができる。
【0095】
文書分類システム20は、分類失敗画像を示す画面50を通知し(S124)、この画面50において指定された、メタデータの領域と、この領域に対応する、メタデータの項目とを示すデータファイルと、この画面50に示される分類失敗画像のファイルである画像ファイルとを含むテンプレートファイルを受け付ける(S142)ので、分類失敗画像に基づいたテンプレートファイルの作成を容易化することができ、その結果、作業時間を短縮することができる。
【0096】
文書分類システム20は、分類失敗画像における、メタデータの領域の候補を特定し(S111)、特定した候補を、分類失敗画像を示す画面50において示す(S124)ので、分類失敗画像に基づいたテンプレートファイルの作成を容易化することができ、その結果、作業時間を短縮することができる。
【0097】
文書分類システム20は、分類失敗画像に基づいて作成されたテンプレートファイルを受け付けた場合に、このテンプレートファイルに含まれるデータファイルを使用して、分類失敗画像からOCRによってメタデータを自動で取得する(S143)ので、分類失敗画像からのメタデータの取得を容易化することができ、その結果、作業時間を短縮することができる。
【0098】
文書分類システム20は、分類失敗画像に基づいて作成されたテンプレートファイルを受け付けた場合に、このテンプレートファイルに含まれるデータファイルを使用して、分類失敗画像からOCRによってメタデータを自動で取得したとき、この取得が成功すると、このテンプレートファイルをワークフローに自動で設定する(S145)ので、ワークフローへのテンプレートファイルの設定を容易化することができ、その結果、作業時間を短縮することができる。
【0099】
文書分類システム20は、本実施の形態において、画像形成装置から画像が入力される。しかしながら、文書分類システム20は、例えば、予め指定したフォルダー、Webブラウザー、モバイル端末など、画像形成装置以外の入力部から画像が入力されても良い。
【0100】
文書分類システム20は、本実施の形態において、画像をフォルダーに出力する。しかしながら、文書分類システム20は、例えば、オンラインストレージサービス、電子メールなど、フォルダー以外の出力部へ画像を出力しても良い。
【0101】
文書分類システム20は、本実施の形態において、作業者に新規にテンプレートファイルを作成させるための電子メールを分類失敗画像の群毎に作成する。しかしながら、文書分類システム20は、作業者に新規にテンプレートファイルを作成させるための電子メールを、対象ワークフロー毎に作成しても良いし、分類失敗画像毎に作成しても良い。
【0102】
文書分類システム20は、本実施の形態において、作業者に新規にテンプレートファイルを作成させるための通知を電子メールで行う。しかしながら、文書分類システム20は、作業者に新規にテンプレートファイルを作成させるための通知を、例えばチャットツールなど、電子メール以外の通知方法で行っても良い。
【符号の説明】
【0103】
20 文書分類システム
24a 文書分類プログラム
24c ワークフロー
24d 設定テンプレート情報
24e テンプレートファイル
24f 画像ファイル
24g データファイル
25a 文書分類部
25b 分類失敗画像通知部
25c テンプレート受付部
50 画面
51a 分類失敗画像
図1
図2
図3
図4
図5
図6
図7
図8
図9