(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-11
(45)【発行日】2022-10-19
(54)【発明の名称】ファイル管理装置、ファイル管理方法、及びプログラム
(51)【国際特許分類】
G06F 16/383 20190101AFI20221012BHJP
【FI】
G06F16/383
(21)【出願番号】P 2021521729
(86)(22)【出願日】2019-05-31
(86)【国際出願番号】 JP2019021728
(87)【国際公開番号】W WO2020240820
(87)【国際公開日】2020-12-03
【審査請求日】2021-05-31
(73)【特許権者】
【識別番号】000136136
【氏名又は名称】株式会社PFU
(74)【代理人】
【識別番号】100137394
【氏名又は名称】横井 敏弘
(72)【発明者】
【氏名】源野 玲子
(72)【発明者】
【氏名】島▲崎▼克仁
【審査官】酒井 恭信
(56)【参考文献】
【文献】特開2019-040260(JP,A)
【文献】特開2016-071412(JP,A)
【文献】特開2011-154469(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する共通特徴抽出部と、
前記共通特徴抽出部により抽出された
少なくとも一つの特徴と、これらのデータファイルに付与されていた
一つのタグとを互いに関連付けて付与ルールとして格納するルール格納部と、
前記ルール格納部に格納されている付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与部と
を有するファイル管理装置。
【請求項2】
前記タグ付与部は、新たに入力されたデータファイルから、前記ルール格納部に付与ルールとして登録されている特徴を探索し、いずれかの特徴が発見された場合に、この特徴に関連付けられたタグを、新たに入力されたデータファイルに付与する
請求項1に記載のファイル管理装置。
【請求項3】
前記タグ付与部は、
付与ルールの特徴として登録されている文字列の一部が、新たに入力されたデータファイルから発見された場合に、この特徴に関連付けられたタグをユーザに提案し、ユーザの操作に応じて、タグを付与する
請求項2に記載のファイル管理装置。
【請求項4】
提案したタグがユーザに採用された場合に、新たに入力されたデータファイルの特徴が、付与ルールの特徴と一致するように、付与ルールを更新するルール更新部
をさらに有する請求項3に記載のファイル管理装置。
【請求項5】
提案したタグがユーザに採用されなかった場合に、新たに入力されたデータファイルの特徴が、付与ルールの特徴と一致しないように、付与ルールを更新するルール更新部
をさらに有する請求項3に記載のファイル管理装置。
【請求項6】
前記共通特徴抽出部は、前記特徴として、文字列、日付、画像サイズ、及び、画像に使用される色数の少なくとも一つを抽出する
請求項1に記載のファイル管理装置。
【請求項7】
前記ルール格納部に格納される付与ルールは、
複数の特徴を、タグを付与するか否かを判定するための判定要素として含んでおり、
前記ルール更新部は、複数のデータファイルで共通する特徴の中から、出現頻度、直近性及び出現位置の少なくとも一つと、特有性とに基づいて、付与ルールの判定要素として登録される特徴を選択する
請求項4又は5に記載のファイル管理装置。
【請求項8】
コンピュータが、同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する共通特徴抽出ステップと、
コンピュータが、前記共通特徴抽出ステップにより抽出された
少なくとも一つの特徴と、これらのデータファイルに付与されていた
一つのタグとを互いに関連付けて付与ルールとして格納するルール格納ステップと、
コンピュータが、前記ルール格納ステップ
により格納された付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与ステップと
を有するファイル管理方法。
【請求項9】
同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する共通特徴抽出ステップと、
前記共通特徴抽出ステップにより抽出された
少なくとも一つの特徴と、これらのデータファイルに付与されていた
一つのタグとを互いに関連付けて付与ルールとして格納するルール格納ステップと、
前記ルール格納ステップ
により格納された付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与ステップと
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ファイル管理装置、ファイル管理方法、及びプログラムに関する。
【背景技術】
【0002】
例えば、特許文献1には、第1の規則と該第1の規則に適用する第2の規則との組合を、文書を分類する分類規則として登録する分類規則登録手段と、前記分類規則登録手段により登録された異なる複数の分類規則について、該異なる複数の分類規則間で重複する内容を排除して統合する分類規則統合手段とを有する文書処理装置が開示されている。
【0003】
また、特許文献2には、新規のデータ項目及び当該新規のデータ項目のカテゴリを記憶装置に格納するステップと、データ項目と当該データ項目のカテゴリとを格納する正解データ格納部に格納されたデータから、前記記憶装置に格納された前記新規のデータ項目の特徴素を含む条件と対応するカテゴリとを含む特徴パターンを抽出し、特徴パターン格納部に格納するステップと、前記特徴パターン格納部に格納された特徴パターンを、前記記憶装置に格納された前記新規のデータ項目のカテゴリに合致する第1の集合と合致しない第2の集合とにグループ化し、グループ化した結果をグループデータ格納部に格納するグループ化ステップと、を含み、コンピュータに実行される分類ルール作成支援方法が開示されている。
【0004】
また、特許文献3には、記憶手段と、文書を表す文書画像データが入力される入力手段と、前記入力手段へ入力された文書画像データにレイアウト解析を施しその文書画像データの表す文書のレイアウトを特定する特定手段と、前記入力手段へ入力された文書画像データに文字解析を施しその文書画像データの表す文書の各記載項目の属性を判別する判別手段と、前記特定手段により特定されたレイアウトおよび前記判別手段により判別された各記載項目の属性に基づいて記載項目間の階層構造を特定しその階層構造を表すルールデータを生成する生成手段と、前記生成手段により生成されたルールデータを前記記憶手段へ書き込む書き込み手段とを有することを特徴とする文書処理装置が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2013-251610
【文献】特開2007-052744
【文献】特開2007-052615
【発明の概要】
【発明が解決しようとする課題】
【0006】
データファイルを適切に分類することができるファイル管理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係るファイル管理装置は、同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する共通特徴抽出部と、前記共通特徴抽出部により抽出された特徴と、これらのデータファイルに付与されていたタグとを互いに関連付けて付与ルールとして格納するルール格納部と、前記ルール格納部に格納されている付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与部とを有する。
【0008】
好適には、前記タグ付与部は、新たに入力されたデータファイルから、前記ルール格納部に付与ルールとして登録されている特徴を探索し、いずれかの特徴が発見された場合に、この特徴に関連付けられたタグを、新たに入力されたデータファイルに付与する。
【0009】
好適には、前記タグ付与部は、付与ルールとして登録されている特徴の一部が、新たに入力されたデータファイルから発見された場合に、この特徴に関連付けられたタグをユーザに提案し、ユーザの操作に応じて、タグを付与する。
【0010】
好適には、提案したタグがユーザに採用された場合に、新たに入力されたデータファイルの特徴が、付与ルールの特徴と一致するように、付与ルールを更新するルール更新部をさらに有する。
【0011】
好適には、提案したタグがユーザに採用されなかった場合に、新たに入力されたデータファイルの特徴が、付与ルールの特徴と一致しないように、付与ルールを更新するルール更新部をさらに有する。
【0012】
好適には、前記共通特徴抽出部は、前記特徴として、文字列、日付、画像サイズ、及び、画像に使用される色数の少なくとも一つを抽出する。
【0013】
好適には、前記ルール格納部に格納される付与ルールは、複数の判定要素を含んでおり、前記ルール更新部は、複数のデータファイルで共通する特徴の中から、出現頻度、直近性及び出現位置の少なくとも一つと、特有性とに基づいて、付与ルールの判定要素として登録される特徴を選択する。
【0014】
本発明に係るファイル管理方法は、同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する共通特徴抽出ステップと、前記共通特徴抽出ステップにより抽出された特徴と、これらのデータファイルに付与されていたタグとを互いに関連付けて付与ルールとして格納するルール格納ステップと、前記ルール格納ステップに格納されている付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与ステップとを有する。
【0015】
本発明に係るプログラムは、同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する共通特徴抽出ステップと、前記共通特徴抽出ステップにより抽出された特徴と、これらのデータファイルに付与されていたタグとを互いに関連付けて付与ルールとして格納するルール格納ステップと、前記ルール格納ステップに格納されている付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与ステップとをコンピュータに実行させる。
【発明の効果】
【0016】
データファイルを適切に分類することができる。
【図面の簡単な説明】
【0017】
【
図1】ファイル管理システム1の全体構成を例示する図である。
【
図2】ファイル管理装置5のハードウェア構成を例示する図である。
【
図3】ファイル管理装置5の機能構成を例示する図である。
【
図4】(a)は、タグ付けルールを説明する表であり、(b)は、タグ「見積書」のタグ付けルールを説明する表であり、(c)は、共通特徴抽出部502により抽出された特徴を例示する図である。
【
図5】(a)は、キーワードとキーワードの位置情報を例示する表であり、(b)は、日付と日付の位置情報を例示する図であり、(c)は、画像サイズと使用色数を例示する表である。
【
図6】ファイル管理装置5によるタグ付けルールの登録と更新処理(S10)を説明するフローチャートである。
【
図8】(a)は、タグ付けルールのカスタマイズ画面の呼び出し例1であり、(b)は、ユーザによるタグ付けルールのカスタマイズ画面例である。
【
図9】(a)は、タグ付けルールのカスタマイズ画面の呼び出し例2であり、(b)は、タグ付けルールのカスタマイズ画面の呼び出し例3である。
【
図10】ファイル管理装置5によるタグ付け及びタグ提案処理(S20)を説明するフローチャートである。
【
図11】タグ付け提案に対するユーザの応答に応じたタグ付けルールの更新処理(S30)を説明するフローチャートである。
【
図12】タグ付け対案に対するユーザの応答操作画面を例示する図である。
【
図13】(a)は、「請求書(2018)」のタグ付けルールと文書Cの条件候補を例示する図であり、(b)は、条件候補のキーワードのスコアを示す表であり、(C)は、タグ付けルールの更新例である。
【
図14】(a)は、「請求書」のタグ付けルールと文書Dとの特徴を表す図であり、(b)は、条件候補のキーワードのスコアを示す表であり、(c)は、タグ付けルールの更新例である。
【
図15】(a)は、「AA社_請求書」のタグ付けルールと、BB社の請求書である新規タグ付け文書Gの特徴とを表す図であり、(b)は、「○○社_請求書」のタグ付けルールを例示する図であり、(c)は、条件候補のキーワードのスコアを表す表であり、(d)は、タグ付けルールデータの更新例である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態を、図面を参照して説明する。
図1は、ファイル管理システム1の全体構成を例示する図である。
図1に例示するように、ファイル管理システム1は、複数のスキャナ3a、スキャナ3b、スキャナ3c、ファイル管理装置5、及びユーザ端末7を含み、ネットワーク9を介して互いに接続している。スキャナ3a、スキャナ3b、スキャナ3cをスキャナ3と総称し、ユーザ端末7aとユーザ端末7bとをユーザ端末7と総称する。
スキャナ3は、光学式の読取装置であり、取得した画像データをファイル管理装置5へ送信する。
ファイル管理装置5は、コンピュータ端末であり、スキャナ3から受信した画像データを分類するタグを、画像データに付与する。具体的には、ファイル管理装置5は、タグ付けの規則であるタグ付けルールを保持し、タグ付けルールと、画像データをOCR処理したデータファイルの特徴とに基づいて、適したタグをデータファイルに付与する。さらに、ファイル管理装置5は、ユーザの操作に応じて、タグ付けルールの生成、及び更新を行う。なお、タグ付けルールは、本発明に係る付与ルールの一例である。
ユーザ端末7は、ユーザが操作するコンピュータ端末であり、ファイル管理装置5により提供されるユーザインタフェースを表示する。
【0019】
図2は、ファイル管理装置5のハードウェア構成を例示する図である。
図2に例示するように、ファイル管理装置5は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び、入力装置210を有し、これらの構成はバス212を介して互いに接続している。
CPU200は、例えば、中央演算装置である。
メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラム(例えば、
図3のファイル管理プログラム50)やその他のデータファイル(例えば、
図3のタグ付けルールデータベース600)を格納する。
ネットワークIF206は、有線又は無線で通信するためのインタフェースであり、例えば、内部ネットワーク9における通信を実現する。
表示装置208は、例えば、液晶ディスプレイである。
入力装置210は、例えば、キーボード及びマウスである。
【0020】
図3は、ファイル管理装置5の機能構成を例示する図である。
図3に例示するように、本例のファイル管理装置5には、ファイル管理プログラム50がインストールされると共に、タグ付けルールデータベース600(タグ付けルールDB600)が構成される。
ファイル管理プログラム50は、取得部500、共通特徴抽出部502、照合部504、スコア算出部506、タグ付与部508、及びルール更新部510を有する。
なお、ファイル管理プログラム50の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。
ファイル管理プログラム50において、取得部500は、スキャナ3により読み取られた画像データを取得する。
共通特徴抽出部502は、同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する。例えば、データファイルとは、画像データに対してOCR(Optical Character Recognition)処理を実施したものをいう。具体的には、共通特徴抽出部502は、取得部500より取得した画像データに対してOCR処理を実施し、OCR処理結果に基づいて、データファイルの特徴を抽出する。より具体的には、共通特徴抽出部502は、データファイルに記載される文字列、日付、データファイルの画像サイズ、及び、データファイルの画像に使用される色数の少なくとも一つを特徴として抽出する。
【0021】
ここで、タグ付けルールDB600について説明する。
タグ付けルールDB600は、共通特徴抽出部502により抽出された特徴と、これらのデータファイルに付与されていたタグとを互いに関連付けてタグ付けルールとして格納する。具体的には、タグ付けルールDB600は、タグ名と、タグ名に関連付けられる「条件候補」と「条件」とを格納する。「条件」とは、データファイルに関連付けられる「タグ名」を付与するための制約であり、同じタグが付与された複数のデータファイルから抽出された共通する特徴である。同様に、「条件候補」は、複数のデータファイルから抽出された共通する特徴であり、「条件」は、「条件候補」の中から選出される。タグ付けルールDB600は、本発明に係るルール格納部の一例である。
【0022】
照合部504は、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴とを照合する。新たに入力されたデータファイルとは、取得部500により取得された画像データに対して、OCR処理されたデータファイルをいう。具体的には、照合部504は、共通特徴抽出部502によりOCR処理されたデータファイルと、タグ付けルールDB600に格納される、タグ付けルールに登録されている特徴との一致度を判定する。
スコア算出部506は、各「条件候補」の判定要素となるスコアを算出し、閾値以上のスコアを有する「条件候補」の中から「条件」を選出する。具体的には、スコア算出部506は、各「条件候補」の出現頻度、直近性、出現位置、及び特有性のスコアを算出し、各スコアに重みを付けて合算し、「条件候補」の優位性を算出する。
【0023】
タグ付与部508は、タグ付けルールDB600に格納されるタグ付けルールに基づいて、新たに入力されたデータファイルにタグを付与する。
具体的には、タグ付与部508は、新たに入力されたデータファイルから、タグ付けルールとして登録されている特徴を探索し、いずれかの特徴が発見された場合に、この特徴に関連付けられたタグを、新たに入力されたデータファイルに付与する。
より具体的には、タグ付与部508は、タグ付けルールとして登録されている特徴の一部が、新たに入力されたデータファイルから発見された場合に、この特徴に関連付けられたタグをユーザに提案し、ユーザの操作に応じて、タグを付与する。特徴の一部が新たに入力されたデータファイルから発見された場合とは、共通特徴抽出部502により抽出された特徴と、タグ付けルールの特徴との一致率が50%~99%である場合をいう。
【0024】
ルール更新部510は、タグ付けルールの生成及び更新を行う。具体的には、ルール更新部510は、複数のデータファイルで共通する特徴の中から、出現頻度、直近性及び出現位置の少なくとも一つと、特有性とに基づいて、タグ付けルールの判定要素として登録される特徴を選択する。より具体的には、ルール更新部510は、スコア算出部506により算出された合算スコアが閾値より高い「条件候補」から「条件」を選出し、タグ付けルールを更新する。
また、具体的には、ルール更新部510は、照合部504により、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴の一部が一致したと判定された場合であって、ユーザが提案されたタグを採用した場合に、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴とが一致するように、タグ付けルールを更新する。
さらに、ルール更新部510は、照合部504により、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴の一部が一致したと判定された場合であって、ユーザが提案されたタグを拒否した場合に、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴とが一致しないように、タグ付けルールを更新する。
【0025】
次に、タグ付けルールDB600に格納されるタグ付けルールについて説明する。
図4(a)は、タグ付けルールを説明する表であり、(b)は、タグ「見積書」のタグ付けルールを説明する表であり、(c)は、共通特徴抽出部502により抽出された特徴を例示する図である。
図4(a)に例示するように、タグ付けルールは、「タグ名」と、「タグ名」に関連付けられた「条件」とを有する。「タグ名」は、データファイルを分類する名称である。「条件」は、「タグ名」を付与するための制約であり、同じタグが付与されたデータファイルから抽出された共通する特徴である。次回取り込まれたデータファイルがその「条件」に該当すれば、ファイル管理装置5は、「条件」に関連付けられた「タグ名」を、取り込まれたデータファイルに自動で付与する。
【0026】
さらに、「条件」は、「条件候補」の中から選出される。「条件候補」とは、共通特徴抽出部502がデータファイルから抽出した特徴である。具体的には、
図4(b)に例示されるように、タグ「見積書」には、「条件候補」と「条件」とが関連付けられ、「条件候補」は、タグ付けの「条件」には含めなかったが、タグ付けルールの更新時用に「条件」の候補として保存されるデータファイルから抽出された特徴である。
より具体的には、共通特徴抽出部502は、
図4(c)に例示されるデータファイルから
図4(b)に例示するように、項目毎の「条件候補」を抽出する。スコア算出部506は、各条件候補の優位性を表すスコアを算出し、ルール更新部510は、各「条件候補」の合算スコアに基づいて、閾値以上のスコアを有する「条件候補」の中から「条件」を選出する。
【0027】
図5は、データファイルから抽出した条件候補を例示する図である。
図5に例示するように、「条件候補」は、共通特徴抽出部502によりデータファイルから抽出された特徴であり、文字列、及び画像の縦、及び横の長さである。具体的には、「条件候補」とは、データファイルの文中の単語(キーワード)、文書日付の値、及び画像の縦横の長さの値等である。
キーワードについて、
図5(a)に例示するように、共通特徴抽出部502は、データファイル中のキーワードの文字列と、文字列が記載された位置情報とを特徴として記録する。具体的には、共通特徴抽出部502は、OCR処理の結果に基づいて、データファイルの形態素解析を行い、分割された単語をキーワード条件候補とする。共通特徴抽出部502は、キーワード条件候補のうち、スコアが特定の条件を満たす最大5件をキーワード条件とする。
【0028】
文書日付について、
図5(b)に例示するように、共通特徴抽出部502は、データファイル中の日付を年/月/日の要素に分解し、日付の記載された位置情報を特徴として記録する。共通特徴抽出部502は、文書内に日付が書かれている場合、年、月、日、及び曜日それぞれの要素を文書日付条件候補とする。共通特徴抽出部502は、文書日付条件候補のうち、スコアが特定の条件を満たす各要素で最大1件を文書日付条件とする。
画像サイズについて、
図5(c)に例示するように、共通特徴抽出部502は、データファイルの縦・横の長さを画像サイズ条件候補とし、画像サイズ条件候補のうち、スコアが特定の条件を満たす各要素で最大1件を画像サイズ条件とする。
その他に、キーワード、文書日付の値、及び画像の縦横の長さ以外にも、ルール更新部510は、「フォーマット」、「名刺またはレシートの属性値(会社名または住所)」、及び「画像の色」を条件候補とし、これらの一致または類似を条件としてタグ付けルールを作成してもよい。
【0029】
タグ付与部508は、「条件」を満たすデータファイルにタグを付与する。具体的には、データファイルの特徴と、タグ付けルールのキーワードとの一致、文書日付との類似、及び画像の縦横の長さとの類似の場合に、タグ付与部508は、タグを付与する。
例えば、キーワードの条件は、特定の文字列がデータファイル内に記載されていることにより満たされる。文書日付の類似の条件は、データファイル内に記載された年月日がある特徴を有することにより満たされる。画像の縦横の長さの類似の条件は、画像の縦横サイズがある特徴を有することにより満たされる。
【0030】
次に、条件候補のスコアの算出方法について説明する。
各条件候補は、出現頻度、直近性、出現位置、及び特有性に対するスコアを有する。各スコアは、0~10の間で増減する。
出現頻度のスコアは、すべてのタグ付きデータファイル中、ある特徴が何件のデータファイルで出現するかに基づいて算出される。出現頻度のスコアは、出現回数が多いほど高くなる。また、タグ付けしたすべてのデータファイルに共通した特徴であればスコアは、10である。
直近性スコアは、ある特徴が最近入力されたデータファイルに該当するか否かに基づいて算出される。直近性のスコアの初期値は、最大値(10)である。また、追加されたデータファイルに特徴が当てはまらない場合に、直近性のスコアは減少する。
出現位置のスコアは、データファイル上の近い位置に記載されているか否かに基づいて算出される。出現位置のスコアは、同一箇所であれば最大値(10)であり、位置が離れるにつれて、出現位置のスコアは減少する。
【0031】
特有性のスコアは、タグ付けルールに特有の特徴であるか否かに基づいて算出される。スコア算出部506は、タグ付けルールに該当するデータファイルに対し、タグ付け提案を行った場合、且つ、ユーザがその提案を拒否した場合に、タグ付けルールには存在し、該当のデータファイルには存在しない「条件」、及び「条件候補」の特有性のスコアを加算する。
スコア算出部506は、出現頻度、直近性、出現位置、及び特有性のスコアを算出し、各スコアに重みを付けて合算し、「条件候補」の優位性を計算する。スコア算出部506は、「合算スコア=α×出現頻度のスコア+β×直近性スコア+γ×出現位置のスコア+δ×特有性のスコア」の式を用いて合算スコアを計算する。ルール更新部510は、スコア算出部506により算出された合算スコアが閾値より高い条件候補から「条件」を選出する。
【0032】
図6は、ファイル管理装置5によるタグ付けルールの登録及び更新処理(S10)を説明するフローチャートである。
図6では、ユーザがタグ「A」をデータファイルに付与した場合のタグ付けルールの登録及び更新について説明する。
図6に例示するように、ステップ100(S100)において、ルール更新部510は、ユーザのタグ付け操作により、データファイルにタグが付与されたことを検知する。具体的には、ユーザは、
図7に例示するように、タグ付け操作画面において、タグの選択、または新規タグ名を入力し、データファイルに対してタグ付け操作(タグ「A」の付与)を行い、ルール更新部510は、ユーザによるタグ付け操作を検知する。
ステップ105(S105)において、照合部504は、タグ「A」のタグ付けルールが存在するか否かをタグ付けルールDB600から検索する。タグ付けルールが存在する場合に、照合部504は、S135へ移行し、タグ付けルールが存在しない場合に、照合部504は、S110へ移行する。
【0033】
ステップ110(S110)において、照合部504により検索された、ユーザによりタグ「A」が付与されたデータファイルが2つ以上存在する場合に、照合部504は、S115へ移行する。ユーザにより、タグ「A」が付与されたデータファイルが1つしかいない場合に、ルール更新部510は、タグ付けルールの登録及び更新処理(S10)を終了する。タグ「A」の付与されたデータファイルが1つだけでは、同じタグ「A」が付与されたデータファイルにおける共通の特徴を抽出できないため、タグ付けルールは生成されない。
ステップ115(S115)において、共通特徴抽出部502は、タグ「A」が付与されているデータファイルの特徴を抽出する。具体的には、共通特徴抽出部502は、データファイルの文字列、日付、画像サイズ、及び画像に使用される色数の少なくとも一つを抽出する。
【0034】
ステップ120(S120)において、共通特徴抽出部502が、タグ「A」の付与されているデータファイルすべての特徴を抽出した場合に、タグ付けルールの登録及び更新処理(S10)は、S125へ移行し、すべてのデータファイルの特徴を抽出していない場合に、タグ付けルールの登録及び更新処理(S10)は、S115へ移行する。
ステップ125(S125)において、共通特徴抽出部502は、タグ「A」が付与されたデータファイルすべてに共通する特徴を「条件候補」として抽出する。
ステップ130(S130)において、スコア算出部506は、各「条件候補」の出現頻度、直近性、出現位置、及び特有性のスコアと、合算スコアとを算出する。ルール更新部510は、合算スコアが高く、且つ、各スコアが閾値以上の「条件候補」を「条件」として選出し、タグ「A」のタグ付けルールを生成し、タグ付けルールDB600に登録する。
【0035】
ステップ135(S135)において、タグ「A」のタグ付けルールが存在する場合に、照合部504は、タグ「A」のタグ付けルールを取得する。
ステップ140(S140)において、共通特徴抽出部502は、ユーザによりタグ「A」が付与されたデータファイルの特徴を抽出する。具体的には、共通特徴抽出部502は、データファイルの文字列、日付、画像サイズ、及び画像に使用される色数の少なくとも一つを取得する。
ステップ145(S145)において、ルール更新部510は、S135において、照合部504が取得したタグ付けルールの「条件」のうち、S140において、共通特徴抽出部502が抽出した特徴に該当しない条件を削除する。さらに、スコア算出部506は、S135において、照合部504が取得したタグ付けルールの「条件候補」を加えて、S140において取得した各「条件候補」のスコアを再計算する。ユーザによるカスタマイズにより固定条件を設定されている場合には、固定条件を設定された条件候補をスコアの値によらず「条件」として選出する。さらに、ルール更新部510は、その他の条件候補の中から合算スコアが高く、且つ各スコアが閾値以上の条件候補を「条件」として追加選出する。
ステップ150(S150)において、ルール更新部510は、タグ「A」のタグ付けルールの「条件」を、選出された新たな「条件」に入れ替えてタグ付けルールを更新する。新たな「条件」に入れ替えることにより、より一致率の高いタグ付けルールを生成することができる。
【0036】
次に、ユーザによるタグ付けルールのカスタマイズについて説明する。
ユーザは、任意のタイミングでタグ付けルールのカスタマイズ画面を呼び出し、タグ付けルールの確認、及びカスタマイズを行うことができる。具体的には、
図8(a)に例示するように、タグ「納品書」から「タグ付けルールの確認」メニューが表示され、ユーザの選択により、タグ付けルールのカスタマイズ画面が表示される。さらに、ユーザは、
図8(b)に例示するように、タグに関連付けられるキーワードの追加、削除、及び日付の変更等のカスタマイズをすることができる。さらに、ユーザは、タグに関連付けられる「条件」を固定する設定(固定条件)ができる。固定条件に設定された「条件」は、ユーザのタグ付け操作によるルール更新時に、除去されることなく、必ず「条件」として保持される。
また、
図9(a)及び(b)に例示するように、ユーザへのタグの提案時、及びタグの検索結果であるタグリストからもタグ付けルールのカスタマイズ画面を呼び出すことができる。このように、ユーザがタグ付けルールを確認し、必要に応じて修正できるため、ファイル管理装置5によるタグ付けルールの更新では対応できないようなタグ付けルールの生成も可能である。
【0037】
図10は、ファイル管理装置5によるタグ付け及びタグ提案処理(S20)を説明するフローチャートである。
図10に例示するように、ステップ200(S200)において、取得部500は、スキャナ3によりスキャンされた書類の画像データを取得する。共通特徴抽出部502は、取得部500により取得された画像データに対してOCR処理を実施したデータファイルを取得する。共通特徴抽出部502は、データファイルの文字列、日付、画像サイズ、及び画像に使用される色数の少なくとも一つを特徴として抽出する。
ステップ205(S205)において、照合部504は、データファイルの特徴とタグ付けルールDB600に格納されるタグ付けルールとを照合する。
ステップ210(S210)において、照合部504は、データファイルの特徴と、すべてのタグ付けルールとを照合した場合に、S215へ移行し、すべてのタグ付けルールと照合していない場合に、S205へ移行する。
ステップ215(S215)において、照合部504は、照合した結果、データファイルの特徴と一致率が最も高いタグ付けルールを選出する。
ステップ220(S220)において、S215において選出したタグ付けルールの一致率が100%である場合に、S225へ移行し、一致率が100%でない場合に、S235へ移行する。
【0038】
ステップ225(S225)において、タグ付与部508は、一致率100%であるタグ付けルールのタグをデータファイルに付与する。
ステップ230(S230)において、ルール更新部510は、タグ付けルールを更新し、登録する。具体的には、S215において選出したタグ付けルールのうち、共通特徴抽出部502が抽出した特徴に該当しない条件を削除する。さらに、各条件候補のスコア、固定条件、及びその他の条件候補に基づいて「条件」を選出し、タグ付けルールの「条件」を、選出された新たな「条件」に入れ替え、タグ付けルールDB600に登録する。
ステップ235(S235)において、タグ付与部508は、S215において選出されたタグ付けルールとデータファイルとの特徴が一致率50%以上99%未満(類似)である場合に、S240へ移行し、一致率が49%以下である場合に、タグ付けをせず、処理を終了する。
ステップ240(S240)において、タグ付与部508は、類似であると判断されたタグ付けルールのタグをデータファイルに付与することを提案し、付与するか否かの判断をユーザに求める。
【0039】
図11は、タグ付け提案に対するユーザの応答に応じたタグ付けルールの更新処理(S30)を説明するフローチャートである。
図11では、ファイル管理装置5がタグ「AAA」の付与をユーザに提案した場合について説明する。
図11に例示するように、ステップ300(S300)において、タグ付与部508は、
図12に例示するように、ユーザにタグ「AAA」の付与を提案する。具体的には、タグ付与部508は、タグ「AAA」の付与、タグを付与しない、及び、別タグの付与をユーザの応答操作として提示する。
ステップ305(S305)において、タグ付与部508によるタグの提案に対してユーザがタグ「AAA」を妥当であると判断した場合に、S310へ移行し、タグ「AAA」を妥当であると判断しない場合に、S320へ移行する。
ステップ310(S310)において、タグ付与部508は、データファイルにタグ「AAA」を付与する。
ステップ315(S315)において、ルール更新部510は、タグ「AAA」のタグ付けルールを更新登録する。具体的には、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が100%となるよう、「条件」を選定し、既存の「AAA」のタグ付けルールの「条件」とを入れ替える。ルール更新部510は、「条件」の入れ替えではなく、「条件」の一部削除(例えば、文字列が3文字一致から2文字一致により条件を満たすような、条件の緩和)により一致率が上がるようにしてもよい。
【0040】
ステップ320(S320)において、ユーザが「AAA」とは別のタグを付与することを選択した場合、ここでは、ユーザがタグ「BBB」を付与することを選択した場合にS325へ移行し、それ以外の場合に、S340へ移行する。
ステップ325(S325)において、タグ付与部508は、データファイルにタグ「BBB」を付与する。
ステップ330(S330)において、ユーザが「タグ「BBB」を付与する」を選択した場合に、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が49%以下となるよう、タグ「AAA」のタグ付けルールを更新する。具体的には、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとが一致率が49%以下となるよう「条件」を選定する。さらに、ルール更新部510は、選定した「条件」と、既存の「AAA」のタグ付けルールの「条件」とを入れ替える。これにより、データファイルの特徴とタグ「AAA」のタグ付けルールとが類似と判定されないようになる。また、ルール更新部510は、「条件」の入れ替えではなく、「条件」の追加(条件の強化)により一致率が下がるようにしてもよい。
【0041】
ステップ335(S335)において、ルール更新部510は、データファイルの特徴と、タグ「BBB」のタグ付けルールとの一致率が100%となるようタグ「BBB」のタグ付けルールを更新する。具体的には、ルール更新部510は、データファイルの特徴と、タグ「BBB」のタグ付けルールとの一致率が100%となるよう、「条件」を選定する。さらに、ルール更新部510は、選定した「条件」と、既存の「BBB」のタグ付けルールの「条件」とを入れ替える。これにより、データファイルの特徴とタグ「BBB」のタグ付けルールとが一致と判定されるようになる。また、ルール更新部510は、「条件」の入れ替えではなく、「条件」の一部削除(条件の緩和)により一致率が上がるようにしてもよい。
ステップ340(S340)において、ユーザが「タグ「AAA」を付与しない」を選択した場合に、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が49%以下となるようタグ「AAA」のタグ付けルールを更新する。より具体的には、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が49%以下となるよう、「条件」を選定する。そして、ルール更新部510は、選定した「条件」と、既存の「AAA」のタグ付けルールの「条件」とを入れ替える。これにより、データファイルの特徴とタグ「AAA」のタグ付けルールとが類似と判定されないようになる。また、ルール更新部510は、「条件」の入れ替えではなく、「条件」の追加(条件の強化)により一致率が下がるようにしてもよい。
ステップ345(S345)において、ルール更新部510は、入れ替えた「条件」をタグ付けルールの条件としてタグ付けルールDB600に登録する。
【0042】
次に、新規タグ付け文書Cに対して、文書A及び文書Bに付与された既存タグ「請求書(2018)」を付与した場合のタグ付けルールの更新例を説明する。
図13(a)は、「請求書(2018)」のタグ付けルールと文書Cの特徴とを表す図であり、文書A、文書B、及び文書Cのキーワード、文書日付、及びサイズを表す。
図13(a)に例示するように、文書Cには、文書A及び文書Bのように、「下記」及び「東京」の文字列が含まれない。
図13(b)は、条件候補のキーワードのスコアを表す表である。
図13(c)は、タグ付けルールデータの更新例である。
ルール更新部510は、文書Cに含まれる「条件候補」のスコアに基づいて、「条件」として採用されるキーワードを選出する。具体的には、
図13(b)に例示するように、スコア算出部506により算出された、「下記」及び「東京」の出現頻度は「10」から「7」に、直近度は「10」から「9」に下がり、「請求書」及び「税額」の出現位置は加算される。その結果、「下記」及び「東京」の合算スコアが下がり、「請求書」及び「税額」の合算スコアは上がる。したがって、
図13(c)に例示するように、ルール更新部510は、文書A及び文書Bに基づいて生成されたタグ付けルールを、キーワードとして「請求書」、「金額」、「振込」、「税額」、及び「納期」を有し、文書日付として「2018」を有し、サイズが「A4」であるデータファイルにタグ「請求書(2018)」を付与するタグ付けルールに更新する。
【0043】
次に、1つの条件だけでは、一致率が100%となるタグ付けルールを生成できない場合のタグ付けルールの更新例を説明する。具体的には、ユーザが、新規タグ付け文書Dに対して、既存タグ「請求書」を付与する場合について説明する。
図14(a)は、「請求書」のタグ付けルールと文書Dとの特徴を表す図であり、文書A、文書B、文書C、及び文書Dのキーワード、及び文書日付を表す。
図14(a)に例示するように、文書Dには、文書A~文書Cのように、「請求書」の文字列が含まれず、文書A~文書Cと新規タグ付け文書Dとでは、共通するデータファイルの特徴がない。つまり、
図14(c)のNo.1の既存のタグ「請求書」のタグ付けルールだけでは、文書Dに対してタグ「請求書」を付与することができない。
図14(b)は、条件候補のキーワードのスコアを表す表である。
図14(c)は、タグ付けルールデータの更新例である。
図14(b)、及び
図14(c)に例示するように、スコア算出部506は、「条件候補」のキーワードのスコアを再計算し、ルール更新部510は、更新前のタグ付けルール(No.1)に加え、文書Dがタグ「請求書」に該当するように、合算スコアの高い「振込先」及び「支払期限」を「条件」として選出し、タグ「請求書」のタグ付けルールとして追加する。したがって、ルール更新部510は、タグ「請求書」のタグ付けルールとして条件「No.1」と「No.2」とを登録する。これにより、タグ付けルールの条件が「No.1」または「No.2」に該当すればタグ「請求書」が付与されるようになる。
【0044】
次に、タグ付けを提案後、ユーザがその提案を拒否した場合のタグ付けルールの更新例を説明する。具体的には、BB社の請求書である新規タグ付け文書Gに対して、ユーザが既存タグ「AA社_請求書」の提案を拒否した場合について説明する。
図15(a)は、「AA社_請求書」のタグ付けルールと、BB社の請求書である新規タグ付け文書Gの特徴とを表す図であり、(b)は、「○○社_請求書」のタグ付けルールを例示する図であり、(c)は、条件候補のキーワードのスコアを表す表であり、(d)は、タグ付けルールデータの更新例である。
図15(b)に例示する「○○社_請求書」のタグ付けルールでは、BB社の請求書にも「AA社_請求書」タグの付与を提案してしまう。
そこで、
図15(a)に例示するように、スコア算出部506は、タグ付けを拒否した文書Gの特徴と、タグ「AA社_請求書」のタグ付けルールの「条件候補」とを比較する。スコア算出部506は、タグ「AA社_請求書」のタグ付けルールの「条件候補」の中に、文書Gの特徴に含まれない「条件候補」があれば、その「条件候補」の特有性のスコアを加算する。具体的には、
図15(c)に例示するように、スコア算出部506は、文書E、文書Fに含まれ、文書Gに含まれないキーワードの条件候補である“AA社”に特有性スコアを付与する。スコア算出部506によるスコアの再計算の結果、
図15(d)に例示するように、ルール更新部510は、タグ付けルールを、タグ名「AA社_請求書」、キーワード「“AA会社”、“請求書”、“振込先”、“支払期限”、及び“請求金額”」を有するタグ付けルールに更新する。これにより、タグ付与部508は、BB社の請求書である文書Gに対して、タグ「AA社_請求書」を提案することがなくなる。
【0045】
以上説明したように、ファイル管理装置5によれば、スキャナ3から取得したデータファイルに、データファイルの特徴とタグ付けルールと基づいて、ユーザの介在なく自動でタグを付与することができる。また、ユーザは、ファイル管理装置5により管理されるタグ付けルールの見直しが可能であり、必要に応じてタグ付けルールを修正することができる。そして、タグ付けルールは、タグ付け対象の文書とタグ付けルールとの一致率に基づいて、タグ付けルールを更新するため、使用により、より精度の高いタグ付けルールが確立される。
【0046】
また、上記実施形態では、ファイル管理装置5がスキャナ3により読み取られた画像データに対してタグを付与しているが、これに限定されず、スキャナ3が、ファイル管理装置5の機能を有し、画像データを読み取り、データファイルに対して、タグを付与してもよい。さらに、ユーザ端末7が、ファイル管理装置5の機能を有し、ユーザ端末7が、データファイルに対してタグを付与してもよい。
【符号の説明】
【0047】
1…ファイル管理システム
3…スキャナ
5…ファイル管理装置
50…ファイル管理プログラム
500…取得部
502…共通特徴抽出部
504…照合部
506…スコア算出部
508…タグ付与部
510…ルール更新部
600…タグ付けルールデータベース