IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7235966ファイル分類装置、ファイル分類プログラム及びファイル分類方法
<>
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図1
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図2
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図3
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図4
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図5
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図6
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図7
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図8
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図9
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図10
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図11
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図12
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図13
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図14
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図15
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図16
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図17
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図18
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図19
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図20
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図21
  • 特許-ファイル分類装置、ファイル分類プログラム及びファイル分類方法 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-01
(45)【発行日】2023-03-09
(54)【発明の名称】ファイル分類装置、ファイル分類プログラム及びファイル分類方法
(51)【国際特許分類】
   G06F 16/14 20190101AFI20230302BHJP
   G06F 16/33 20190101ALI20230302BHJP
   G06F 21/62 20130101ALI20230302BHJP
【FI】
G06F16/14 100
G06F16/33
G06F21/62 318
【請求項の数】 10
(21)【出願番号】P 2019090074
(22)【出願日】2019-05-10
(65)【公開番号】P2020187429
(43)【公開日】2020-11-19
【審査請求日】2022-02-08
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100094525
【弁理士】
【氏名又は名称】土井 健二
(74)【代理人】
【識別番号】100094514
【弁理士】
【氏名又は名称】林 恒徳
(72)【発明者】
【氏名】角田 忠信
(72)【発明者】
【氏名】矢崎 孝一
(72)【発明者】
【氏名】二村 和明
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開2014-235500(JP,A)
【文献】特開2019-28788(JP,A)
【文献】特開2017-102966(JP,A)
【文献】特開2017-207876(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定する第1判定部と、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定する第2判定部と、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定する共通特定部と、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する情報管理部と、を有する、
ことを特徴とするファイル分類装置。
【請求項2】
請求項1において、
前記第1記憶部に記憶された文字列は、正規表現が用いられていない文字列である、
ことを特徴とするファイル分類装置。
【請求項3】
請求項1において、
前記第1判定部は、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記情報管理部は、前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶し、さらに、
前記第1判定部は、前記情報管理部が前記第1ファイルのファイル名を記憶した後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記共通特定部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類装置。
【請求項4】
請求項3において、
前記情報管理部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第2ファイルのファイル名を前記第3記憶部に記憶する、
ことを特徴とするファイル分類装置。
【請求項5】
請求項3において、
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、前方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。
【請求項6】
請求項3において、
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、後方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。
【請求項7】
請求項3において、さらに、
前記第1ファイルのファイル名が前記文字列を含むと判定した場合、前記第1ファイルが前記正規表現に適合することを示す情報を出力し、前記第2ファイルのファイル名が前記文字列を含むと判定した場合、前記第2ファイルが前記正規表現に適合することを示す情報を出力する情報出力部を有する、
ことを特徴とするファイル分類装置。
【請求項8】
請求項7において、
前記情報出力部は、前記第1ファイルのファイル名が前記正規表現に適合しない場合、前記第1ファイルが前記正規表現に適合しないことを示す情報を出力し、前記第2ファイルのファイル名が前記正規表現に適合しない場合、前記第2ファイルが前記正規表現に適合しないことを示す情報を出力する、
ことを特徴とするファイル分類装置。
【請求項9】
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類プログラム。
【請求項10】
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ファイル分類装置、ファイル分類プログラム及びファイル分類方法に関する。
【背景技術】
【0002】
近年、PC(Personal Computer)に記憶された情報の漏洩対策として、例えば、ファイル存在確認ツールが用いられている。このファイル存在確認ツールは、例えば、情報漏洩を引き起こす可能性があるファイルがPC内に記憶されている場合に、そのファイルの削除や移動等を促す通知をユーザに行うものである。
【0003】
一般的に、ユーザが有するPCには、ユーザによって作成されたデータファイルだけでなく、OS(Operating System)やアプリケーションについてのファイルが多数存在する。そのため、上記のようなファイル存在確認ツールは、例えば、チェック対象のファイル(以下、対象ファイルとも呼ぶ)のファイル名やファイルパス(以下、ファイル名等とも呼ぶ)と、事前に作成されたパターン(ホワイトリストやブラックリスト)とのマッチングを行うことにより、対象ファイルのそれぞれが秘密情報を含むか否かを判定する。そして、ファイル存在確認ツールは、秘密情報を含む可能性があると判定したファイルについての情報をユーザに通知する。これにより、ユーザは、例えば、各PCが社外等に持ち出し可能な状態になっているか否かの判定を行うことが可能になる。
【0004】
具体的に、ファイル存在確認ツールは、秘密情報を含む可能性が高いファイルとして、例えば、Microsoft Office(登録商標)ドキュメントファイル、メールファイル及びプログラムのソースコード等を特定する。また、ファイル存在確認ツールは、秘密情報を含む可能性が低いファイルとして、例えば、プログラムの実行ファイル、一時ファイル、ショートカットファイル及び設定ファイル等を特定する(例えば、特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2008-140102号公報
【文献】特開2011-129023号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ここで、例えば、記述の自由度が高い正規表現によって記述されたパターンが用いられる場合、ファイル存在確認ツールでは、対象ファイルのファイル名等とパターンとのマッチングに長時間を要する。
【0007】
そのため、ファイル存在確認ツールでは、例えば、正規表現によって記述されていないパターンを用いた前方一致や後方一致を行うことによって、対象ファイルのファイル名等とパターンとのマッチングを行う。これにより、ファイル存在確認ツールでは、秘密情報を含む可能性が高いファイルと、秘密情報を含む可能性が低いファイルとの分類(以下、単にファイルの分類とも呼ぶ)を短時間に行うことが可能になる。
【0008】
しかしながら、正規表現によって記述されていないパターンは、記述の自由度が低いパターンである。そのため、正規表現によって記述されていないパターンを用いる場合、ファイルの分類を行うために必要となるパターンの数が膨大になる。したがって、この場合、パターンの用意に膨大な時間を要することになり、ファイルの分類を効率的に行うことが困難になる場合がある。
【0009】
そこで、一つの側面では、本発明は、ファイルの分類を効率的に行うことを可能とするファイル分類装置、ファイル分類プログラム及びファイル分類方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
実施の形態の一態様では、文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定する第1判定部と、前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定する第2判定部と、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定する共通特定部と、特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する情報管理部と、を有する。
【発明の効果】
【0011】
一つの側面によれば、ファイルの分類を効率的に行うことを可能とする。
【図面の簡単な説明】
【0012】
図1図1は、情報処理システム10の構成について説明する図である。
図2図2は、情報処理装置1のハードウエア構成を説明する図である。
図3図3は、情報処理装置1の機能のブロック図である。
図4図4は、第1の実施の形態におけるファイル分類処理の概略を説明するフローチャート図である。
図5図5は、第1の実施の形態におけるファイル分類処理の概略を説明するフローチャート図である。
図6図6は、第1の実施の形態におけるファイル分類処理の詳細を説明するフローチャート図である。
図7図7は、第1の実施の形態におけるファイル分類処理の詳細を説明するフローチャート図である。
図8図8は、第1の実施の形態におけるファイル分類処理の詳細を説明するフローチャート図である。
図9図9は、前方一致情報133の具体例について説明する図である。
図10図10は、正規表現情報132の具体例について説明する図である。
図11図11は、一時格納情報135の具体例について説明する図である。
図12図12は、第1の実施の形態におけるファイル分類処理を説明する図である。
図13図13は、前方一致情報133の具体例について説明する図である。
図14図14は、前方一致情報133の具体例について説明する図である。
図15図15は、一時格納情報135の具体例について説明する図である。
図16図16は、一時格納情報135の具体例について説明する図である。
図17図17は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。
図18図18は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。
図19図19は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。
図20図20は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。
図21図21は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。
図22図22は、後方一致情報134の具体例について説明する図である。
【発明を実施するための形態】
【0013】
[情報処理システムの構成]
初めに、情報処理システム10の構成について説明を行う。図1は、情報処理システム10の構成について説明する図である。
【0014】
図1に示すように、情報処理システム10は、例えば、ユーザが各種作業を行うPCである情報処理装置1と、情報処理装置1とネットワークNW(例えば、インターネット)を介して接続する管理装置2と、管理装置2によってアクセスされる記憶装置3とを有する。
【0015】
情報処理装置1は、対象ファイルが秘密情報を含むか否かを判定する処理(以下、ファイル分類処理とも呼ぶ)が行われる場合、例えば、管理装置2にアクセスし、記憶装置3に記憶されたパターン(以下、第1文字列とも呼ぶ)を取得して記憶領域(以下、第1記憶部とも呼ぶ)に記憶する。第1文字列は、例えば、正規表現によって記述された文字列である。
【0016】
そして、情報処理装置1は、正規表現が用いられていない文字列(以下、第2文字列とも呼ぶ)を記憶した記憶領域(以下、第2記憶部とも呼ぶ)を参照し、複数の対象ファイルのそれぞれが第2文字列を含むか否かを判定する。第2文字列は、例えば、正規表現が用いられていない文字列である。
【0017】
その結果、複数のファイルのそれぞれが第2文字列を含まないと判定した場合、情報処理装置1は、第1記憶部を参照し、複数の対象ファイルのそれぞれが第1文字列に対応する正規表現に適合するか否かを判定する。
【0018】
そして、複数のファイルのそれぞれが正規表現に適合しないと判定した場合、情報処理装置1は、例えば、複数のファイルのそれぞれが秘密情報を含む可能性が高いファイルであると判定し、その旨をユーザに通知する。
【0019】
一方、複数のファイルのそれぞれが正規表現に適合すると判定した場合、情報処理装置1は、複数の対象ファイルのファイル名における文字列の共通部分を特定する。そして、情報処理装置1は、特定した共通部分が第1文字列に対応する正規表現に適合すると判定した場合、特定した共通部分に対応する文字列を第2文字列の少なくとも1つとして第2記憶部にさらに記憶する。
【0020】
すなわち、本実施の形態における情報処理装置1は、複数の対象ファイルのそれぞれが秘密情報を含む可能性が高いファイルであるか否かを判定するとともに、複数のファイルのファイル名等から新たに特定された第2文字列の蓄積を行う。ここで、第2文字列は、秘密情報を含む可能性が低いと判定された複数の対象ファイルのファイル名等の共通部分である。そのため、情報処理装置1は、ファイル名等に第2文字列が含まれる対象ファイルが新たに発生した場合、その新たに発生した対象ファイルが秘密情報を含む可能性が低いファイルであると判定することが可能である。したがって、情報処理装置1は、複数の対象ファイルのそれぞれが第1文字列に対応する正規表現に適合するか否かについての判定を行う前に、複数の対象ファイルのそれぞれが第2文字列を含むか否かの判定を行う。
【0021】
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された第1文字列とのマッチング回数を抑制することが可能になる。そのため、情報処理装置1は、正規表現によって記述されていないパターンを用いることなく、対象ファイルの分類に要する時間を短縮させることが可能になる。したがって、情報処理装置1は、パターンの作成に要する負担を抑制しつつ、対象ファイルの分類の効率化を行うことが可能になる。
【0022】
[情報処理システムのハードウエア構成]
次に、情報処理システム10のハードウエア構成について説明する。図2は、情報処理装置1のハードウエア構成を説明する図である。
【0023】
情報処理装置1は、図2に示すように、プロセッサであるCPU101と、メモリ102と、外部インターフェース(I/Oユニット)103と、記憶媒体104とを有する。各部は、バス105を介して互いに接続される。
【0024】
記憶媒体104は、例えば、ファイル分類処理を行うためのプログラム110を記憶するプログラム格納領域(図示しない)を有する。また、記憶媒体104は、例えば、ファイル分類処理を行う際に用いられる情報を記憶する記憶部130(以下、情報格納領域130とも呼ぶ)を有する。なお、記憶媒体104は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)であってよい。なお、上記の第1記憶部、第2記憶部及び第3記憶部のそれぞれは、例えば、記憶部130の少なくとも一部に対応するものであってよい。
【0025】
CPU101は、記憶媒体104からメモリ102にロードされたプログラム110を実行してファイル分類処理を行う。
【0026】
また、外部インターフェース103は、例えば、ネットワークNWを介して管理装置2と通信を行う。
【0027】
[情報処理システムの機能]
次に、情報処理システム10の機能について説明を行う。図3は、情報処理装置1の機能のブロック図である。
【0028】
情報処理装置1は、図3に示すように、例えば、CPU101やメモリ102等のハードウエアとプログラム110とが有機的に協働することにより、情報受付部111と、情報管理部112と、ファイル名抽出部113と、第1判定部114と、第2判定部115と、共通特定部116と、第3判定部117と、情報出力部118とを含む各種機能を実現する。
【0029】
また、情報処理装置1は、例えば、図3に示すように、ファイル情報131と、正規表現情報132と、前方一致情報133と、後方一致情報134と、一時格納情報135とを情報格納領域130に記憶する。なお、上記の第1文字列は、例えば、正規表現情報132に対応するものであってよい。また、上記の第2文字列は、例えば、前方一致情報133または後方一致情報134に対応するものであってよい。
【0030】
情報受付部111は、例えば、管理装置2から送信された正規表現情報132を受け付ける。そして、情報管理部112は、例えば、情報受付部111が受け付けた正規表現情報132を情報格納領域130に記憶する。なお、正規表現情報132は、ユーザ等によって予め情報格納領域130に記憶されるものであってもよい。
【0031】
ファイル名抽出部113は、例えば、情報処理装置1で動作するOS(図示しない)からファイル情報131を取得する。ファイル情報131は、例えば、ファイルに対するread情報やwrite情報を含むものであってよい。そして、ファイル名抽出部113は、OSから取得したファイル情報131から各ファイルのファイル名等を抽出する。
【0032】
第1判定部114は、情報格納領域130に記憶された前方一致情報133を参照し、ファイル名抽出部113が抽出したファイル名のそれぞれが前方一致情報133に含まれる文字列を含むか否かを判定する。前方一致情報133は、ファイル名抽出部113が抽出したファイル名のそれぞれと前方一致する関係にあるか否かの判定が行われる文字列を含む情報である。
【0033】
第2判定部115は、ファイル名抽出部113が抽出したファイル名のそれぞれが前方一致情報133に含まれる文字列を含まないと判定した場合、情報格納領域130に記憶された正規表現情報132を参照し、ファイル名抽出部113が抽出したファイル名のそれぞれが正規表現情報132に含まれる正規表現に適合するか否かを判定する。
【0034】
共通特定部116は、ファイル名抽出部113が抽出したファイル名のそれぞれが正規表現情報132に含まれる正規表現に適合する場合、ファイル名抽出部113が抽出したファイル名における文字列の共通部分を特定する。
【0035】
第3判定部117は、共通特定部116が特定した共通部分が正規表現情報132に含まれる正規表現に適合するか否かを判定する。
【0036】
そして、情報管理部112は、共通特定部116が特定した共通部分が正規表現情報132に含まれる場合、共通特定部116が特定した共通部分に対応する文字列を前方一致情報133の少なくとも一部として情報格納領域130に記憶する。
【0037】
情報出力部118は、ファイル名抽出部113が抽出したファイル名のそれぞれが正規表現情報132に含まれる正規表現に適合しないと第2判定部115が判定した場合、ファイル名抽出部113が抽出したファイル名に対応するファイルが秘密情報を含む可能性が高いことを示す情報をユーザに通知する。具体的に、情報出力部118は、この場合、ファイル名抽出部113が抽出したファイル名に対応するファイルが秘密情報を含む可能性が高いことを示す情報を、情報処理装置1の出力装置(図示しない)に出力する。後方一致情報134についての説明は後述する。
【0038】
[第1の実施の形態の概略]
次に、第1の実施の形態の概略について説明する。図4及び図5は、第1の実施の形態におけるファイル分類処理の概略を説明するフローチャート図である。
【0039】
情報処理装置1は、図4に示すように、ファイル分類タイミングになるまで待機する(S1のNO)。ファイル分類タイミングは、例えば、ユーザが情報処理装置1に対してファイル分類処理を行う旨の情報を入力したタイミングであってよい。
【0040】
そして、ファイル分類タイミングになった場合(S1のYES)、情報処理装置1は、第2文字列を記憶した第2記憶部を参照し、複数のファイルのファイル名等のそれぞれが第2文字列を含むか否かを判定する(S2)。
【0041】
その結果、複数のファイルのファイル名等のそれぞれが第2文字列を含まないと判定した場合(S3のNO)、情報処理装置1は、第1文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名等のそれぞれが第1文字列に対応する正規表現に適合するか否かを判定する(S4)。
【0042】
そして、複数のファイルのファイル名等のそれぞれが第1文字列に対応する正規表現に適合すると判定した場合(S5のYES)、情報処理装置1は、図5に示すように、複数のファイルのファイル名等における文字列の共通部分を特定する(S11)。
【0043】
続いて、情報処理装置1は、S11の処理で特定した共通部分が第1文字列に対応する正規表現に適合するが否かを判定する(S12)。
【0044】
その結果、S11の処理で特定した共通部分が第1文字列に対応する正規表現に適合すると判定した場合(S13のYES)、情報処理装置1は、S12の処理で特定した共通部分に対応する文字列を第2文字列として第2記憶部にさらに記憶する(S14)。
【0045】
一方、複数のファイルのファイル名等のそれぞれが第2文字列を含むと判定した場合(S3のYES)、または、複数のファイルのファイル名等のそれぞれが第1文字列に対応する正規表現に適合しないと判定した場合(S5のNO)、情報処理装置1は、ファイル分類処理を終了する。また、S11の処理で特定した共通部分が第1文字列に対応する正規表現に適合しないと判定した場合についても同様に(S13のNO)、情報処理装置1は、ファイル分類処理を終了する。
【0046】
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された第1文字列とのマッチング回数を抑制することが可能になる。そのため、情報処理装置1は、正規表現によって記述されていないパターンを用いることなく、対象ファイルの分類に要する時間を短縮させることが可能になる。したがって、情報処理装置1は、パターンの作成に要する負担を抑制しつつ、対象ファイルの分類の効率化を行うことが可能になる。
【0047】
[第1の実施の形態の詳細]
次に、第1の実施の形態の詳細について説明する。図6から図8は、第1の実施の形態におけるファイル分類処理の詳細を説明するフローチャート図である。また、図9から図16は、第1の実施の形態におけるファイル分類処理の詳細を説明する図である。なお、以下、正規表現情報132、前方一致情報133及び後方一致情報134のそれぞれがホワイトリストである場合について説明を行う。
【0048】
情報受付部111は、図6に示すように、ファイル情報131を受け付けるまで待機する(S21のNO)。具体的に、情報受付部111は、例えば、OSから送信されたファイル情報131を受け付けるまで待機する。
【0049】
そして、ファイル情報131を受け付けた場合(S21のYES)、ファイル名抽出部113は、S21の処理で受け付けたファイル情報131から対象ファイルのファイル名等を抽出する(S22)。
【0050】
続いて、第1判定部114は、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあるか否かを判定する(S23)。以下、前方一致情報133の具体例について説明を行う。
【0051】
[前方一致情報の具体例]
図9図13及び図14は、前方一致情報133の具体例について説明する図である。
【0052】
図9等に示す前方一致情報133は、前方一致の判定に用いられる文字列が記憶される「文字列」と、各情報が生成(更新)されたエポック秒が記憶される「タイムスタンプ」とを項目として有する。
【0053】
具体的に、図9に示す前方一致情報133において、1行目の情報には、「文字列」として「c:¥user¥appdata¥test¥」が記憶され、「タイムスタンプ」として「1551128928」が記憶されている。
【0054】
また、図9に示す前方一致情報133において、2行目の情報には、「文字列」として「c:¥tmp¥」が記憶され、「タイムスタンプ」として「1551129475」が記憶されている。
【0055】
そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」であった場合、第1判定部114は、S22の処理で抽出したファイル名等に対応する文字列と、前方一致情報133に情報が含まれる各文字列とが前方一致する関係にないと判定する。
【0056】
図6に戻り、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にないと判定した場合(S24のNO)、第2判定部115は、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S25)。以下、正規表現情報132の具体例について説明を行う。
【0057】
[正規表現情報の具体例]
図10は、正規表現情報132の具体例について説明する図である。
【0058】
図10に示す正規表現情報132は、正規表現情報132に含まれる各情報を識別する「ID」と、正規表現によって記述された文字列が記憶される「文字列」とを項目として有する。
【0059】
具体的に、図10に示す正規表現情報132において、1行目の情報には、「ID」として「REGEXP1」が記憶されている。また、図10に示す正規表現情報132において、1行目の情報には、「文字列」として、¥または/で区切られたフォルダ以下のコンマから始まるフォルダ名またはファイル名等を示す「(.*[/¥¥])+¥..+」が記憶されている。図10に含まれる他の情報についての説明は省略する。
【0060】
そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」であった場合、第2判定部115は、1行目の情報の「文字列」に記憶された正規表現に、S22の処理で抽出したファイル名等に対応する文字列が適合すると判定する。
【0061】
図6に戻り、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S26のYES)、共通特定部116は、図7に示すように、S22の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあるか否かを判定する(S31)。以下、一時格納情報135の具体例について説明を行う。
【0062】
[一時格納情報の具体例]
図11及び図15は、一時格納情報135の具体例について説明する図である。
【0063】
図11等に示す一時格納情報135は、一時格納情報135に含まれる各情報と適合する正規表現情報132(例えば、図10で説明した正規表現情報132に含まれるいずれかの情報)を識別する「ID」と、S22の処理で抽出したファイル名等の文字列が記憶される「文字列」と、各情報が生成(更新)されたエポック秒が記憶される「タイムスタンプ」とを項目として有する。
【0064】
具体的に、図11に示す一時格納情報135において、1行目の情報には、「ID」として「REGEXP1」が記憶され、「文字列」として「c:¥documents¥test¥.git¥objects¥00¥12345」が記憶され、「タイムスタンプ」として「1551128871」が記憶されている。
【0065】
また、図11に示す一時格納情報135において、2行目の情報には、「ID」として「REGEXP2」が記憶され、「文字列」として「c:¥user¥appdata¥test¥abcdef.pdf」が記憶され、「タイムスタンプ」として「1551128928」が記憶されている。図11に含まれる他の情報についての説明は省略する。
【0066】
そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」であった場合、共通特定部116は、S22の処理で抽出したファイル名等に対応する文字列と、1行目の情報の「文字列」に記憶された文字列とが前方一致する関係にあると判定する。
【0067】
図7に戻り、S22の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあると判定した場合(S32のYES)、共通特定部116は、S22の処理で抽出したファイル名等における文字列のうち、S31の処理で前方一致する関係にあると判定した文字列を特定する(S33)。
【0068】
具体的に、図11で説明した一時格納情報135における1行目の情報には、「文字列」として「c:¥documents¥test¥.git¥objects¥00¥12345」が記憶されている。そのため、例えば、S22の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥34567」である場合、共通特定部116は、図12に示すように、これらの文字列の共通部分である「c:¥documents¥test¥.git¥objects¥」と特定する。
【0069】
そして、第3判定部117は、S33の処理で特定した文字列が、S31の処理で前方一致する関係にあると判断した一時格納情報135に含まれる文字列に対応するIDに対応する情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S34)。
【0070】
具体的に、例えば、S33の処理で特定した文字列が「c:¥documents¥test¥.git¥objects¥」である場合、第3判定部117は、S33の処理で特定した文字列が、S31の処理で前方一致する関係にあると判断した一時格納情報135に含まれる文字列「c:¥documents¥test¥.git¥objects¥00¥12345」に対応するID「REGEXP1」に対応する図10で説明した正規表現情報132における1行目の情報の「文字列」に記憶された正規表現である「(.*[/¥¥])+¥..+」に適合すると判定する。
【0071】
その結果、S33の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S35のYES)、情報管理部112は、S33の処理で特定した文字列を前方一致情報133の少なくとも一部として情報格納領域130に記憶する(S36)。
【0072】
具体的に、例えば、S35の処理において正規表現に適合すると判定した文字列が「c:¥documents¥test¥.git¥objects¥」である場合、情報管理部112は、図12に示すように、「c:¥documents¥test¥.git¥objects¥」を前方一致情報133として情報格納領域130に記憶することを決定する。そして、情報管理部112は、例えば、図13の下線部分に示すように、「文字列」に「c:¥documents¥test¥.git¥objects¥」を記憶した情報(3行目の情報)を、前方一致情報133として情報格納領域130に追加する。
【0073】
続いて、情報出力部118は、図8に示すように、例えば、S22の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルでないことを示す情報を生成する(S42)。
【0074】
その後、情報出力部118は、S42の処理で生成した情報を出力する(S44)。具体的に、情報出力部118は、例えば、S42の処理で生成した情報を情報処理装置1の出力装置(図示しない)に出力する。
【0075】
また、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあると判定した場合も同様に(S24のYES)、情報出力部118は、S42以降の処理を行う。
【0076】
なお、情報管理部112は、この場合、図14の下線部分に示すように、情報格納領域130に記憶された前方一致情報133に含まれるタイムスタンプのうち、S22の処理で抽出したファイル名等に対応する文字列と前方一致する関係にあると判定された文字列のタイムスタンプを、現在の日時に更新するものであってよい。
【0077】
一方、S22の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にないと判定した場合(S32のNO)、情報管理部112は、図8に示すように、S22の処理で抽出したファイル名等における文字列を一時格納情報135として情報格納領域130に記憶する(S41)。
【0078】
具体的に、例えば、S35の処理において正規表現に適合すると判定した文字列が「c:¥documents¥abcd¥.git¥objects¥20¥34567」である場合、情報管理部112は、例えば、図15の下線部分に示すように、「文字列」に「c:¥documents¥abcd¥.git¥objects¥20¥34567」を記憶した情報(4行目の情報)を追加する。
【0079】
なお、S35の処理において正規表現に適合すると判定した文字列が一時格納情報135として既に記憶されている場合、情報管理部112は、S35の処理において正規表現に適合すると判定した文字列に対応するタイムスタンプのみを更新するものであってよい。
【0080】
そして、情報出力部118は、S42以降の処理を行う。また、S33の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合についても同様に(S35のNO)、情報管理部112等は、S41以降の処理を行う。
【0081】
さらに、S22の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S26のNO)、情報出力部118は、図8に示すように、S22の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルであることを示す情報を生成する(S43)。そして、情報出力部118は、S43の処理で生成した情報を出力する(S44)。
【0082】
すなわち、本実施の形態における情報処理装置1は、複数の対象ファイルのそれぞれが秘密情報を含む可能性が高いファイルであるか否かを判定するとともに、複数のファイルのファイル名等から新たに特定された前方一致情報133の蓄積を行う。ここで、前方一致情報133は、秘密情報を含む可能性が低いと判定された複数の対象ファイルのファイル名等の共通部分である。そのため、情報処理装置1は、ファイル名等に前方一致情報133が含まれる対象ファイルが新たに発生した場合、その新たに発生した対象ファイルが秘密情報を含む可能性が低いファイルであると判定することが可能である。したがって、情報処理装置1は、複数の対象ファイルのそれぞれが正規表現情報132に含まれる正規表現に適合するか否かについての判定を行う前に、複数の対象ファイルのそれぞれが前方一致情報133を含むか否かの判定を行う。
【0083】
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された正規表現情報132とのマッチング回数を抑制することが可能になる。そのため、情報処理装置1は、正規表現によって記述されていないパターンを用いることなく、対象ファイルの分類に要する時間を短縮させることが可能になる。したがって、情報処理装置1は、パターンの作成に要する負担を抑制しつつ、対象ファイルの分類の効率化を行うことが可能になる。
【0084】
なお、S36の処理において、一時格納情報135として既に記憶されている文字列を、S33の処理で特定した文字列に置き換えるものであってもよい。
【0085】
具体的に、例えば、一時格納情報135として既に記憶されている文字列が「c:¥documents¥test¥.git¥objects¥00¥12345」であって、S35の処理において正規表現に適合すると判定した文字列が「c:¥documents¥test¥.git¥objects¥」である場合、情報管理部112は、図16の下線部分に示すように、一時格納情報135に含まれる文字列である「c:¥documents¥test¥.git¥objects¥00¥12345」を「c:¥documents¥test¥.git¥objects¥」に更新するものであってよい。
【0086】
これにより、情報管理部112は、一時格納情報135の記憶に要する記憶領域を削減することが可能になる。
【0087】
また、情報管理部112は、S41の処理においてだけでなく、S33の処理で特定した文字列を前方一致情報133として情報格納領域130に記憶するタイミング(S36の処理が行われるタイミング)においても、一時格納情報135の更新を行うものであってよい。
【0088】
この場合、情報管理部112は、図16の下線部分に示すように、対応するタイムスタンプ(1行目の情報のタイムスタンプ)として、S36の処理において前方一致情報133に記憶された情報のタイムスタンプ(例えば、図13で説明した前方一致情報133における3行目の情報のタイムスタンプ)と同じ日時を記憶する。
【0089】
これにより、情報管理部112は、一時格納情報135の記憶に要する記憶領域をより削減することが可能になる。
【0090】
さらに、情報管理部112は、例えば、前方一致情報133及び一時格納情報135のそれぞれに含まれる情報のうち、タイムスタンプとして記憶された日時が現在日時よりも所定時間以上前になった情報を随時削除するものであってもよい。
【0091】
[第2の実施の形態]
次に、第2の実施の形態について説明する。図17から図21は、第2の実施の形態におけるファイル分類処理を説明するフローチャート図である。また、図22は、第2の実施の形態におけるファイル分類処理を説明する図である。
【0092】
第2の実施の形態におけるファイル分類処理は、前方一致情報133のみでなく、後方一致情報134の参照及び更新についても行う。後方一致情報134は、ファイル名抽出部113が抽出したファイル名等のそれぞれと後方一致する関係にあるか否かの判定を行う文字列を含む情報である。以下、第1の実施の形態におけるファイル分類処理を異なる点についてのみ説明を行う。
【0093】
情報受付部111は、図17に示すように、ファイル情報131を受け付けるまで待機する(S51のNO)。
【0094】
そして、ファイル情報131を受け付けた場合(S51のYES)、ファイル名抽出部113は、S51の処理で受け付けたファイル情報131から対象ファイルのファイル名等を抽出する(S52)。
【0095】
続いて、第1判定部114は、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあるか否かを判定する(S53)。
【0096】
その結果、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にないと判定した場合(S54のNO)、第1判定部114は、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された後方一致情報134に含まれる文字列と後方一致する関係にあるか否かを判定する(S55)。以下、後方一致情報134の具体例について説明を行う。
【0097】
[前方一致情報の具体例]
図22は、後方一致情報134の具体例について説明する図である。
【0098】
図22に示す後方一致情報134は、後方一致の判定に用いられる文字列が記憶される「文字列」と、各情報が生成(更新)されたエポック秒が記憶される「タイムスタンプ」とを項目として有する。
【0099】
具体的に、図22に示す後方一致情報134において、1行目の情報には、「文字列」として「.exe」が記憶され、「タイムスタンプ」として「1551128942」が記憶されている。
【0100】
また、図22に示す後方一致情報134において、2行目の情報には、「文字列」として「.dll」が記憶され、「タイムスタンプ」として「1551129621」が記憶されている。
【0101】
そのため、例えば、S52の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥98765.exe」であった場合、第1判定部114は、S52の処理で抽出したファイル名等に対応する文字列と、1行目の情報の「文字列」に記憶された文字列とが後方一致する関係にあると判定する。
【0102】
図17に戻り、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された後方一致情報134に含まれる文字列と後方一致する関係にないと判定した場合(S56のNO)、第2判定部115は、図18に示すように、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S61)。
【0103】
その結果、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S62のYES)、共通特定部116は、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあるか否かを判定する(S63)。
【0104】
そして、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にあると判定した場合(S64のYES)、共通特定部116は、S52の処理で抽出したファイル名等における文字列のうち、S63の処理で前方一致する関係にあると判定した文字列を特定する(S65)。
【0105】
続いて、第3判定部117は、図19に示すように、S65の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S71)。
【0106】
その結果、S65の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S72のYES)、情報管理部112は、S65の処理で特定した文字列を前方一致情報133の少なくとも一部として情報格納領域130に記憶する(S73)。
【0107】
一方、S65の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S72のNO)、情報管理部112は、S73の処理を行わない。
【0108】
また、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが前方一致する関係にないと判定した場合(S64のNO)、共通特定部116は、S65からS73の処理を行わない。
【0109】
続いて、共通特定部116は、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが後方一致する関係にあるか否かを判定する(S74)。
【0110】
その結果、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが後方一致する関係にあると判定した場合(S75のYES)、共通特定部116は、S52の処理で抽出したファイル名等における文字列のうち、S74の処理で後方一致する関係にあると判定した文字列を特定する(S76)。
【0111】
具体的に、例えば、S52の処理で抽出したファイル名等に対応する文字列が「c:¥documents¥test¥.git¥objects¥a1¥98765.exe」であり、一時格納情報135に含まれる文字列が「c:¥documents¥test¥.git¥objects¥a1¥76543.exe」であった場合、共通特定部116は、S52の処理で抽出したファイル名等に対応する文字列と、一時格納情報135に含まれる文字列とが後方一致する関係にあると判定する。そして、共通特定部116は、この場合、S52の処理で抽出したファイル名等に対応する文字列と、一時格納情報135に含まれる文字列とにおける共通部分である「.exe」を特定する。
【0112】
さらに、第3判定部117は、図20に示すように、S76の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合するか否かを判定する(S81)。
【0113】
その結果、S73の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合すると判定した場合(S82のYES)、情報管理部112は、S73の処理で特定した文字列を後方一致情報134の少なくとも一部として情報格納領域130に記憶する(S83)。
【0114】
一方、S73の処理で特定した文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S82のNO)、情報管理部112は、S83の処理を行わない。
【0115】
また、S52の処理で抽出したファイル名等における文字列と、情報格納領域130に記憶された一時格納情報135に含まれる文字列のそれぞれとが後方一致する関係にないと判定した場合(S75のNO)、共通特定部116は、S76からS83の処理を行わない。
【0116】
その後、情報管理部112は、S65またはS76の処理において文字列を前方一致情報133または後方一致情報134として記憶したか否かを判定する(S84)。
【0117】
そして、S65またはS76の処理において文字列を記憶していないと判定した場合(S85のYES)、情報出力部118は、図21に示すように、例えば、S52の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルでないことを示す情報を生成する(S92)。
【0118】
その後、情報出力部118は、S92の処理で生成した情報を出力する(S94)。具体的に、情報出力部118は、例えば、S92の処理で生成した情報を情報処理装置1の出力装置(図示しない)に出力する。
【0119】
また、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された前方一致情報133に含まれる文字列と前方一致する関係にあると判定した場合(S54のYES)、または、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された後方一致情報134に含まれる文字列と後方一致する関係にあると判定した場合も同様に(S56のYES)、情報出力部118は、S92以降の処理を行う。
【0120】
一方、S65またはS76の処理において文字列を記憶していると判定した場合(S85のYES)、情報管理部112は、図21に示すように、S52の処理で抽出したファイル名等における文字列を一時格納情報135として情報格納領域130に記憶する(S91)。そして、情報出力部118は、S42以降の処理を行う。
【0121】
さらに、S52の処理で抽出したファイル名等に対応する文字列が、情報格納領域130に記憶された正規表現情報132に含まれる正規表現に適合しないと判定した場合(S62のNO)、情報出力部118は、図21に示すように、S52の処理で抽出したファイル名等に対応するファイルが秘密情報を含むファイルであることを示す情報を生成する(S93)。そして、情報出力部118は、S94の処理を行う。
【0122】
これにより、情報処理装置1は、対象ファイルのファイル名等と正規表現によって記述された正規表現情報132とのマッチング回数をより抑制することが可能になる。そのため、情報処理装置1は、対象ファイルの分類をより効率的に行うことが可能になる。
【0123】
なお、情報管理部112は、例えば、後方一致情報134に含まれる情報のうち、タイムスタンプとして記憶された日時が現在日時よりも所定時間以上前になった情報を随時削除するものであってもよい。
【0124】
以上の実施の形態をまとめると、以下の付記のとおりである。
【0125】
(付記1)
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定する第1判定部と、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定する第2判定部と、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定する共通特定部と、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する情報管理部と、を有する、
ことを特徴とするファイル分類装置。
【0126】
(付記2)
付記1において、
前記第1記憶部に記憶された文字列は、正規表現が用いられていない文字列である、
ことを特徴とするファイル分類装置。
【0127】
(付記3)
付記1において、
前記第1判定部は、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記情報管理部は、前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶し、さらに、
前記第1判定部は、前記情報管理部が前記第1ファイルのファイル名を記憶した後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記第2判定部は、前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記共通特定部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類装置。
【0128】
(付記4)
付記3において、
前記情報管理部は、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第2ファイルのファイル名を前記第3記憶部に記憶する、
ことを特徴とするファイル分類装置。
【0129】
(付記5)
付記3において、
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、前方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。
【0130】
(付記6)
付記3において、
前記共通特定部は、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名との間において、後方一致する文字列を前記共通部分として特定する、
ことを特徴とするファイル分類装置。
【0131】
(付記7)
付記3において、さらに、
前記第1ファイルのファイル名が前記文字列を含むと判定した場合、前記第1ファイルが前記正規表現に適合することを示す情報を出力し、前記第2ファイルのファイル名が前記文字列を含むと判定した場合、前記第2ファイルが前記正規表現に適合することを示す情報を出力する情報出力部を有する、
ことを特徴とするファイル分類装置。
【0132】
(付記8)
付記7において、
前記情報出力部は、前記第1ファイルのファイル名が前記正規表現に適合しない場合、前記第1ファイルが前記正規表現に適合しないことを示す情報を出力し、前記第2ファイルのファイル名が前記正規表現に適合しない場合、前記第2ファイルが前記正規表現に適合しないことを示す情報を出力する、
ことを特徴とするファイル分類装置。
【0133】
(付記9)
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類プログラム。
【0134】
(付記10)
付記9において、
前記文字列を含むか否かを判定する処理では、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、さらに、
前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶する、
処理をコンピュータに実行させ、
前記文字列を含むか否かを判定する処理では、前記第1ファイルのファイル名を前記第3記憶部に記憶する処理の後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記特定する処理では、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類プログラム。
【0135】
(付記11)
文字列を記憶した第1記憶部を参照し、複数のファイルのファイル名のそれぞれが前記文字列を含むか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記文字列を含まないと判定した場合、正規表現を記憶した第2記憶部を参照し、前記複数のファイルのファイル名のそれぞれが前記正規表現に適合するか否かを判定し、
前記複数のファイルのファイル名のそれぞれが前記正規表現に適合する場合、前記複数のファイルのファイル名における文字列の共通部分を特定し、
特定した前記共通部分が前記正規表現に適合する場合、特定した前記共通部分に対応する文字列を前記第1記憶部にさらに記憶する、
処理をコンピュータに実行させることを特徴とするファイル分類方法。
【0136】
(付記12)
付記11において、
前記文字列を含むか否かを判定する処理では、前記第1記憶部を参照し、前記複数のファイルに含まれる第1ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第1ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第1ファイルのファイル名が前記正規表現に適合するか否かを判定し、さらに、
前記第1ファイルのファイル名が前記正規表現に適合する場合、前記第1ファイルのファイル名を第3記憶部に記憶する、
処理をコンピュータに実行させ、
前記文字列を含むか否かを判定する処理では、前記第1ファイルのファイル名を前記第3記憶部に記憶する処理の後、前記第1記憶部を参照し、前記複数のファイルに含まれる第2ファイルが前記文字列を含むか否かを判定し、
前記正規表現に適合するか否かを判定する処理では、前記第2ファイルが前記文字列を含まないと判定した場合、前記第2記憶部を参照し、前記第2ファイルのファイル名が前記正規表現に適合するか否かを判定し、
前記特定する処理では、前記第2ファイルのファイル名が前記正規表現に適合する場合、前記第3記憶部を参照し、前記第3記憶部に記憶されたファイル名のいずれかと前記第2ファイルのファイル名とにおける文字列の共通部分を特定する、
ことを特徴とするファイル分類方法。
【符号の説明】
【0137】
1:情報処理装置 2:管理装置
3:記憶装置 10:情報処理システム
NW:ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22