(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-09
(45)【発行日】2023-06-19
(54)【発明の名称】シグネチャ生成装置、検出装置、シグネチャ生成プログラム及び検出プログラム
(51)【国際特許分類】
G06F 21/56 20130101AFI20230612BHJP
G06F 21/55 20130101ALI20230612BHJP
【FI】
G06F21/56 340
G06F21/55 320
(21)【出願番号】P 2020110151
(22)【出願日】2020-06-26
【審査請求日】2022-06-07
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人情報通信研究機構、「「Web媒介型攻撃対策技術の実用化に向けた研究開発」副題「Web媒介型攻撃の網羅的な観測・分析に基づくユーザ環境のセキュリティ高度化」」委託事業、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】田中 翔真
(72)【発明者】
【氏名】松中 隆志
(72)【発明者】
【氏名】山田 明
(72)【発明者】
【氏名】窪田 歩
【審査官】局 成矢
(56)【参考文献】
【文献】特開2014-219708(JP,A)
【文献】特表2018-526721(JP,A)
【文献】田中翔真, ほか,リソース統計情報を用いたフィッシングサイト検知,Computer Security Symposium 2019,日本,Information Processing Society of Japan,2019年10月24日,pp.926-933
【文献】田中翔真, ほか,Webサイトを構成するリソースの種類・サイズを用いたフィッシングサイト検知,2020 Symposium on Cryptography and Information Security,The Institute of Electronics, Information and Communcation Engineers,2020年01月31日,pp.1-8
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/56
G06F 21/55
(57)【特許請求の範囲】
【請求項1】
Webプロキシログ
の各レコードを、ユーザID毎に分類し、直前のレコードとのタイムスタンプの間隔が所定以上で、かつ、コンテンツの種類が所定のものであるレコードを、Webサイトのメインページとして特定する特定部と、
特定された前記メインページのレコードから続く、次のメインページの直前までのレコード群を、
前記メインページに属するレコードとし、当該レコードそれぞれのコンテンツの種類、及びレスポンスのトラフィック量からなるリソース情報の集合を、前記メインページの構成情報として生成する生成部と、
前記メインページのURLが既知のフィッシングサイトのURLと一致する場合に、当該メインページの前記構成情報を、未知のフィッシングサイトを検出するためのシグネチャとして出力する出力部と、を備えるシグネチャ生成装置。
【請求項2】
前記生成部は、前記トラフィック量における所定値未満の値を切り捨てる請求項
1に記載のシグネチャ生成装置。
【請求項3】
Webプロキシログ
の各レコードを、ユーザID毎に分類し、直前のレコードとのタイムスタンプの間隔が所定以上で、かつ、コンテンツの種類が所定のものであるレコードを、Webサイトのメインページとして特定する特定部と、
特定された前記メインページのレコードから続く、次のメインページの直前までのレコード群を、
前記メインページに属するレコードとし、当該レコードそれぞれのコンテンツの種類、及びレスポンスのトラフィック量からなるリソース情報の集合を、前記メインページの構成情報として生成する生成部と、
前記メインページの構成情報を、既知のフィッシングサイトの構成情報であるシグネチャと比較し、類似度が閾値以上である場合に、当該メインページをフィッシングサイトとして検出する検出部と、を備える検出装置。
【請求項4】
前記検出部によりフィッシングサイトとして検出された前記メインページのURLを、既知のフィッシングサイトのURLリストに追加登録する登録部を備える請求項
3に記載の検出装置。
【請求項5】
前記生成部は、前記メインページのドメインが所定期間に出現した回数を計測し、当該回数が閾値以上の場合、前記構成情報を生成しない請求項
3又は請求項
4に記載の検出装置。
【請求項6】
前記検出部は、前記メインページの構成情報のうち、前記既知のフィッシングサイトと共通する前記リソース情報の個数が閾値未満の場合、当該メインページを検出対象から除外する請求項
3から請求項
5のいずれかに記載の検出装置。
【請求項7】
前記検出部は、前記既知のフィッシングサイトと共通する前記リソース情報のうち、所定以上のサイズのリソースに関するリソース情報の個数が閾値未満の場合に、前記メインページを検出対象から除外する請求項
6に記載の検出装置。
【請求項8】
前記生成部は、ユーザ端末からのリクエストを受けたWebプロキシサーバから、前記Webプロキシログを取得し、
前記検出部による検出結果を前記Webプロキシサーバへ通知し、フィッシングサイトとして検出された前記メインページにおけるコンテンツの前記ユーザ端末への転送を停止させる通知部を備える請求項
3から請求項
7のいずれかに記載の検出装置。
【請求項9】
前記検出部は、前記類似度として、Jaccard係数を用いる請求項
3から請求項
8のいずれかに記載の検出装置。
【請求項10】
請求項1
又は請求項
2に記載のシグネチャ生成装置としてコンピュータを機能させるためのシグネチャ生成プログラム。
【請求項11】
請求項
3から請求項
9のいずれかに記載の検出装置としてコンピュータを機能させるための検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、フィッシングサイトを検出するための装置及びプログラムに関する。
【背景技術】
【0002】
近年、有名企業又は公的機関等の信頼された主体になりすましてメールを送り、公式サイトを装った偽サイト(フィッシングサイト)に誘導することで、ログインID及びパスワード等の個人情報を盗み出す行為による被害が急増している。
このような被害を防ぐため、アクセス先がフィッシングサイトであることを検出する技術が望まれている。そこで、例えば、既知のフィッシングサイトのURLとの類似性に基づいて、未知のフィッシングサイトを検出する手法が提案されている(例えば、特許文献1参照)。
また、HTTPトラフィックデータに基づいて、悪性Webサイトのリダイレクト遷移を示す木構造を構成し、この木構造の類似性から悪性Webサイトを識別する手法が提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】Tatsuya NAGAI, Masaki KAMIZONO, Yoshiaki SHIRAISHI, Kelin XIA, Masami MOHRI, Yasuhiro TAKANO, Masakatu MORII, “A Malicious Web Site Identification Technique Using Web Structure Clustering”, IEICE Transactions on Information and Systems, 2019 Volume E102.D Issue 9 Pages 1665-1672.
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の手法では、検出対象は、URLの文字列が既知のフィッシングサイトと類似している場合に限定される。しかしながら、攻撃者は、フィッシングサイトのURLを頻繁に変更し、又は多数のURLを同時に利用して複数のサイトを作成する場合が多く、これらのURLは、必ずしも類似していないため検出が難しかった。
【0006】
非特許文献1の手法では、HTTPトラフィックデータからWebサイト間のリダイレクト遷移の関係を示すRefererヘッダ及びLocationヘッダ等を取得できないと、木構造を構成できない。例えば、オープンソースソフトウェアのsquidにより構築されたWebプロキシサーバでは、Locationヘッダの情報はログに出力されないため、Webプロキシログに適用することは難しかった。さらに、WebプロキシサーバがHTTPSのトラフィックに対応していない場合は、WebプロキシサーバがHTTPヘッダの情報を見ることができないため、ヘッダ情報をログに出力できなかった。
【0007】
本発明は、Webプロキシログに通常記録されている情報のみを用いて、未知のフィッシングサイトを検出できるシステムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係るシグネチャ生成装置は、Webサイトにアクセスした際に生成されたWebプロキシログにおけるレコード群を、当該Webサイトのメインページに属するレコードとし、当該レコードそれぞれのコンテンツの種類、及びレスポンスのトラフィック量からなるリソース情報の集合を、前記メインページの構成情報として生成する生成部と、前記メインページのURLが既知のフィッシングサイトのURLと一致する場合に、当該メインページの前記構成情報を、未知のフィッシングサイトを検出するためのシグネチャとして出力する出力部と、を備える。
【0009】
前記シグネチャ生成装置は、前記Webプロキシログの各レコードを、ユーザID毎に分類し、直前のレコードとのタイムスタンプの間隔が所定以上で、かつ、コンテンツの種類が所定のものであるレコードを、前記メインページとして特定する特定部を備え、前記生成部は、特定された前記メインページのレコードから続く、次のメインページの直前までのレコード群を、前記メインページに属するレコードとしてもよい。
【0010】
前記生成部は、前記トラフィック量における所定値未満の値を切り捨ててもよい。
【0011】
本発明に係る検出装置は、Webサイトにアクセスした際に生成されたWebプロキシログにおけるレコード群を、当該Webサイトのメインページに属するレコードとし、当該レコードそれぞれのコンテンツの種類、及びレスポンスのトラフィック量からなるリソース情報の集合を、前記メインページの構成情報として生成する生成部と、前記メインページの構成情報を、既知のフィッシングサイトの構成情報であるシグネチャと比較し、類似度が閾値以上である場合に、当該メインページをフィッシングサイトとして検出する検出部と、を備える。
【0012】
前記検出装置は、前記Webプロキシログの各レコードを、ユーザID毎に分類し、直前のレコードとのタイムスタンプの間隔が所定以上で、かつ、コンテンツの種類が所定のものであるレコードを、前記メインページとして特定する特定部を備え、前記生成部は、特定された前記メインページのレコードから続く、次のメインページの直前までのレコード群を、前記メインページに属するレコードとしてもよい。
【0013】
前記検出装置は、前記検出部によりフィッシングサイトとして検出された前記メインページのURLを、既知のフィッシングサイトのURLリストに追加登録する登録部を備えてもよい。
【0014】
前記生成部は、前記メインページのドメインが所定期間に出現した回数を計測し、当該回数が閾値以上の場合、前記構成情報を生成しなくてもよい。
【0015】
前記検出部は、前記メインページの構成情報のうち、前記既知のフィッシングサイトと共通する前記リソース情報の個数が閾値未満の場合、当該メインページを検出対象から除外してもよい。
【0016】
前記検出部は、前記既知のフィッシングサイトと共通する前記リソース情報のうち、所定以上のサイズのリソースに関するリソース情報の個数が閾値未満の場合に、前記メインページを検出対象から除外してもよい。
【0017】
前記生成部は、ユーザ端末からのリクエストを受けたWebプロキシサーバから、前記Webプロキシログを取得し、前記検出装置は、前記検出部による検出結果を前記Webプロキシサーバへ通知し、フィッシングサイトとして検出された前記メインページにおけるコンテンツの前記ユーザ端末への転送を停止させる通知部を備えてもよい。
【0018】
前記検出部は、前記類似度として、Jaccard係数を用いてもよい。
【0019】
本発明に係るシグネチャ生成プログラムは、前記シグネチャ生成装置としてコンピュータを機能させるためのものである。
【0020】
本発明に係る検出プログラムは、前記検出装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0021】
本発明によれば、Webプロキシログに通常記録されている情報のみを用いて、未知のフィッシングサイトを検出できるシステムを提供できる。
【図面の簡単な説明】
【0022】
【
図1】第1実施形態における解析システムの機能構成を示す図である。
【
図2】第2実施形態における解析システムの機能構成を示す図である。
【
図3】第3実施形態における解析システムの機能構成を示す図である。
【
図4】第4実施形態における解析システムの機能構成を示す図である。
【発明を実施するための形態】
【0023】
[第1実施形態]
以下、本発明の第1実施形態について説明する。
第1実施形態では、Webプロキシログと既知のフィッシングサイトのURLとを入力とし、Webプロキシログ内に存在する未知のフィッシングサイトのURLを検出して出力するシステムを提供する。
【0024】
図1は、本実施形態における解析システム1aの機能構成を示す図である。
解析システム1aは、検出装置10aと、Webプロキシサーバ20とを備え、両者は、ネットワークを介して互いに接続される。
【0025】
検出装置10aは、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部11a及び記憶部12aの他、各種データの入出力デバイス及び通信デバイス等を備える。
【0026】
Webプロキシサーバ20は、内部ネットワークからインターネットへの通信を中継する装置である。具体的には、ネットワーク内のユーザ端末があるWebサイトを閲覧する場合、ユーザ端末からのリクエストをWebプロキシサーバ20が中継して、目的のWebサイトにリクエストを出す。そして、Webサイトからのレスポンス(コンテンツ)をWebプロキシサーバ20が受け、要求元であるユーザ端末にコンテンツを提供する。
このとき、Webプロキシサーバ20は、Webサイトへのアクセスに関する情報をWebアクセスログとして記憶し、検出装置10aに提供する。
【0027】
検出装置10aの制御部11aは、記憶部12aに格納されたソフトウェア(検出プログラム)を読み出して実行することにより、生成部111、特定部112、出力部113、検出部114、及び登録部115として機能する。
【0028】
生成部111は、ユーザ端末がWebサイトにアクセスした際に生成されたWebプロキシログを、Webプロキシサーバ20から取得する。そして、生成部111は、Webプロキシログにおけるレコード群を、このWebサイトのメインページに属するレコードとし、レコードそれぞれのコンテンツの種類、及びレスポンスのトラフィック量からなるリソース情報の集合を、メインページの特徴を示す構成情報として生成する。
なお、メインページとは、ユーザがハイパーリンクのクリック等で最初にアクセスするWebページのことをいう。
【0029】
このとき、生成部111は、HTTPヘッダの差分等によるトラフィック量の差異を加味して、レスポンスのトラフィック量における所定値未満の値を切り捨ててもよい。生成部111は、例えば、トラフィック量の百の位より下位の数値(100バイト未満)を切り捨ててもよい。
【0030】
これにより、生成部111は、例えば、コンテンツの種類がtext/html、レスポンスのトラフィック量が12345バイトのリソースに対して、リソース情報を「text/html-12300」と記述する。そして、生成部111は、次のようなメインページに属するレコードそれぞれのリソース情報の集合を、このメインページの構成情報とする。
{text/html-12300,image/gif-400,text/javascript-5600}
【0031】
生成部111は、メインページのドメインが月毎の1か月間、又は現在までの1か月間等の所定期間に出現した回数を計測し、この回数が閾値以上の場合、例えば月毎のアクセス数が10以上のドメインに属するURLをフィッシングサイトではないと判断し、構成情報の生成を省略してもよい。
【0032】
また、生成部111は、Webページの構成情報を生成するにあたり、Webアクセスにより構成されるリソースの特徴を効率的に取得するため、Webプロキシログの各レコードのうち、次の条件のいずれかを満たすレコードを除外してもよい。
・HTTPメソッドがGET又はCONNECT以外である。
・URLに記載のスキームがhttp又はhttps以外である。
・URLのドメインが例えば、Webページのアクセス解析用、広告用、及び広く普及しているWebサービス用等、予め設定された所定のドメインと一致する。
・ユーザIDの記載がない。
・HTTPレスポンスコードがエラーのステータス(400番台、500番台)である。
【0033】
なお、生成部111は、Webプロキシサーバ20がHTTPSに対応していない場合、HTTPSによる通信においてコンテンツの種類を取得できない。この場合、HTTPSによる通信におけるコンテンツの種類は、一律「https」のようにHTTPSによる通信である旨を示す識別子で代用してもよい。
【0034】
特定部112は、Webプロキシログが複数のWebページへのアクセスの情報を含んでいる場合に、Webサイトへのアクセス毎のレコード群を抽出するため、メインページのレコードを特定する。
具体的には、特定部112は、まず、Webプロキシログの各レコードを、Webサイトへアクセスしたクライアントを特定する識別子(ユーザID)毎に分類する。特定部112は、分類した各ユーザのレコードの集合の中で、次の2つの条件を満たすレコードを、Webサイトのメインページとして特定する。
・直前のレコードとのタイムスタンプの間隔が所定値(例えば、1秒)以上である。
・コンテンツの種類が所定のもの(例えば、「text/html」又は「https」)である。
【0035】
これにより、生成部111は、特定部112により特定されたメインページのレコードから続く、次のメインページの直前までのレコード群を、メインページに属するレコードとして処理する。
【0036】
出力部113は、メインページのURLがブラックリストに記述されている既知のフィッシングサイトのURLのいずれかと一致する場合に、このメインページの構成情報を、未知のフィッシングサイトを検出するためのシグネチャとして出力する。
【0037】
検出部114は、メインページの構成情報を、出力部113により出力された既知のフィッシングサイトの構成情報であるシグネチャと比較し、類似度が閾値以上である場合に、このメインページを未知のフィッシングサイトとして検出する。
検出部114は、構成情報の類似度として、例えば、Aをシグネチャ、Bを検出対象のWebページの構成情報とすると、次の式で定義されるJaccard係数J(A,B)を用いることができる。
J(A,B)=|A∩B|/|A∪B|
【0038】
ここで、検出部114は、検出対象のメインページの構成情報のうち、既知のフィッシングサイトと共通するリソース情報の個数(|A∩B|)が閾値未満の場合、このメインページを検出対象から除外してもよい。
さらに、検出部114は、既知のフィッシングサイトと共通するリソース情報のうち、所定以上のサイズのリソースに関するリソース情報の個数が閾値未満の場合に、このメインページを検出対象から除外してもよい。
【0039】
登録部115は、検出部114により未知のフィッシングサイトとして検出されたメインページのURLを、既知のフィッシングサイトのURLが記述されたブラックリストに追加登録する。
【0040】
[第2実施形態]
以下、本発明の第2実施形態について説明する。
第2実施形態では、既知のフィッシングサイトのURLを入力とし、このURLへのアクセスによって生成されたWebプロキシログから、既知のフィッシングサイトのシグネチャを出力するシステムを提供する。
【0041】
図2は、本実施形態における解析システム1bの機能構成を示す図である。
解析システム1bは、シグネチャ生成装置10bを備える。
【0042】
シグネチャ生成装置10bは、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部11b及び記憶部12bの他、各種データの入出力デバイス及び通信デバイス等、さらには、Webプロキシサーバ20及びWebクローラ30を備える。
なお、Webプロキシサーバ20及びWebクローラ30は、シグネチャ生成装置10bとは別の装置として実装され、互いに通信接続されてもよい。
【0043】
Webクローラ30は、ブラックリストに含まれる既知のフィッシングサイトのURLが入力されると、Webプロキシサーバ20に対して、このURLへアクセスを要求する。
【0044】
Webプロキシサーバ20は、第1実施形態と同様に、Webクローラ30からのリクエストに応じて、対象のURLへアクセスし、この際にWebプロキシログを生成すると、制御部11bへ提供する。
【0045】
シグネチャ生成装置10bの制御部11bは、記憶部12bに格納されたソフトウェア(シグネチャ生成プログラム)を読み出して実行することにより、生成部111、及び出力部113として機能する。
【0046】
生成部111は、Webプロキシサーバ20から、Webプロキシログを取得すると、第1実施形態と同様に、入力された既知のフィッシングサイトのURLに対応するメインページの構成情報を生成する。
出力部113は、生成された構成情報を、第1実施形態と同様に、未知のフィッシングサイトを検出するためのシグネチャとして出力する。
【0047】
[第3実施形態]
以下、本発明の第3実施形態について説明する。
第3実施形態では、Webプロキシログと、第2実施形態により生成される既知のフィッシングサイトのシグネチャを入力として、Webプロキシログ内の未知のフィッシングサイトのURLを出力するシステムを提供する。
【0048】
図3は、本実施形態における解析システム1cの機能構成を示す図である。
解析システム1cは、検出装置10cと、Webプロキシサーバ20とを備え、両者は、ネットワークを介して互いに接続される。
【0049】
検出装置10cは、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部11c及び記憶部12cの他、各種データの入出力デバイス及び通信デバイス等を備える。
【0050】
検出装置10cの制御部11cは、記憶部12cに格納されたソフトウェア(検出プログラム)を読み出して実行することにより、生成部111、特定部112、検出部114、及び登録部115として機能する。
【0051】
生成部111は、第1実施形態と同様に、ユーザ端末がWebサイトにアクセスした際に生成されたWebプロキシログを、Webプロキシサーバ20から取得する。そして、生成部111は、Webプロキシログにおけるレコード群を、このWebサイトのメインページに属するレコードとし、レコードそれぞれのコンテンツの種類、及びレスポンスのトラフィック量からなるリソース情報の集合を、メインページの特徴を示す構成情報として生成する。
【0052】
特定部112は、第1実施形態と同様に、Webプロキシログが複数のWebページへのアクセスの情報を含んでいる場合に、Webサイトへのアクセス毎のレコード群を抽出するため、メインページのレコードを特定する。
【0053】
検出部114は、第1実施形態と同様に、メインページの構成情報を、入力された既知のフィッシングサイトの構成情報であるシグネチャと比較し、類似度が閾値以上である場合に、このメインページを未知のフィッシングサイトとして検出する。
【0054】
なお、検出部114は、構成情報をシグネチャと照合する前に、既知のフィッシングサイトのURLが記述されたブラックリストを参照し、メインページのURLがこのブラックリストに含まれる場合に、メインページをフィッシングサイトとして検出してもよい。
【0055】
登録部115は、検出部114により未知のフィッシングサイトとして検出されたメインページのURLを、既知のフィッシングサイトのURLが記述されたブラックリストに追加登録する。
【0056】
[第4実施形態]
以下、本発明の第4実施形態について説明する。
第4実施形態では、ユーザ端末からのリクエストに応じてインターネットにアクセスし、既知のフィッシングサイトのシグネチャに基づいてアクセス先がフィッシングサイトであることを検出した場合に、ユーザ端末へのコンテンツの転送を停止するシステムを提供する。
【0057】
図4は、本実施形態における解析システム1dの機能構成を示す図である。
解析システム1dは、検出装置10dを備える。
【0058】
検出装置10dは、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部11d及び記憶部12dの他、各種データの入出力デバイス及び通信デバイス等、さらには、Webプロキシサーバ20を備える。
なお、Webプロキシサーバ20は、検出装置10dとは別の装置として実装され、互いに通信接続されてもよい。
【0059】
Webプロキシサーバ20は、第1実施形態と同様に、ユーザ端末からのリクエストに応じて、対象のURLへアクセスし、この際にWebプロキシログを生成すると、制御部11dへ提供する。
また、Webプロキシサーバ20は、対象のURLからコンテンツを取得すると、制御部11dによるフィッシングサイトであるか否かの検出結果に応じて、ユーザ端末に対して、警告画面又はコンテンツのいずれかを出力する。すなわち、Webプロキシサーバ20は、通常、Webサイトからのレスポンスをユーザ端末へ転送するが、Webサイトがフィッシングサイトであると検出されると、コンテンツの転送を停止し警告画面を出力する。
【0060】
検出装置10dの制御部11dは、記憶部12dに格納されたソフトウェア(検出プログラム)を読み出して実行することにより、生成部111、検出部114、及び通知部116として機能する。
【0061】
生成部111は、Webプロキシサーバ20から、Webプロキシログを取得すると、ユーザ端末からリクエストされたURLに対応するメインページの構成情報を生成する。
【0062】
検出部114は、第1実施形態と同様に、メインページの構成情報を、入力された既知のフィッシングサイトの構成情報であるシグネチャと比較し、類似度が閾値以上である場合に、このメインページを未知のフィッシングサイトとして検出する。
なお、既知のフィッシングサイトのシグネチャは、ブラックリストから第1実施形態又は第2実施形態と同様にして生成されてもよい。
【0063】
通知部116は、検出部114による検出結果をWebプロキシサーバ20へ通知し、フィッシングサイトとして検出されたメインページにおけるコンテンツのユーザ端末への転送を停止させる。
【0064】
前述の実施形態によれば、解析システム1(1a~1d)は、Webプロキシログに記載されている情報から、各Webページを構成するコンテンツの種類及びトラフィック量からなる構成情報を生成する。
【0065】
シグネチャ生成装置10bは、既知のフィッシングサイトのURLに相当するWebページの構成情報を、未知のフィッシングサイトを検出するために照合するためのシグネチャとして出力する。
検出装置10a、10c、10dは、このようにして生成されたシグネチャと、ユーザがアクセスしたWebページの構成情報とを比較し、類似性が所定以上の場合に未知のフィッシングサイトとして検出する。
【0066】
したがって、解析システム1(1a~1d)は、Webプロキシログに通常記録されている情報のみを用いて、未知のフィッシングサイトを検出できるシステムを提供できる。
また、解析システム1は、検出対象を、URLの文字列が既知のフィッシングサイトと類似しているフィッシングサイトに限定することなく、構成情報が類似しているWebサイトを広く検出できる。
さらに、HTTPトラフィックデータからWebサイト間のリダイレクト遷移の関係を示す情報を十分に取得できない場合においても、解析システム1は、Webプロキシログに通常記録されている情報のみを用いてWebページの構成情報を生成でき、未知のフィッシングサイトを検知できる。
【0067】
また、解析システム1は、Webプロキシログの各レコードを、ユーザID毎に分類し、直前のレコードとのタイムスタンプの間隔が所定以上で、かつ、コンテンツの種類が所定のものであるレコードを、メインページとして特定する。
これにより、特定されたメインページのレコードから続く、次のメインページの直前までのレコード群を、メインページに属するレコードとすることで、解析システム1は、Webページ毎リソース情報を容易に区別し、構成情報を適切に生成できる。
【0068】
解析システム1は、トラフィック量における所定値未満の値を切り捨ててリソース情報とする。これにより、HTTPヘッダの差分等による差異を吸収して、適切に構成情報の類似性が算出される。
【0069】
解析システム1は、構成情報に基づいてフィッシングサイトとして検出したWebページのURLを、既知のフィッシングサイトのURLを記述したブラックリストに追加してもよい。
これにより、解析システム1は、URLに基づいて検出できるフィッシングサイトの数を自動で拡張することができる。この結果、解析システム1は、構成情報に基づく検出の前にURLに基づく検出を行うことで、同一のURLに対する重複した処理を削減し、処理負荷を低減できる。
【0070】
解析システム1は、Webページのドメインが所定期間に出現した回数を計測し、この回数が閾値以上の場合、このWebページをフィッシングサイトの検出対象から除外する。
したがって、解析システム1は、頻繁にアクセスされるWebページを通常の良性サイトと判断して、誤検出を抑制すると共に、処理負荷を低減できる。
【0071】
解析システム1は、Webページの構成情報のうち、既知のフィッシングサイトのシグネチャと共通するリソース情報の個数が閾値未満の場合、このWebページを検出対象から除外する。
これにより、解析システム1は、僅かなリソースの偶然の一致による誤検出を抑制できる。
さらに、解析システム1は、所定以上のサイズのリソースに関するリソース情報の個数が閾値未満の場合に、Webページを検出対象から除外することで、識別性の低いリソース情報による判定を行わず、例えば画像がファビコンだけのようなサイトを除外して、シグネチャとの偶然の一致による誤検出を抑制できる。
【0072】
解析システム1は、フィッシングサイトとして検出されたWebページからユーザ端末へのコンテンツの転送を停止することにより、ユーザ端末からのリクエストに応じて、適時にフィッシングサイトであるか否かを判断して悪性サイトの表示を抑制できる。
【0073】
解析システム1は、構成情報の類似度として、Jaccard係数を用いることにより、容易にシグネチャとの適切な類似判定を行うことができる。
【0074】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0075】
解析システム1におけるシグネチャ生成方法及びフィッシングサイトの検出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0076】
1a、1b、1c、1d 解析システム
10a 検出装置(シグネチャ生成装置)
10b シグネチャ生成装置
10c 検出装置
10d 検出装置
11a、11b、11c、11d 制御部
12a、12b、12c、12d 記憶部
20 Webプロキシサーバ
30 Webクローラ
111 生成部
112 特定部
113 出力部
114 検出部
115 登録部
116 通知部