特許7028699 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社構造計画研究所の特許一覧

特許7028699悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-02-21

(45)【発行日】2022-03-02

(54)【発明の名称】悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラム

(51)【国際特許分類】

G06F 21/44 20130101AFI20220222BHJP

G06F 21/62 20130101ALI20220222BHJP

【ＦＩ】

G06F21/44

G06F21/62

【請求項の数】 6

(21)【出願番号】P 2018078760

(22)【出願日】2018-04-16

(65)【公開番号】P2019185624

(43)【公開日】2019-10-24

【審査請求日】2021-01-27

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究／Ｗｅｂ媒介型攻撃対策技術の実用化に向けた研究開発」、産業技術力強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】591280197

【氏名又は名称】株式会社構造計画研究所

(74)【代理人】

【識別番号】100126468

【弁理士】

【氏名又は名称】田久保泰夫

(72)【発明者】

【氏名】嶌田一郎

(72)【発明者】

【氏名】太田敏史

【審査官】平井誠

(56)【参考文献】

【文献】特開２０１５－１７９４１６（ＪＰ，Ａ）

【文献】特開２００９－１５１７２３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ２１／００－８８

(57)【特許請求の範囲】

【請求項1】

端末が所定期間内にウェブサイトに接続した第１アクセスログと、端末が前記所定期間後にウェブサイトに接続した第２アクセスログとが記憶される記憶部と、
前記第２アクセスログに基づいて、悪性ウェブサイトのＵＲＬ（Uniform Resource Locator）を抽出する制御部とを備え、
前記制御部は、
前記第２アクセスログから前記第１アクセスログに含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出部と、
前記第１抽出部が抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出部と、
前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる文字の含有率に基づいてＵＲＬを抽出する第３抽出部と、
を有し、前記第３抽出部が抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出する
ことを特徴とする悪性ウェブサイト検出装置。

【請求項2】

請求項１に記載の悪性ウェブサイト検出装置において、
前記第３抽出部は、
前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる数字の含有率が９％～２６％であるＵＲＬを抽出する第３ａ抽出部と、
前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる大文字アルファベットの含有率が１９％～３８％であるＵＲＬを抽出する第３ｂ抽出部と、
前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる小文字アルファベットの含有率が３５％～５０％であるＵＲＬを抽出する第３ｃ抽出部と、
前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる特殊文字の含有率が６％～９％を抽出する第３ｄ抽出部と、
のうち、少なくとも２つの抽出部を有する
ことを特徴とする悪性ウェブサイト検出装置。

【請求項3】

請求項１に記載の悪性ウェブサイト検出装置において、
前記第３抽出部は、
前記第２抽出部が抽出したＵＲＬから、特定の文字列を含むＵＲＬを抽出する第３ｅ抽出部を有することを特徴とする悪性ウェブサイト検出装置。

【請求項4】

請求項１～３のいずれか１項に記載の悪性ウェブサイト検出装置において、
前記第３抽出部が抽出したＵＲＬを有する判定サーバを備え、
端末がウェブサイトに接続する場合に、前記端末が前記判定サーバに前記ウェブサイトのＵＲＬを送信し、前記判定サーバで前記ウェブサイトの悪性ウェブサイトの当否を判定することを特徴とする悪性ウェブサイト検出装置。

【請求項5】

コンピュータで実行される悪性ウェブサイト検出方法であって、
第１アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第２アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、
前記第２アクセスログから前記第１アクセスログに含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出工程と、
前記第１抽出工程で抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出工程と、
前記第２抽出工程で抽出したＵＲＬから、前記ＵＲＬに含まれる文字の含有率に基づいてＵＲＬを抽出する第３抽出工程とを、
を備え、
前記第３抽出工程で抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出する
ことを特徴とする悪性ウェブサイト検出方法。

【請求項6】

第１アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第２アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、
前記第２アクセスログから前記第１アクセスログに含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出工程と、
前記第１抽出工程で抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出工程と、
前記第２抽出工程で抽出したＵＲＬから、前記ＵＲＬに含まれる文字の含有率に基づいてＵＲＬを抽出する第３抽出工程とを、
コンピュータに実行させ、前記第３抽出工程で抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出する
ことを特徴とする悪性ウェブサイト検出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、悪性ウェブサイトのＵＲＬ（Uniform Resource Locator）を検出する悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラムに関する。

【背景技術】

【0002】

従来、端末やソフトウェアの脆弱性を攻撃して、端末をハッキングするプログラムとしてエクスプロイトキット（Exploit Kit）が知られている。エクスプロイトキットが設置されている悪性ウェブサイトをリスト化して、端末の利用者が、前記悪性ウェブサイトへの接続の回避が行われている。

【0003】

この悪性ウェブサイトをリスト化するために、悪性ウェブサイトのＵＲＬである悪性ＵＲＬに含まれる任意の文字列を組み合わせてリストを生成する、リスト生成装置が知られている（特許文献１参照）。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１２－１１８７１３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１のリスト生成装置では、悪性ウェブサイトを継続的に観測し、悪性ＵＲＬのリストを更新する必要があり、膨大な人的労力を要する。また、悪性ウェブサイトの判定は、膨大なウェブコンテンツを取得、分析する必要があり、作業が非常に煩雑なる。さらに、一般に同一のドメイン又はＵＲＬで悪性ウェブサイトが活動する時間は、数時間から１日以内と短い場合が多く、リストの更新は、精度の高いリストの更新は困難である。

【0006】

本発明は、上記の課題を考慮してなされたものであって、効率的に悪性ウェブサイトのＵＲＬを検出できる悪性ウェブサイト検出装置、悪性ウェブサイト検出方法、悪性ウェブサイト検出プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本発明に係る悪性ウェブサイト検出装置は、端末が所定期間内にウェブサイトに接続した第１アクセスログと、端末が前記所定期間後にウェブサイトに接続した第２アクセスログとが記憶される記憶部と、前記第２アクセスログに基づいて、悪性ウェブサイトのＵＲＬ（Uniform Resource Locator）を抽出する制御部とを備え、前記制御部は、前記第２アクセスログから前記第１アクセスログに含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出部と、前記第１抽出部が抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出部と、前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる文字の含有率に基づいてＵＲＬを抽出する第３抽出部と、を有し、前記第３抽出部が抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出することを特徴とする。

【0008】

前記悪性ウェブサイト検出装置において、前記第３抽出部は、前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる数字の含有率が９％～２６％であるＵＲＬを抽出する第３ａ抽出部と、前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる大文字アルファベットの含有率が１９％～３８％であるＵＲＬを抽出する第３ｂ抽出部と、前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる小文字アルファベットの含有率が３５％～５０％であるＵＲＬを抽出する第３ｃ抽出部と、前記第２抽出部が抽出したＵＲＬから、前記ＵＲＬに含まれる特殊文字の含有率が６％～９％を抽出する第３ｄ抽出部と、のうち、少なくとも２つの抽出部を有することを特徴とする。

【0009】

前記悪性ウェブサイト検出装置において、前記第３抽出部は、前記第２抽出部が抽出したＵＲＬから、特定の文字列を含むＵＲＬを抽出する第３ｅ抽出部を有することを特徴とする。

【0010】

前記悪性ウェブサイト検出装置において、前記第３抽出部が抽出したＵＲＬを有する判定サーバを備え、端末がウェブサイトに接続する場合に、前記端末が前記判定サーバに前記ウェブサイトのＵＲＬを送信し、前記判定サーバで前記ウェブサイトの悪性ウェブサイトの当否を判定することを特徴とする。

【0011】

本発明に係る悪性ウェブサイト検出方法は、コンピュータで実行される悪性ウェブサイト検出方法であって、第１アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第２アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第２アクセスログから前記第１アクセスログに含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出工程と、前記第１抽出工程で抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出工程と、前記第２抽出工程で抽出したＵＲＬから、前記ＵＲＬに含まれる文字の含有率に基づいてＵＲＬを抽出する第３抽出工程とを、を備え、前記第３抽出工程で抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出することを特徴とする。

【0012】

本発明に係る悪性ウェブサイト検出プログラムは、第１アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第２アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第２アクセスログから前記第１アクセスログに含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出工程と、前記第１抽出工程で抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出工程と、前記第２抽出工程で抽出したＵＲＬから、前記ＵＲＬに含まれる文字の含有率に基づいてＵＲＬを抽出する第３抽出工程とを、コンピュータに実行させ、前記第３抽出工程で抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出することを特徴とする。

【発明の効果】

【0013】

本発明の悪性ウェブサイト検出装置では、第１抽出部と第２抽出部と第３抽出部でウェブサイトのＵＲＬを抽出することにより、効率的に悪性ウェブサイトのＵＲＬを検出することができる。

【0014】

悪性ウェブサイト検出装置では、第３抽出部として、第３ａ抽出部、第３ｂ抽出部、第３ｃ抽出部、第３ｄ抽出部の少なくとも２つの処理部によりウェブサイトのＵＲＬを抽出することにより、さらに、効率的に悪性ウェブサイトのＵＲＬを検出することができる。

【0015】

悪性ウェブサイト検出装置では、第３抽出部として、第３ｅ抽出部によりウェブサイトのＵＲＬを抽出することにより、さらに、効率的に悪性ウェブサイトのＵＲＬを検出することができる。

【0016】

悪性ウェブサイト検出装置では、第１抽出部と第２抽出部と第３抽出部で悪性ウェブサイトのＵＲＬを検出することにより、端末が接続しようとするウェブサイトが悪性ウェブサイトであるか否かを知ることができる。

【図面の簡単な説明】

【0017】

【図1】本発明の実施形態に係る悪性ウェブサイト検出装置の説明図である。

【図2】図２Ａは第１アクセスログの説明図であり、図２ＢはＵＲＬリストの説明図である。

【図3】本発明の実施形態に悪性ウェブサイト検出装置の処理手順の説明図である。

【図4】ＵＲＬに含まれる数字の含有率、大文字アルファベットの含有率を変化させた場合のＵＲＬの分布を示した図である。

【図5】ＵＲＬに含まれる大文字アルファベットの含有率、小文字アルファベットの含有率を変化させた場合のＵＲＬの分布を示した図である。

【図6】各抽出工程で、抽出されたＵＲＬ数を示した図である

【図7】各抽出工程で、抽出されたＵＲＬ数を示した図である。

【図8】本発明の実施形態の変形例に係る悪性ウェブサイト検出システムの説明図である。

【図9】本発明の実施形態の変形例に係る悪性ウェブサイト検出システムの処理手順の説明図である。

【図10】悪性ウェブサイト検出装置の機能を実現するコンピュータの一例を示すハードウェアの説明図である。

【発明を実施するための形態】

【0018】

以下に、本願にかかる悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラムを実施するための形態（以下、「実施形態」という）について、図面を参照しつつ詳細に説明する。図１は、本発明の実施形態に係る悪性ウェブサイト検出装置１０の説明図であり、図２Ａは第１アクセスログ２２の説明図であり、図２ＢはＵＲＬリスト２６の説明図である。

【0019】

＜悪性ウェブサイト検出装置１０の構成の説明＞
悪性ウェブサイト検出装置１０は、記憶部２０、制御部３０及び通信部４０を備える。記憶部２０は、第１アクセスログ２２、第２アクセスログ２４及びＵＲＬリスト２６を備える。

【0020】

第１アクセスログ２２は、利用者が端末によって、所定期間内にウェブサイトに接続したアクセスログである。具体的には、アクセス時刻、利用者ＩＤ、アクセス先のＵＲＬ、アクセス先ドメイン名を備える。

【0021】

第２アクセスログ２４は、第１アクセスログ２２を取得するための前記所定期間経過後に、利用者が端末によって、所定期間内にウェブサイトに接続したアクセスログである。

【0022】

ＵＲＬリスト２６は、悪性ウェブサイトのＵＲＬである可能性が高いＵＲＬを示すリストである。なお、前記ＵＲＬには、ドメインも含まれる。

【0023】

図２Ａに示されるように第１アクセスログ２２では、アクセス時刻として、xx:xx:xx、利用者ＩＤとして、ＩＤ１、アクセス先のＵＲＬとして、http://www.yyy.yyy/yyy.html、アクセス先ドメイン名として、yyy.yyyが記録されている。

【0024】

制御部３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって構成される。制御部３０は、悪性ウェブサイト検出装置１０内の記憶装置に記憶されている各種プログラムがＲＡＭ（Random Access Memory）上にロードされて、実行される。制御部３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。制御部３０は、第１抽出部３２、第２抽出部３４及び第３抽出部３６を備える。

【0025】

第１抽出部３２は、第２アクセスログ２４から第１アクセスログ２２に含まれないＵＲＬを抽出し、かつ、ＵＲＬ長が所定数以上、例えば、２００文字以上のＵＲＬを抽出する機能を有する。

【0026】

第２抽出部３４は、第１抽出部３２が抽出したＵＲＬから、ＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する機能を有する。

【0027】

ここで、ＵＲＬエンコードとは、ＲＦＣ３９８６で規定されているＵＲＩ（Uniform Resource Identifier）において使用できない文字を使う際に行われる符号化であるパーセントエンコーディング（Percent Eencoding）と、ＨＴＭＬのＦｏｒｍで送信するデータ種類の一種である、application/x-www-form-urlencodedの仕様として規定されている符号化を意味する。

【0028】

第３抽出部３６は、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ、第３ｃ抽出部３６ｃ、第３ｄ抽出部３６ｄ及び第３ｅ抽出部３６ｅを備える。

【0029】

第３ａ抽出部３６ａは、ＵＲＬに含まれる数字の含有率が９％～２６％であるＵＲＬを抽出する機能を有する。

【0030】

第３ｂ抽出部３６ｂは、ＵＲＬに含まれる大文字アルファベットの含有率が１９％～３８％であるＵＲＬを抽出する機能を有する。ここで、大文字アルファベットは、Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆであることが好ましい。

【0031】

第３ｃ抽出部３６ｃは、ＵＲＬに含まれる小文字アルファベットの含有率が３５％～５０％であるＵＲＬを抽出する機能を有する。

【0032】

第３ｄ抽出部３６ｄは、ＵＲＬに含まれる特殊文字の含有率が６％～９％であるＵＲＬを抽出する機能を有する。ここで、特殊文字とは、ＨＴＭＬにおいて、文字参照で表記される文字を意味する。

【0033】

制御部３０は、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ、第３ｃ抽出部３６ｃ、第３ｄ抽出部３６ｄのうち、少なくとも２以上の処理部、すなわち、第３ａ抽出部３６ａと第３ｂ抽出部３６ｂ、第３ａ抽出部３６ａと第３ｃ抽出部３６ｃ、第３ａ抽出部３６ａと第３ｄ抽出部３６ｄ、第３ｂ抽出部３６ｂと第３ｃ抽出部３６ｃ、第３ｂ抽出部３６ｂと第３ｄ抽出部３６ｄ、第３ｃ抽出部３６ｃと第３ｄ抽出部３６ｄ、第３ａ抽出部３６ａと第３ｂ抽出部３６ｂと第３ｃ抽出部３６ｃ、第３ａ抽出部３６ａと第３ｂ抽出部３６ｂと第３ｄ抽出部３６ｄ、第３ａ抽出部３６ａと第３ｃ抽出部３６ｃと第３ｄ抽出部３６ｄ、第３ｂ抽出部３６ｂと第３ｃ抽出部３６ｃと第３ｄ抽出部３６ｄ、第３ａ抽出部３６ａと第３ｂ抽出部３６ｂと第３ｃ抽出部３６ｃと第３ｄ抽出部３６ｄのいずれかの組み合わせによる処理を行う。

【0034】

第３ｅ抽出部３６ｅは、第２抽出部３４が抽出したＵＲＬから、特定の文字列を含むＵＲＬを抽出する機能を有する。ここで、特定の文字列としては、例えば、セキュリティ研究者であるBaber Pervez氏によって示された「Rig Exploit Kit malware URL Patterns」がある（以下、「Baber文字列パターン」という）。その一例としては、「Qc_Wfa,Qc_WYa,Qc_WZa,Qc_Wea,Qd_Wda,Qd_Wea,Qd_Wfa,QcvWda,QcvWea,QcvWfa,QcvWYa,QcvWZa,QdfWda,QdfWea,QdfWfa,QdfWYa,QdfWza,QdPWda,QdPWea,QdPWfa,QdPWYa,QdPWZa,QMrDYb,QMrLYb,QMrPYb,QMrTYb,QMrXYb,QMvWdb,QMvWeb,QMvWfb,QMvWYb,QMvWZb」の32パターンの文字列が知られている。

【0035】

通信部４０は、外部の端末やサーバ等の装置と通信するための機能を有する。

【0036】

＜悪性ウェブサイト検出装置１０の動作の説明＞
次に、悪性ウェブサイト検出装置１０の動作について、図３を用いて説明する。図３は、本発明の実施形態に係る悪性ウェブサイト検出装置１０の処理手順の説明図である。

【0037】

まず、予め取得していた第１アクセスログ２２が記憶部２０に記録される（ステップＳ１）。次に、第２アクセスログ２４が記憶部２０に記録される（ステップＳ２）。

【0038】

制御部３０は、第１抽出部３２によって、第２アクセスログ２４から第１アクセスログ２２に含まれないＵＲＬであって、かつ、ＵＲＬ長が所定数以上、例えば、２００文字以上であるＵＲＬを抽出する（ステップＳ３）。

【0039】

一般に同一のドメイン又はＵＲＬで悪性ウェブサイトが活動する時間は、数時間から１日以内と短い場合が多いことを、発明者は見いだした。従って、第１アクセスログ２２で取得されたＵＲＬの悪性ウェブサイトは、その後、消滅している可能性が高いので、第２アクセスログ２４から第１アクセスログ２２に含まれないＵＲＬを抽出することにより、悪性ウェブサイトではないウェブサイトのＵＲＬを取り除くことができる。

【0040】

制御部３０は、第１抽出部３２が抽出したＵＲＬから、第２抽出部３４によって、ＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する（ステップＳ４）。

【0041】

制御部３０は、第２抽出部３４が抽出したＵＲＬから、第３抽出部３６によってＵＲＬを抽出する（ステップＳ５）。具体的には、制御部３０は、第２抽出部３４が抽出したＵＲＬから、第３ａ抽出部３６ａによって、前記ＵＲＬに含まれる数字の含有率が９％～２６％であるＵＲＬを抽出する。さらに、第３ａ抽出部３６ａが抽出したＵＲＬから、第３ｂ抽出部３６ｂによってＵＲＬに含まれる大文字アルファベット（Ａ～Ｆ）の含有率が１９％～３８％であるＵＲＬを抽出する。

【0042】

制御部３０は、第３抽出部３６によって抽出したＵＲＬをＵＲＬリスト２６として、記憶部２０に記憶する（ステップＳ６）。

【0043】

ここで、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂによって抽出されたＵＲＬリスト２６のＵＲＬについて、悪性ウェブサイトのＵＲＬの当否の結果を示す。図４は、ステップＳ４において、抽出されたＵＲＬにおいて、ＵＲＬに含まれる数字の含有率、大文字アルファベットの含有率を変化させた場合のＵＲＬの分布を示した図である。縦軸は、ＵＲＬに含まれる大文字の含有率を示し、横軸は、ＵＲＬに含まれる数字の含有率を示す。

【0044】

図４においては、Baber文字列パターンと、ステップＳ４において抽出されたＵＲＬとを照合すると、線で囲んだ範囲、すなわち、ＵＲＬに含まれる数字の含有率が９％～２６％、大文字アルファベット（Ａ～Ｆ）の含有率が１９％～３８％のＵＲＬが悪性ウェブサイトであるとことがわかった。

【0045】

ステップＳ５においては、第３ａ抽出部３６ａと第３ｂ抽出部３６ｂにより、ＵＲＬを抽出している。制御部３０は、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ、第３ｃ抽出部３６ｃ、第３ｄ抽出部３６ｄのうち、少なくとも２以上の処理部によりＵＲＬを抽出できれば、これに限定されるものではない。

【0046】

例えば、第３ｂ抽出部３６ｂと第３ｃ抽出部３６ｃにより、ＵＲＬを抽出してもよい。具体的には、ステップＳ５において、制御部３０は、第２抽出部３４が抽出したＵＲＬから、第３ｂ抽出部３６ｂによって、ＵＲＬに含まれる大文字アルファベット（Ａ～Ｆ）の含有率が１９％～３８％であるＵＲＬを抽出する。さらに、第３ｂ抽出部３６ｂが抽出したＵＲＬから、第３ｃ抽出部３６ｃによって、ＵＲＬに含まれる小文字アルファベットの含有率が３５％～５０％であるＵＲＬを抽出する。

【0047】

ここで、第３ｂ抽出部３６ｂ、第３ｃ抽出部３６ｃによって抽出されたＵＲＬリスト２６のＵＲＬについて、悪性ウェブサイトの当否の結果を示す。図５は、ステップＳ４において、抽出されたＵＲＬから、ＵＲＬに含まれる大文字アルファベットの含有率、小文字アルファベットの含有率を変化させた場合のＵＲＬの分布を示す図である。縦軸は、ＵＲＬに含まれる小文字の含有率を示し、横軸は、ＵＲＬに含まれる大文字の含有率を示す。

【0048】

図５においては、Baber文字列パターンと、ステップＳ４において抽出されたＵＲＬとを照合すると、線で囲んだ範囲、すなわち、ＵＲＬに含まれる大文字アルファベット（Ａ～Ｆ）含有率が１９％～３８％、子文字アルファベットの含有率が３５％～５０％のＵＲＬが悪性ウェブサイトであるとことがわかった。

【0049】

また、異なる３日間で、第２抽出部３４が抽出したＵＲＬから、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ及び第３ｃ抽出部３６ｃによって、ＵＲＬを抽出する実験１～３の３回の実験をした。図６は、各抽出工程で、抽出されたＵＲＬ数を示した図である。

【0050】

実験１で取得した全ＵＲＬ数は、１３２４５２２３０個であった。これに対して、ステップＳ３で、第１抽出部３２によって抽出したＵＲＬ数は１０２０７個、ステップＳ４で、第２抽出部３４によって抽出したＵＲＬ数は２９６０個であった。ステップＳ５で、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ及び第３ｃ抽出部３６ｃによって抽出したＵＲＬ数は４９３個であった。この第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ及び第３ｃ抽出部３６ｃによって抽出したＵＲＬについて、Baber文字列パターンと照合し、悪性ウェブサイトの検証をした。その結果、ＵＲＬ数４９３個に対して、悪性ウェブサイトのＵＲＬが１５３個含まれていた。

【0051】

同様に実験２では、第２抽出部３４が抽出したＵＲＬから、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ及び第３ｃ抽出部３６ｃによって抽出したＵＲＬについて、ＵＲＬ数２７３個に対して、悪性ウェブサイトのＵＲＬが１５個含まれていた。

【0052】

同様に実験３では、第２抽出部３４が抽出したＵＲＬから、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ及び第３ｃ抽出部３６ｃによって抽出したＵＲＬについて、ＵＲＬ数４４３個に対して、悪性ウェブサイトのＵＲＬが６８個含まれていた。

【0053】

さらに、ステップＳ４において、第２抽出部３４が抽出したＵＲＬから、特定の文字列、例えば、Baber文字列パターンを含むＵＲＬを抽出し、このＵＲＬを悪性ウェブサイトのＵＲＬとしてもよい。

【0054】

図７は、各抽出工程で、抽出されたＵＲＬ数を示した図であった。図７では、異なる３日間について、実験４～６の３回の実験をした。実験４～６で取得したＵＲＬは、各々実験１～３で取得したＵＲＬと同じものである。

【0055】

実験４で取得した全ＵＲＬ数は、１３２４５２２３０個であった。これに対して、ステップＳ３で、第１抽出部３２によって抽出したＵＲＬ数は１０２０７個、ステップＳ４で、第２抽出部３４によって抽出したＵＲＬ数は２９６０個であった。ステップＳ５で、第３ｅ抽出部３６ｅによって抽出したＵＲＬ数は１５４個であった。

【0056】

同様に実験５では、第２抽出部３４が抽出したＵＲＬから、第３ｅ抽出部３６ｅによって抽出したＵＲＬ数は２５であった。実験６では、第３ｅ抽出部３６ｅによって抽出したＵＲＬ数は９８であった。

【0057】

次に、本発明の実施形態の変形例について説明する。図８は、本発明の実施形態の変形例に係る悪性ウェブサイト検出システム１００の説明図であり、図９は、本発明の実施形態の変形例に係る悪性ウェブサイト検出システム１００の処理手順の説明図である。

【0058】

＜悪性ウェブサイト検出システム１００の構成の説明＞
悪性ウェブサイト検出システム１００は、悪性ウェブサイト検出装置１０Ａ、端末１２０、公衆回線１３０及び外部サーバ１４０を備える。悪性ウェブサイト検出装置１０Ａは、記憶部２０、制御部３０Ａ及び通信部４０を備える。制御部３０Ａは、悪性ウェブサイト検出装置１０の第３抽出部３６に判定部１１０が追加され、第３抽出部３６Ａとしている。なお、悪性ウェブサイト検出装置１０の構成要素と同一の機能を有する構成要素には、同一の参照符号を付し、詳細な説明は省略する。また、悪性ウェブサイト検出装置１０Ａには、端末１２０が公衆回線１３０を介して接続可能であり、また、端末１２０は、公衆回線１３０を介して外部サーバ１４０に接続可能である。

【0059】

判定部１１０は、端末１２０が接続するウェブサイトについて、ＵＲＬリスト２６に基づいて、悪性ウェブサイトの当否を判定する機能を有する。端末１２０は、通信機能を有する端末である。公衆回線１３０は、例えば、インターネット等で構成される。外部サーバ１４０は、ウェブサイトが存在するサーバである。

【0060】

＜悪性ウェブサイト検出システム１００の動作の説明＞
次に、悪性ウェブサイト検出システム１００の動作について、図９を用いて説明する。図９は、本発明の実施形態の変形例に係る悪性ウェブサイト検出システム１００の処理手順の説明図である。

【0061】

まず、悪性ウェブサイト検出装置１０Ａの制御部３０Ａは、上述したステップＳ１～Ｓ４の処理手順に従って、ＵＲＬリスト２６を生成し、記憶部２０に記憶する（ステップＳ１１）。

【0062】

次に、利用者は、接続するウェブサイトのＵＲＬを端末１２０に入力し、入力されたＵＲＬが、公衆回線１３０を介して悪性ウェブサイト検出装置１０Ａに送信される（ステップＳ１２）。

【0063】

制御部３０Ａは、通信部４０を介して、前記ＵＲＬを受信し、判定部１１０に供給する（ステップＳ１３）。

【0064】

判定部１１０は、受信したＵＲＬとＵＲＬリスト２６とを照合し、受信したＵＲＬが悪性ウェブサイトのＵＲＬであるか否かを判定する（ステップＳ１４）。受信したＵＲＬがＵＲＬリスト２６に記載のＵＲＬと一致した場合には、判定部１１０は、受信したＵＲＬが悪性ウェブサイトのＵＲＬであると判定する。一方、受信したＵＲＬがＵＲＬリスト２６に記載のＵＲＬと不一致の場合には、判定部１１０は、受信したＵＲＬが悪性ウェブサイトのＵＲＬでないと判定する。

【0065】

判定部１１０は、判定結果を通信部４０を介して、端末１２０に送信する（ステップＳ１５）。利用者は、端末１２０で受信した判定結果により、接続しようとするウェブサイトが悪性ウェブサイトであるか否かを知ることができる。

【0066】

上述した悪性ウェブサイト検出装置１０は、例えば、図１０に示すような構成のコンピュータ１０００によって実現される。図１０は、悪性ウェブサイト検出装置１０の機能を実現するコンピュータ１０００の一例を示すハードウェアの説明図である。コンピュータ１０００は、ＣＰＵ１０１０、ＲＡＭ１０２０、ＲＯＭ１０３０、補助記憶部１０４０、通信インターフェイス（通信Ｉ／Ｆ）１０５０、入出力インターフェイス（入出力Ｉ／Ｆ）１０６０、及び記憶媒体インターフェイス（記憶媒体Ｉ／Ｆ）１０７０を有する。これらの各部は、バス１０８０によって接続される。

【0067】

＜プログラムに係る実施形態の説明＞
ＣＰＵ１０１０は、ＲＯＭ１０３０又は補助記憶部１０４０に記憶されたプログラムに基づいて動作し、各部を制御する。ＲＯＭ１０３０には、コンピュータ１０００の起動時にＣＰＵ１０１０によって実行されるＢＩＯＳ（Basic Input Output System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等が記憶される。

【0068】

補助記憶部１０４０としては、例えば、ハードディスクドライブやソリッドステートドライブ（SSD:Solid State Drive）を用いることができる。また、補助記憶部１０４０には、ＣＰＵ１０１０によって実行されるプログラム、及び、前記プログラムによって使用されるデータ等が記憶されている。

【0069】

通信インターフェイス１０５０には、公衆回線１３０が接続される。通信インターフェイス１０５０は、公衆回線１３０を介して他の機器からデータを受信し、ＣＰＵ１０１０へ送信する。また、通信インターフェイス１０５０は、ＣＰＵ１０１０が生成したデータを、公衆回線１３０を介して他の機器へ送信する。

【0070】

入出力インターフェイス１０６０には、入力装置１０９０及び出力装置１１００が接続される。入力装置１０９０は、キーボードやマウス等で構成される。また、出力装置１１００は、ディスプレイやプリンタ等で構成される。ＣＰＵ１０１０は、入出力インターフェイス１０６０を介して、入力装置１０９０及び出力装置１１００を制御する。

【0071】

記憶媒体インターフェイス１０７０は、記憶媒体１１１０に記憶されたプログラム又はデータを読み取り、ＲＡＭ１０２０を介してＣＰＵ１０１０に提供する。なお、出力装置１１００は、例えば、ＤＶＤ、ＤＶＤ－ＲＡＭ、Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｋ等の光学記録媒体、フラッシュメモリ等の半導体メモリ、ＭＯ等の光磁気記録媒体、テープ媒体、磁気記録媒体等である。

【0072】

例えば、コンピュータ１０００がＣＰＵ１０１０として機能する場合、ＣＰＵ１０１０は、補助記憶部１０４０からプログラムを読み取り、ＲＡＭ１０２０上にロードされたプログラムを実行することにより、悪性ウェブサイト検出装置１０の機能を実現する。また、ＣＰＵ１０１０は、記憶媒体インターフェイス１０７０を介して、出力装置１１００からプログラムを読み取り、ＲＡＭ１０２０上にロードされたプログラムを実行することにより、悪性ウェブサイト検出装置１０の機能を実現してもよい。

【0073】

悪性ウェブサイト検出装置１０は、端末１２０が所定期間内にウェブサイトに接続した第１アクセスログ２２と、端末１２０が前記所定期間後にウェブサイトに接続した第２アクセスログ２４とが記憶される記憶部２０と、前記第２アクセスログ２４に基づいて、悪性ウェブサイトのＵＲＬ（Uniform Resource Locator）を抽出する制御部３０とを備え、前記制御部３０は、前記第２アクセスログ２４から前記第１アクセスログ２２に含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出部３２と、前記第１抽出部３２が抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出部３４と、前記第２抽出部３４が抽出したＵＲＬから、前記ＵＲＬに含まれる文字数の含有率に基づいてＵＲＬを抽出する第３抽出部３６と、を有し、前記第３抽出部３６が抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出する。

【0074】

悪性ウェブサイト検出装置１０では、第１抽出部３２と第２抽出部３４と第３抽出部３６でウェブサイトのＵＲＬを抽出することにより、効率的に悪性ウェブサイトのＵＲＬを検出することができる。

【0075】

悪性ウェブサイト検出装置１０において、前記第３抽出部３６は、前記第２抽出部３４が抽出したＵＲＬから、前記ＵＲＬに含まれる数字の含有率が９％～２６％であるＵＲＬを抽出する第３ａ抽出部３６ａと、前記第２抽出部３４が抽出したＵＲＬから、前記ＵＲＬに含まれる大文字アルファベットの含有率が１９％～３８％であるＵＲＬを抽出する第３ｂ抽出部３６ｂと、前記第２抽出部３４が抽出したＵＲＬから、前記ＵＲＬに含まれる小文字アルファベットの含有率が３５％～５０％であるＵＲＬを抽出する第３ｃ抽出部３６ｃと、前記第２抽出部３４が抽出したＵＲＬから、前記ＵＲＬに含まれる特殊文字の含有率が６％～９％を抽出する第３ｄ抽出部３６ｄと、のうち、少なくとも２つの処理部を有する。

【0076】

悪性ウェブサイト検出装置１０では、第３抽出部３６として、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ、第３ｃ抽出部３６ｃ、第３ｄ抽出部３６ｄの少なくとも２つの処理部によりウェブサイトのＵＲＬを抽出することにより、さらに、効率的に悪性ウェブサイトのＵＲＬを検出することができる。

【0077】

悪性ウェブサイト検出装置１０において、前記第３抽出部３６は、前記第２抽出部３４が抽出したＵＲＬから、特定の文字列を含むＵＲＬを抽出する第３ｅ抽出部３６ｅを有する。

【0078】

悪性ウェブサイト検出装置１０では、第２抽出部３４として、第３ｅ抽出部３６ｅによりウェブサイトのＵＲＬを抽出することにより、さらに、効率的に悪性ウェブサイトのＵＲＬを検出することができる。

【0079】

悪性ウェブサイト検出装置１０において、前記第３抽出部３６が抽出したＵＲＬを有する判定サーバを備え、端末１２０がウェブサイトに接続する場合に、前記端末１２０が前記判定サーバに前記ウェブサイトのＵＲＬを送信し、前記判定サーバで前記ウェブサイトの悪性ウェブサイトの当否を判定する。

【0080】

悪性ウェブサイト検出装置１０では、第１抽出部３２と第２抽出部３４と第３抽出部３６で悪性ウェブサイトのＵＲＬを検出することにより、端末１２０が接続しようとするウェブサイトが悪性ウェブサイトであるか否かを知ることができる。

【0081】

悪性ウェブサイト検出方法は、第１アクセスログ２２が、端末１２０が所定期間内にウェブサイトに接続したアクセスログであって、第２アクセスログ２４が、端末１２０が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第２アクセスログ２４から前記第１アクセスログ２２に含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出工程と、前記第１抽出工程で抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出工程と、前記第２抽出工程で抽出したＵＲＬから、前記ＵＲＬに含まれる文字数の含有率に基づいてＵＲＬを抽出する第３抽出工程とを、を備え、前記第３抽出工程で抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出する。

【0082】

悪性ウェブサイト検出プログラムは、第１アクセスログ２２が、端末１２０が所定期間内にウェブサイトに接続したアクセスログであって、第２アクセスログ２４が、端末１２０が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第２アクセスログ２４から前記第１アクセスログ２２に含まれないＵＲＬで、かつ、ＵＲＬ長が所定数以上のＵＲＬを抽出する第１抽出工程と、前記第１抽出工程で抽出したＵＲＬから、前記ＵＲＬにＵＲＬエンコードされた文字列を含まないＵＲＬを抽出する第２抽出工程と、前記第２抽出工程で抽出したＵＲＬから、前記ＵＲＬに含まれる文字数の含有率に基づいてＵＲＬを抽出する第３抽出工程とを、コンピュータに実行させ、前記第３抽出工程で抽出したＵＲＬに基づいて悪性ウェブサイトのＵＲＬを検出する。

【0083】

なお、本発明は、上述の実施形態に限らず、本発明の要旨を逸脱することなく、種々の構成を採り得ることはもちろんである。

【0084】

例えば、上述の実施形態では、ステップＳ５において、第３ａ抽出部３６ａによってＵＲＬを抽出した後に、第３ｂ抽出部３６ｂによって、さらにＵＲＬを抽出していたが、ＵＲＬの抽出処理の順序は、第３ｂ抽出部３６ｂによってＵＲＬを抽出した後に、第３ａ抽出部３６ａによって、さらにＵＲＬを抽出をしてもよい。同様に、ステップＳ５においては、第３ａ抽出部３６ａ、第３ｂ抽出部３６ｂ、第３ｃ抽出部３６ｃ、第３ｄ抽出部３６ｄによる抽出処理の順序は任意である。

【符号の説明】

【0085】

１０、１０Ａ…悪性ウェブサイト検出装置
２０…記憶部
２２…第１アクセスログ
２４…第２アクセスログ
２６…ＵＲＬリスト
３０、３０Ａ…制御部
３２…第１抽出部
３４…第２抽出部
３６、３６Ａ…第３抽出部
３６ａ…第３ａ抽出部
３６ｂ…第３ｂ抽出部
３６ｃ…第３ｃ抽出部
３６ｄ…第３ｄ抽出部
３６ｅ…第３ｅ抽出部
４０…通信部
１００…悪性ウェブサイト検出システム
１１０…判定部
１２０…端末
１３０…公衆回線
１４０…外部サーバ
１０００…コンピュータ
１０１０…ＣＰＵ
１０２０…ＲＡＭ
１０３０…ＲＯＭ
１０４０…補助記憶部
１０５０…通信インターフェイス（通信Ｉ／Ｆ）
１０６０…入出力インターフェイス（入出力Ｉ／Ｆ）
１０７０…記憶媒体インターフェイス（記憶媒体Ｉ／Ｆ）
１０８０…バス
１０９０…入力装置
１１００…出力装置
１１１０…記憶媒体

【図1】