(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-21
(45)【発行日】2022-03-02
(54)【発明の名称】悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラム
(51)【国際特許分類】
G06F 21/44 20130101AFI20220222BHJP
G06F 21/62 20130101ALI20220222BHJP
【FI】
G06F21/44
G06F21/62
(21)【出願番号】P 2018078760
(22)【出願日】2018-04-16
【審査請求日】2021-01-27
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成28年度、国立研究開発法人情報通信研究機構「高度通信・放送研究開発委託研究/Web媒介型攻撃対策技術の実用化に向けた研究開発」、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】591280197
【氏名又は名称】株式会社構造計画研究所
(74)【代理人】
【識別番号】100126468
【氏名又は名称】田久保 泰夫
(72)【発明者】
【氏名】嶌田 一郎
(72)【発明者】
【氏名】太田 敏史
【審査官】平井 誠
(56)【参考文献】
【文献】特開2015-179416(JP,A)
【文献】特開2009-151723(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/00-88
(57)【特許請求の範囲】
【請求項1】
端末が所定期間内にウェブサイトに接続した第1アクセスログと、端末が前記所定期間後にウェブサイトに接続した第2アクセスログとが記憶される記憶部と、
前記第2アクセスログに基づいて、悪性ウェブサイトのURL(Uniform Resource Locator)を抽出する制御部とを備え、
前記制御部は、
前記第2アクセスログから前記第1アクセスログに含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出部と、
前記第1抽出部が抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出部と、
前記第2抽出部が抽出したURLから、前記URLに含まれる文
字の含有率に基づいてURLを抽出する第3抽出部と、
を有し、前記第3抽出部が抽出したURLに基づいて悪性ウェブサイトのURLを検出する
ことを特徴とする悪性ウェブサイト検出装置。
【請求項2】
請求項1に記載の悪性ウェブサイト検出装置において、
前記第3抽出部は、
前記第2抽出部が抽出したURLから、前記URLに含まれる数字の含有率が9%~26%であるURLを抽出する第3a抽出部と、
前記第2抽出部が抽出したURLから、前記URLに含まれる大文字アルファベットの含有率が19%~38%であるURLを抽出する第3b抽出部と、
前記第2抽出部が抽出したURLから、前記URLに含まれる小文字アルファベットの含有率が35%~50%であるURLを抽出する第3c抽出部と、
前記第2抽出部が抽出したURLから、前記URLに含まれる特殊文字の含有率が6%~9%を抽出する第3d抽出部と、
のうち、少なくとも2つの
抽出部を有する
ことを特徴とする悪性ウェブサイト検出装置。
【請求項3】
請求項1に記載の悪性ウェブサイト検出装置において、
前記第3抽出部は、
前記第2抽出部が抽出したURLから、特定の文字列を含むURLを抽出する第3e抽出部を有することを特徴とする悪性ウェブサイト検出装置。
【請求項4】
請求項1~3のいずれか1項に記載の悪性ウェブサイト検出装置において、
前記第3抽出部が抽出したURLを有する判定サーバを備え、
端末がウェブサイトに接続する場合に、前記端末が前記判定サーバに前記ウェブサイトのURLを送信し、前記判定サーバで前記ウェブサイトの悪性ウェブサイトの当否を判定することを特徴とする悪性ウェブサイト検出装置。
【請求項5】
コンピュータで実行される悪性ウェブサイト検出方法であって、
第1アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第2アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、
前記第2アクセスログから前記第1アクセスログに含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出工程と、
前記第1抽出工程で抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出工程と、
前記第2抽出工程で抽出したURLから、前記URLに含まれる文
字の含有率に基づいてURLを抽出する第3抽出工程とを、
を備え、
前記第3抽出工程で抽出したURLに基づいて悪性ウェブサイトのURLを検出する
ことを特徴とする悪性ウェブサイト検出方法。
【請求項6】
第1アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第2アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、
前記第2アクセスログから前記第1アクセスログに含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出工程と、
前記第1抽出工程で抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出工程と、
前記第2抽出工程で抽出したURLから、前記URLに含まれる文
字の含有率に基づいてURLを抽出する第3抽出工程とを、
コンピュータに実行させ、前記第3抽出工程で抽出したURLに基づいて悪性ウェブサイトのURLを検出する
ことを特徴とする悪性ウェブサイト検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、悪性ウェブサイトのURL(Uniform Resource Locator)を検出する悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラムに関する。
【背景技術】
【0002】
従来、端末やソフトウェアの脆弱性を攻撃して、端末をハッキングするプログラムとしてエクスプロイトキット(Exploit Kit)が知られている。エクスプロイトキットが設置されている悪性ウェブサイトをリスト化して、端末の利用者が、前記悪性ウェブサイトへの接続の回避が行われている。
【0003】
この悪性ウェブサイトをリスト化するために、悪性ウェブサイトのURLである悪性URLに含まれる任意の文字列を組み合わせてリストを生成する、リスト生成装置が知られている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1のリスト生成装置では、悪性ウェブサイトを継続的に観測し、悪性URLのリストを更新する必要があり、膨大な人的労力を要する。また、悪性ウェブサイトの判定は、膨大なウェブコンテンツを取得、分析する必要があり、作業が非常に煩雑なる。さらに、一般に同一のドメイン又はURLで悪性ウェブサイトが活動する時間は、数時間から1日以内と短い場合が多く、リストの更新は、精度の高いリストの更新は困難である。
【0006】
本発明は、上記の課題を考慮してなされたものであって、効率的に悪性ウェブサイトのURLを検出できる悪性ウェブサイト検出装置、悪性ウェブサイト検出方法、悪性ウェブサイト検出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明に係る悪性ウェブサイト検出装置は、端末が所定期間内にウェブサイトに接続した第1アクセスログと、端末が前記所定期間後にウェブサイトに接続した第2アクセスログとが記憶される記憶部と、前記第2アクセスログに基づいて、悪性ウェブサイトのURL(Uniform Resource Locator)を抽出する制御部とを備え、前記制御部は、前記第2アクセスログから前記第1アクセスログに含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出部と、前記第1抽出部が抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出部と、前記第2抽出部が抽出したURLから、前記URLに含まれる文字の含有率に基づいてURLを抽出する第3抽出部と、を有し、前記第3抽出部が抽出したURLに基づいて悪性ウェブサイトのURLを検出することを特徴とする。
【0008】
前記悪性ウェブサイト検出装置において、前記第3抽出部は、前記第2抽出部が抽出したURLから、前記URLに含まれる数字の含有率が9%~26%であるURLを抽出する第3a抽出部と、前記第2抽出部が抽出したURLから、前記URLに含まれる大文字アルファベットの含有率が19%~38%であるURLを抽出する第3b抽出部と、前記第2抽出部が抽出したURLから、前記URLに含まれる小文字アルファベットの含有率が35%~50%であるURLを抽出する第3c抽出部と、前記第2抽出部が抽出したURLから、前記URLに含まれる特殊文字の含有率が6%~9%を抽出する第3d抽出部と、のうち、少なくとも2つの抽出部を有することを特徴とする。
【0009】
前記悪性ウェブサイト検出装置において、前記第3抽出部は、前記第2抽出部が抽出したURLから、特定の文字列を含むURLを抽出する第3e抽出部を有することを特徴とする。
【0010】
前記悪性ウェブサイト検出装置において、前記第3抽出部が抽出したURLを有する判定サーバを備え、端末がウェブサイトに接続する場合に、前記端末が前記判定サーバに前記ウェブサイトのURLを送信し、前記判定サーバで前記ウェブサイトの悪性ウェブサイトの当否を判定することを特徴とする。
【0011】
本発明に係る悪性ウェブサイト検出方法は、コンピュータで実行される悪性ウェブサイト検出方法であって、第1アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第2アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第2アクセスログから前記第1アクセスログに含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出工程と、前記第1抽出工程で抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出工程と、前記第2抽出工程で抽出したURLから、前記URLに含まれる文字の含有率に基づいてURLを抽出する第3抽出工程とを、を備え、前記第3抽出工程で抽出したURLに基づいて悪性ウェブサイトのURLを検出することを特徴とする。
【0012】
本発明に係る悪性ウェブサイト検出プログラムは、第1アクセスログが、端末が所定期間内にウェブサイトに接続したアクセスログであって、第2アクセスログが、端末が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第2アクセスログから前記第1アクセスログに含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出工程と、前記第1抽出工程で抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出工程と、前記第2抽出工程で抽出したURLから、前記URLに含まれる文字の含有率に基づいてURLを抽出する第3抽出工程とを、コンピュータに実行させ、前記第3抽出工程で抽出したURLに基づいて悪性ウェブサイトのURLを検出することを特徴とする。
【発明の効果】
【0013】
本発明の悪性ウェブサイト検出装置では、第1抽出部と第2抽出部と第3抽出部でウェブサイトのURLを抽出することにより、効率的に悪性ウェブサイトのURLを検出することができる。
【0014】
悪性ウェブサイト検出装置では、第3抽出部として、第3a抽出部、第3b抽出部、第3c抽出部、第3d抽出部の少なくとも2つの処理部によりウェブサイトのURLを抽出することにより、さらに、効率的に悪性ウェブサイトのURLを検出することができる。
【0015】
悪性ウェブサイト検出装置では、第3抽出部として、第3e抽出部によりウェブサイトのURLを抽出することにより、さらに、効率的に悪性ウェブサイトのURLを検出することができる。
【0016】
悪性ウェブサイト検出装置では、第1抽出部と第2抽出部と第3抽出部で悪性ウェブサイトのURLを検出することにより、端末が接続しようとするウェブサイトが悪性ウェブサイトであるか否かを知ることができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の実施形態に係る悪性ウェブサイト検出装置の説明図である。
【
図2】
図2Aは第1アクセスログの説明図であり、
図2BはURLリストの説明図である。
【
図3】本発明の実施形態に悪性ウェブサイト検出装置の処理手順の説明図である。
【
図4】URLに含まれる数字の含有率、大文字アルファベットの含有率を変化させた場合のURLの分布を示した図である。
【
図5】URLに含まれる大文字アルファベットの含有率、小文字アルファベットの含有率を変化させた場合のURLの分布を示した図である。
【
図6】各抽出工程で、抽出されたURL数を示した図である
【
図7】各抽出工程で、抽出されたURL数を示した図である。
【
図8】本発明の実施形態の変形例に係る悪性ウェブサイト検出システムの説明図である。
【
図9】本発明の実施形態の変形例に係る悪性ウェブサイト検出システムの処理手順の説明図である。
【
図10】悪性ウェブサイト検出装置の機能を実現するコンピュータの一例を示すハードウェアの説明図である。
【発明を実施するための形態】
【0018】
以下に、本願にかかる悪性ウェブサイト検出装置、悪性ウェブサイト検出方法及び悪性ウェブサイト検出プログラムを実施するための形態(以下、「実施形態」という)について、図面を参照しつつ詳細に説明する。
図1は、本発明の実施形態に係る悪性ウェブサイト検出装置10の説明図であり、
図2Aは第1アクセスログ22の説明図であり、
図2BはURLリスト26の説明図である。
【0019】
<悪性ウェブサイト検出装置10の構成の説明>
悪性ウェブサイト検出装置10は、記憶部20、制御部30及び通信部40を備える。記憶部20は、第1アクセスログ22、第2アクセスログ24及びURLリスト26を備える。
【0020】
第1アクセスログ22は、利用者が端末によって、所定期間内にウェブサイトに接続したアクセスログである。具体的には、アクセス時刻、利用者ID、アクセス先のURL、アクセス先ドメイン名を備える。
【0021】
第2アクセスログ24は、第1アクセスログ22を取得するための前記所定期間経過後に、利用者が端末によって、所定期間内にウェブサイトに接続したアクセスログである。
【0022】
URLリスト26は、悪性ウェブサイトのURLである可能性が高いURLを示すリストである。なお、前記URLには、ドメインも含まれる。
【0023】
図2Aに示されるように第1アクセスログ22では、アクセス時刻として、xx:xx:xx、利用者IDとして、ID1、アクセス先のURLとして、http://www.yyy.yyy/yyy.html、アクセス先ドメイン名として、yyy.yyyが記録されている。
【0024】
制御部30は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって構成される。制御部30は、悪性ウェブサイト検出装置10内の記憶装置に記憶されている各種プログラムがRAM(Random Access Memory)上にロードされて、実行される。制御部30は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。制御部30は、第1抽出部32、第2抽出部34及び第3抽出部36を備える。
【0025】
第1抽出部32は、第2アクセスログ24から第1アクセスログ22に含まれないURLを抽出し、かつ、URL長が所定数以上、例えば、200文字以上のURLを抽出する機能を有する。
【0026】
第2抽出部34は、第1抽出部32が抽出したURLから、URLエンコードされた文字列を含まないURLを抽出する機能を有する。
【0027】
ここで、URLエンコードとは、RFC3986で規定されているURI(Uniform Resource Identifier)において使用できない文字を使う際に行われる符号化であるパーセントエンコーディング(Percent Eencoding)と、HTMLのFormで送信するデータ種類の一種である、application/x-www-form-urlencodedの仕様として規定されている符号化を意味する。
【0028】
第3抽出部36は、第3a抽出部36a、第3b抽出部36b、第3c抽出部36c、第3d抽出部36d及び第3e抽出部36eを備える。
【0029】
第3a抽出部36aは、URLに含まれる数字の含有率が9%~26%であるURLを抽出する機能を有する。
【0030】
第3b抽出部36bは、URLに含まれる大文字アルファベットの含有率が19%~38%であるURLを抽出する機能を有する。ここで、大文字アルファベットは、A、B、C、D、E、Fであることが好ましい。
【0031】
第3c抽出部36cは、URLに含まれる小文字アルファベットの含有率が35%~50%であるURLを抽出する機能を有する。
【0032】
第3d抽出部36dは、URLに含まれる特殊文字の含有率が6%~9%であるURLを抽出する機能を有する。ここで、特殊文字とは、HTMLにおいて、文字参照で表記される文字を意味する。
【0033】
制御部30は、第3a抽出部36a、第3b抽出部36b、第3c抽出部36c、第3d抽出部36dのうち、少なくとも2以上の処理部、すなわち、第3a抽出部36aと第3b抽出部36b、第3a抽出部36aと第3c抽出部36c、第3a抽出部36aと第3d抽出部36d、第3b抽出部36bと第3c抽出部36c、第3b抽出部36bと第3d抽出部36d、第3c抽出部36cと第3d抽出部36d、第3a抽出部36aと第3b抽出部36bと第3c抽出部36c、第3a抽出部36aと第3b抽出部36bと第3d抽出部36d、第3a抽出部36aと第3c抽出部36cと第3d抽出部36d、第3b抽出部36bと第3c抽出部36cと第3d抽出部36d、第3a抽出部36aと第3b抽出部36bと第3c抽出部36cと第3d抽出部36dのいずれかの組み合わせによる処理を行う。
【0034】
第3e抽出部36eは、第2抽出部34が抽出したURLから、特定の文字列を含むURLを抽出する機能を有する。ここで、特定の文字列としては、例えば、セキュリティ研究者であるBaber Pervez氏によって示された「Rig Exploit Kit malware URL Patterns」がある(以下、「Baber文字列パターン」という)。その一例としては、「Qc_Wfa,Qc_WYa,Qc_WZa,Qc_Wea,Qd_Wda,Qd_Wea,Qd_Wfa,QcvWda,QcvWea,QcvWfa,QcvWYa,QcvWZa,QdfWda,QdfWea,QdfWfa,QdfWYa,QdfWza,QdPWda,QdPWea,QdPWfa,QdPWYa,QdPWZa,QMrDYb,QMrLYb,QMrPYb,QMrTYb,QMrXYb,QMvWdb,QMvWeb,QMvWfb,QMvWYb,QMvWZb」の32パターンの文字列が知られている。
【0035】
通信部40は、外部の端末やサーバ等の装置と通信するための機能を有する。
【0036】
<悪性ウェブサイト検出装置10の動作の説明>
次に、悪性ウェブサイト検出装置10の動作について、
図3を用いて説明する。
図3は、本発明の実施形態に係る悪性ウェブサイト検出装置10の処理手順の説明図である。
【0037】
まず、予め取得していた第1アクセスログ22が記憶部20に記録される(ステップS1)。次に、第2アクセスログ24が記憶部20に記録される(ステップS2)。
【0038】
制御部30は、第1抽出部32によって、第2アクセスログ24から第1アクセスログ22に含まれないURLであって、かつ、URL長が所定数以上、例えば、200文字以上であるURLを抽出する(ステップS3)。
【0039】
一般に同一のドメイン又はURLで悪性ウェブサイトが活動する時間は、数時間から1日以内と短い場合が多いことを、発明者は見いだした。従って、第1アクセスログ22で取得されたURLの悪性ウェブサイトは、その後、消滅している可能性が高いので、第2アクセスログ24から第1アクセスログ22に含まれないURLを抽出することにより、悪性ウェブサイトではないウェブサイトのURLを取り除くことができる。
【0040】
制御部30は、第1抽出部32が抽出したURLから、第2抽出部34によって、URLエンコードされた文字列を含まないURLを抽出する(ステップS4)。
【0041】
制御部30は、第2抽出部34が抽出したURLから、第3抽出部36によってURLを抽出する(ステップS5)。具体的には、制御部30は、第2抽出部34が抽出したURLから、第3a抽出部36aによって、前記URLに含まれる数字の含有率が9%~26%であるURLを抽出する。さらに、第3a抽出部36aが抽出したURLから、第3b抽出部36bによってURLに含まれる大文字アルファベット(A~F)の含有率が19%~38%であるURLを抽出する。
【0042】
制御部30は、第3抽出部36によって抽出したURLをURLリスト26として、記憶部20に記憶する(ステップS6)。
【0043】
ここで、第3a抽出部36a、第3b抽出部36bによって抽出されたURLリスト26のURLについて、悪性ウェブサイトのURLの当否の結果を示す。
図4は、ステップS4において、抽出されたURLにおいて、URLに含まれる数字の含有率、大文字アルファベットの含有率を変化させた場合のURLの分布を示した図である。縦軸は、URLに含まれる大文字の含有率を示し、横軸は、URLに含まれる数字の含有率を示す。
【0044】
図4においては、Baber文字列パターンと、ステップS4において抽出されたURLとを照合すると、線で囲んだ範囲、すなわち、URLに含まれる数字の含有率が9%~26%、大文字アルファベット(A~F)の含有率が19%~38%のURLが悪性ウェブサイトであるとことがわかった。
【0045】
ステップS5においては、第3a抽出部36aと第3b抽出部36bにより、URLを抽出している。制御部30は、第3a抽出部36a、第3b抽出部36b、第3c抽出部36c、第3d抽出部36dのうち、少なくとも2以上の処理部によりURLを抽出できれば、これに限定されるものではない。
【0046】
例えば、第3b抽出部36bと第3c抽出部36cにより、URLを抽出してもよい。具体的には、ステップS5において、制御部30は、第2抽出部34が抽出したURLから、第3b抽出部36bによって、URLに含まれる大文字アルファベット(A~F)の含有率が19%~38%であるURLを抽出する。さらに、第3b抽出部36bが抽出したURLから、第3c抽出部36cによって、URLに含まれる小文字アルファベットの含有率が35%~50%であるURLを抽出する。
【0047】
ここで、第3b抽出部36b、第3c抽出部36cによって抽出されたURLリスト26のURLについて、悪性ウェブサイトの当否の結果を示す。
図5は、ステップS4において、抽出されたURLから、URLに含まれる大文字アルファベットの含有率、小文字アルファベットの含有率を変化させた場合のURLの分布を示す図である。縦軸は、URLに含まれる小文字の含有率を示し、横軸は、URLに含まれる大文字の含有率を示す。
【0048】
図5においては、Baber文字列パターンと、ステップS4において抽出されたURLとを照合すると、線で囲んだ範囲、すなわち、URLに含まれる大文字アルファベット(A~F)含有率が19%~38%、子文字アルファベットの含有率が35%~50%のURLが悪性ウェブサイトであるとことがわかった。
【0049】
また、異なる3日間で、第2抽出部34が抽出したURLから、第3a抽出部36a、第3b抽出部36b及び第3c抽出部36cによって、URLを抽出する実験1~3の3回の実験をした。
図6は、各抽出工程で、抽出されたURL数を示した図である。
【0050】
実験1で取得した全URL数は、132452230個であった。これに対して、ステップS3で、第1抽出部32によって抽出したURL数は10207個、ステップS4で、第2抽出部34によって抽出したURL数は2960個であった。ステップS5で、第3a抽出部36a、第3b抽出部36b及び第3c抽出部36cによって抽出したURL数は493個であった。この第3a抽出部36a、第3b抽出部36b及び第3c抽出部36cによって抽出したURLについて、Baber文字列パターンと照合し、悪性ウェブサイトの検証をした。その結果、URL数493個に対して、悪性ウェブサイトのURLが153個含まれていた。
【0051】
同様に実験2では、第2抽出部34が抽出したURLから、第3a抽出部36a、第3b抽出部36b及び第3c抽出部36cによって抽出したURLについて、URL数273個に対して、悪性ウェブサイトのURLが15個含まれていた。
【0052】
同様に実験3では、第2抽出部34が抽出したURLから、第3a抽出部36a、第3b抽出部36b及び第3c抽出部36cによって抽出したURLについて、URL数443個に対して、悪性ウェブサイトのURLが68個含まれていた。
【0053】
さらに、ステップS4において、第2抽出部34が抽出したURLから、特定の文字列、例えば、Baber文字列パターンを含むURLを抽出し、このURLを悪性ウェブサイトのURLとしてもよい。
【0054】
図7は、各抽出工程で、抽出されたURL数を示した図であった。
図7では、異なる3日間について、実験4~6の3回の実験をした。実験4~6で取得したURLは、各々実験1~3で取得したURLと同じものである。
【0055】
実験4で取得した全URL数は、132452230個であった。これに対して、ステップS3で、第1抽出部32によって抽出したURL数は10207個、ステップS4で、第2抽出部34によって抽出したURL数は2960個であった。ステップS5で、第3e抽出部36eによって抽出したURL数は154個であった。
【0056】
同様に実験5では、第2抽出部34が抽出したURLから、第3e抽出部36eによって抽出したURL数は25であった。実験6では、第3e抽出部36eによって抽出したURL数は98であった。
【0057】
次に、本発明の実施形態の変形例について説明する。
図8は、本発明の実施形態の変形例に係る悪性ウェブサイト検出システム100の説明図であり、
図9は、本発明の実施形態の変形例に係る悪性ウェブサイト検出システム100の処理手順の説明図である。
【0058】
<悪性ウェブサイト検出システム100の構成の説明>
悪性ウェブサイト検出システム100は、悪性ウェブサイト検出装置10A、端末120、公衆回線130及び外部サーバ140を備える。悪性ウェブサイト検出装置10Aは、記憶部20、制御部30A及び通信部40を備える。制御部30Aは、悪性ウェブサイト検出装置10の第3抽出部36に判定部110が追加され、第3抽出部36Aとしている。なお、悪性ウェブサイト検出装置10の構成要素と同一の機能を有する構成要素には、同一の参照符号を付し、詳細な説明は省略する。また、悪性ウェブサイト検出装置10Aには、端末120が公衆回線130を介して接続可能であり、また、端末120は、公衆回線130を介して外部サーバ140に接続可能である。
【0059】
判定部110は、端末120が接続するウェブサイトについて、URLリスト26に基づいて、悪性ウェブサイトの当否を判定する機能を有する。端末120は、通信機能を有する端末である。公衆回線130は、例えば、インターネット等で構成される。外部サーバ140は、ウェブサイトが存在するサーバである。
【0060】
<悪性ウェブサイト検出システム100の動作の説明>
次に、悪性ウェブサイト検出システム100の動作について、
図9を用いて説明する。
図9は、本発明の実施形態の変形例に係る悪性ウェブサイト検出システム100の処理手順の説明図である。
【0061】
まず、悪性ウェブサイト検出装置10Aの制御部30Aは、上述したステップS1~S4の処理手順に従って、URLリスト26を生成し、記憶部20に記憶する(ステップS11)。
【0062】
次に、利用者は、接続するウェブサイトのURLを端末120に入力し、入力されたURLが、公衆回線130を介して悪性ウェブサイト検出装置10Aに送信される(ステップS12)。
【0063】
制御部30Aは、通信部40を介して、前記URLを受信し、判定部110に供給する(ステップS13)。
【0064】
判定部110は、受信したURLとURLリスト26とを照合し、受信したURLが悪性ウェブサイトのURLであるか否かを判定する(ステップS14)。受信したURLがURLリスト26に記載のURLと一致した場合には、判定部110は、受信したURLが悪性ウェブサイトのURLであると判定する。一方、受信したURLがURLリスト26に記載のURLと不一致の場合には、判定部110は、受信したURLが悪性ウェブサイトのURLでないと判定する。
【0065】
判定部110は、判定結果を通信部40を介して、端末120に送信する(ステップS15)。利用者は、端末120で受信した判定結果により、接続しようとするウェブサイトが悪性ウェブサイトであるか否かを知ることができる。
【0066】
上述した悪性ウェブサイト検出装置10は、例えば、
図10に示すような構成のコンピュータ1000によって実現される。
図10は、悪性ウェブサイト検出装置10の機能を実現するコンピュータ1000の一例を示すハードウェアの説明図である。コンピュータ1000は、CPU1010、RAM1020、ROM1030、補助記憶部1040、通信インターフェイス(通信I/F)1050、入出力インターフェイス(入出力I/F)1060、及び記憶媒体インターフェイス(記憶媒体I/F)1070を有する。これらの各部は、バス1080によって接続される。
【0067】
<プログラムに係る実施形態の説明>
CPU1010は、ROM1030又は補助記憶部1040に記憶されたプログラムに基づいて動作し、各部を制御する。ROM1030には、コンピュータ1000の起動時にCPU1010によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等が記憶される。
【0068】
補助記憶部1040としては、例えば、ハードディスクドライブやソリッドステートドライブ(SSD:Solid State Drive)を用いることができる。また、補助記憶部1040には、CPU1010によって実行されるプログラム、及び、前記プログラムによって使用されるデータ等が記憶されている。
【0069】
通信インターフェイス1050には、公衆回線130が接続される。通信インターフェイス1050は、公衆回線130を介して他の機器からデータを受信し、CPU1010へ送信する。また、通信インターフェイス1050は、CPU1010が生成したデータを、公衆回線130を介して他の機器へ送信する。
【0070】
入出力インターフェイス1060には、入力装置1090及び出力装置1100が接続される。入力装置1090は、キーボードやマウス等で構成される。また、出力装置1100は、ディスプレイやプリンタ等で構成される。CPU1010は、入出力インターフェイス1060を介して、入力装置1090及び出力装置1100を制御する。
【0071】
記憶媒体インターフェイス1070は、記憶媒体1110に記憶されたプログラム又はデータを読み取り、RAM1020を介してCPU1010に提供する。なお、出力装置1100は、例えば、DVD、DVD-RAM、Blu-ray(登録商標)Disk等の光学記録媒体、フラッシュメモリ等の半導体メモリ、MO等の光磁気記録媒体、テープ媒体、磁気記録媒体等である。
【0072】
例えば、コンピュータ1000がCPU1010として機能する場合、CPU1010は、補助記憶部1040からプログラムを読み取り、RAM1020上にロードされたプログラムを実行することにより、悪性ウェブサイト検出装置10の機能を実現する。また、CPU1010は、記憶媒体インターフェイス1070を介して、出力装置1100からプログラムを読み取り、RAM1020上にロードされたプログラムを実行することにより、悪性ウェブサイト検出装置10の機能を実現してもよい。
【0073】
悪性ウェブサイト検出装置10は、端末120が所定期間内にウェブサイトに接続した第1アクセスログ22と、端末120が前記所定期間後にウェブサイトに接続した第2アクセスログ24とが記憶される記憶部20と、前記第2アクセスログ24に基づいて、悪性ウェブサイトのURL(Uniform Resource Locator)を抽出する制御部30とを備え、前記制御部30は、前記第2アクセスログ24から前記第1アクセスログ22に含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出部32と、前記第1抽出部32が抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出部34と、前記第2抽出部34が抽出したURLから、前記URLに含まれる文字数の含有率に基づいてURLを抽出する第3抽出部36と、を有し、前記第3抽出部36が抽出したURLに基づいて悪性ウェブサイトのURLを検出する。
【0074】
悪性ウェブサイト検出装置10では、第1抽出部32と第2抽出部34と第3抽出部36でウェブサイトのURLを抽出することにより、効率的に悪性ウェブサイトのURLを検出することができる。
【0075】
悪性ウェブサイト検出装置10において、前記第3抽出部36は、前記第2抽出部34が抽出したURLから、前記URLに含まれる数字の含有率が9%~26%であるURLを抽出する第3a抽出部36aと、前記第2抽出部34が抽出したURLから、前記URLに含まれる大文字アルファベットの含有率が19%~38%であるURLを抽出する第3b抽出部36bと、前記第2抽出部34が抽出したURLから、前記URLに含まれる小文字アルファベットの含有率が35%~50%であるURLを抽出する第3c抽出部36cと、前記第2抽出部34が抽出したURLから、前記URLに含まれる特殊文字の含有率が6%~9%を抽出する第3d抽出部36dと、のうち、少なくとも2つの処理部を有する。
【0076】
悪性ウェブサイト検出装置10では、第3抽出部36として、第3a抽出部36a、第3b抽出部36b、第3c抽出部36c、第3d抽出部36dの少なくとも2つの処理部によりウェブサイトのURLを抽出することにより、さらに、効率的に悪性ウェブサイトのURLを検出することができる。
【0077】
悪性ウェブサイト検出装置10において、前記第3抽出部36は、前記第2抽出部34が抽出したURLから、特定の文字列を含むURLを抽出する第3e抽出部36eを有する。
【0078】
悪性ウェブサイト検出装置10では、第2抽出部34として、第3e抽出部36eによりウェブサイトのURLを抽出することにより、さらに、効率的に悪性ウェブサイトのURLを検出することができる。
【0079】
悪性ウェブサイト検出装置10において、前記第3抽出部36が抽出したURLを有する判定サーバを備え、端末120がウェブサイトに接続する場合に、前記端末120が前記判定サーバに前記ウェブサイトのURLを送信し、前記判定サーバで前記ウェブサイトの悪性ウェブサイトの当否を判定する。
【0080】
悪性ウェブサイト検出装置10では、第1抽出部32と第2抽出部34と第3抽出部36で悪性ウェブサイトのURLを検出することにより、端末120が接続しようとするウェブサイトが悪性ウェブサイトであるか否かを知ることができる。
【0081】
悪性ウェブサイト検出方法は、第1アクセスログ22が、端末120が所定期間内にウェブサイトに接続したアクセスログであって、第2アクセスログ24が、端末120が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第2アクセスログ24から前記第1アクセスログ22に含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出工程と、前記第1抽出工程で抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出工程と、前記第2抽出工程で抽出したURLから、前記URLに含まれる文字数の含有率に基づいてURLを抽出する第3抽出工程とを、を備え、前記第3抽出工程で抽出したURLに基づいて悪性ウェブサイトのURLを検出する。
【0082】
悪性ウェブサイト検出プログラムは、第1アクセスログ22が、端末120が所定期間内にウェブサイトに接続したアクセスログであって、第2アクセスログ24が、端末120が前記所定期間後にウェブサイトに接続したアクセスログであって、前記第2アクセスログ24から前記第1アクセスログ22に含まれないURLで、かつ、URL長が所定数以上のURLを抽出する第1抽出工程と、前記第1抽出工程で抽出したURLから、前記URLにURLエンコードされた文字列を含まないURLを抽出する第2抽出工程と、前記第2抽出工程で抽出したURLから、前記URLに含まれる文字数の含有率に基づいてURLを抽出する第3抽出工程とを、コンピュータに実行させ、前記第3抽出工程で抽出したURLに基づいて悪性ウェブサイトのURLを検出する。
【0083】
なお、本発明は、上述の実施形態に限らず、本発明の要旨を逸脱することなく、種々の構成を採り得ることはもちろんである。
【0084】
例えば、上述の実施形態では、ステップS5において、第3a抽出部36aによってURLを抽出した後に、第3b抽出部36bによって、さらにURLを抽出していたが、URLの抽出処理の順序は、第3b抽出部36bによってURLを抽出した後に、第3a抽出部36aによって、さらにURLを抽出をしてもよい。同様に、ステップS5においては、第3a抽出部36a、第3b抽出部36b、第3c抽出部36c、第3d抽出部36dによる抽出処理の順序は任意である。
【符号の説明】
【0085】
10、10A…悪性ウェブサイト検出装置
20…記憶部
22…第1アクセスログ
24…第2アクセスログ
26…URLリスト
30、30A…制御部
32…第1抽出部
34…第2抽出部
36、36A…第3抽出部
36a…第3a抽出部
36b…第3b抽出部
36c…第3c抽出部
36d…第3d抽出部
36e…第3e抽出部
40…通信部
100…悪性ウェブサイト検出システム
110…判定部
120…端末
130…公衆回線
140…外部サーバ
1000…コンピュータ
1010…CPU
1020…RAM
1030…ROM
1040…補助記憶部
1050…通信インターフェイス(通信I/F)
1060…入出力インターフェイス(入出力I/F)
1070…記憶媒体インターフェイス(記憶媒体I/F)
1080…バス
1090…入力装置
1100…出力装置
1110…記憶媒体