(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-12
(45)【発行日】2024-12-20
(54)【発明の名称】ドメインリスク推定システム及び方法
(51)【国際特許分類】
G06F 21/55 20130101AFI20241213BHJP
【FI】
G06F21/55
(21)【出願番号】P 2020172204
(22)【出願日】2020-10-12
【審査請求日】2023-09-28
(73)【特許権者】
【識別番号】301022471
【氏名又は名称】国立研究開発法人情報通信研究機構
(74)【代理人】
【識別番号】100120868
【氏名又は名称】安彦 元
(72)【発明者】
【氏名】高橋 健志
(72)【発明者】
【氏名】井上 大介
【審査官】▲柳▼谷 侑
(56)【参考文献】
【文献】特開2011-065524(JP,A)
【文献】特開2016-025455(JP,A)
【文献】特開2002-197060(JP,A)
【文献】中国特許出願公開第102571812(CN,A)
【文献】中国特許出願公開第108134776(CN,A)
【文献】中国特許出願公開第109274632(CN,A)
【文献】米国特許出願公開第2019/0312897(US,A1)
【文献】米国特許第09462009(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/00
G06F 21/30 - 21/46
G06F 21/55
(57)【特許請求の範囲】
【請求項1】
Webサイトの各ドメインについてユーザが当該ドメインにアクセスした後に悪性URLへ到達するリスクを推定するドメインリスク推定システムにおいて、
各ユーザのWebサイトへのアクセス記録を収集するアクセス記録収集手段と、
一連のWebアクセス活動のうちの最初のアクセスをエントリーポイントとして検知するエントリーポイント検知手段と、
上記アクセス記録収集手段により収集されたアクセス記録に基づいて上記Webサイトの、悪性URLから、上記エントリーポイント
検知手段により検知されたエントリーポイントに到達するまで、一つ前のアクセスを追跡することを繰り返し実行することにより、上記各URLからエントリーポイントに至るまでのユーザの一連のURLへのアクセス履歴を示すアクセスパスを構築するアクセスパス構築手段と、
上記アクセスパス構築手段により構築されたアクセスパスに登場するドメイン毎に、悪性URLに到達するリスクを推定するリスク推定手段とを備えること
を特徴とするドメインリスク推定システム。
【請求項2】
上記リスク推定手段は、以下のリスクレベルの式(1)に基づいて上記リスクを推定すること
を特徴とする請求項1記載のドメインリスク推定システム。
リスクレベル=推定対象のドメインにアクセスしたユーザが、次回以降のアクセスにて悪性URLへ到達する回数/当該ドメインへのアクセス総数・・・・・・・・(1)
【請求項3】
上記リスク推定手段は、上記リスクレベルが所定の閾値以上のドメインを危険ドメインと判別し、
更に上記リスク推定手段により判別された危険ドメインにアクセスしようとするユーザに対して警告を通知する警告通知手段を備えること
を特徴とする請求項2記載のドメインリスク推定システム。
【請求項4】
上記リスク推定手段は、上記リスクレベルが所定の閾値以上のドメインを危険ドメインと判別し、
更に上記リスク推定手段により判別された危険ドメインへのユーザによるアクセスを遮断するように制御する制御手段を備えること
を特徴とする請求項2記載のドメインリスク推定システム。
【請求項5】
上記
アクセスパス構築手段は、
再読込追跡を試みることで一つ前のアクセスを追跡し、
上記再読込追跡により一つ前のアクセスが追跡できない場合であり、かつアクセス記録にソースタブIDが記録されている場合には、当該ソースタブIDが設定されたタブ内のアクセスを追跡し、
アクセス記録にソースタブIDが記録されていない場合には、タブの識別子であるタブIDが共通の同一タブ内におけるアクセスを追跡し、
更に上記同一タブ内において一つ前のアクセスが追跡できない場合には、他の全てのタブ内におけるアクセスを追跡すること
を特徴とする請求項1記載のドメインリスク推定システム。
【請求項6】
Webサイトの各ドメインについてユーザが当該ドメインにアクセスした後に悪性URLへ到達するリスクを推定するドメインリスク推定方法において、
各ユーザのWebサイトへのアクセス記録を収集するアクセス記録収集ステップと、
一連のWebアクセス活動のうちの最初のアクセスをエントリーポイントとして検知するエントリーポイント検知ステップと、
上記アクセス記録収集ステップにより収集されたアクセス記録に基づいて上記Webサイトの、悪性URLから、上記エントリーポイント
検知ステップにより検知されたエントリーポイントに到達するまで、一つ前のアクセスを追跡することを繰り返し実行することにより,上記各URLからエントリーポイントに至るまでのユーザの一連のURLへのアクセス履歴を示すアクセスパスを構築するアクセス
パス構築ステップと、
上記アクセスパス構築ステップにより構築されたアクセスパスに登場するドメイン毎に、悪性URLに到達するリスクを推定するリスク推定ステップとを有すること
を特徴とするドメインリスク推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webサイトの各ドメインについて悪性URLへ到達するリスクを推定するドメインリスク推定システム及び方法に関するものである。
【背景技術】
【0002】
インターネットは必要不可欠な社会通信インフラ基盤であり、多くの人々が日常生活や各種業務の中でWebサイトにアクセスする。しかし、このWebサイトへのアクセスは、悪性URLへアクセスしてしまうリスクを抱えており、かかる場合にはマルウェア感染やソーシャルエンジニアリング攻撃等、様々な種類の攻撃を受ける虞もある。このような悪性URLへのアクセスを回避するために、悪性URLを予め登録したブラックリスト等が活用されてきているが、そのブラックリストが悪性URLへのアクセスを全てブロックできるわけではない。例えば、ブラックリストは、登録される悪性URLを随時更新する必要があるが、この更新前に悪性URLにユーザがアクセスしてしまうケースもある。
【0003】
この悪性URLが登録されたブラックリストは、各セキュリティベンダのノウハウが蓄積されたものであり、何をもって悪性URLと判定するかについては、各セキュリティベンダ間で基準も異なる。このため、各セキュリティベンダが提供する悪性URLのブラックリストは、基本的には異なるものであり、統一的なリストは存在しない。また、悪性URLのブラックリストは、各セキュリティベンダにおいてアナリストが手動で生成しているか、又はツールを活用しつつ、アナリストが検証して生成しているのが現状である。研究レベルでは、機械学習技術等を用いて、過去のラベリング結果を用いて各URLが悪性URLに相当するか否かをクラスタリングする技術が提案されているが、それでもユーザによる悪性URLへの到達を完全に阻止することは困難である。
【0004】
このように、悪性サイトが登録されたブラックリストのみを参照して、ユーザによる悪性URLへのアクセスを阻止する方法では限界がある。従って、ブラックリストに全てを委ねることなく、ユーザによる悪性URLへのアクセスを効果的かつ高精度に防止する技術に対する社会的な要請は高まっているが、これに応えることができる技術は未だ案出されていないのが現状であった。
【先行技術文献】
【非特許文献】
【0005】
【文献】Terry Nelms etc ”WebWitness: Investigating, Categorizing, and Mitigating Malware Download Paths” 24th USENIX Security Symposium, August 12-14, 2015 ・ Washington, D.C.
【発明の概要】
【発明が解決しようとする課題】
【0006】
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、ユーザによる悪性URLへのアクセスを効果的に防止するため、Webサイトの各ドメインについて悪性URLへ到達するリスクを高精度に推定することが可能なドメインリスク推定システム及び方法を提供することにある。
【課題を解決するための手段】
【0007】
本発明者らは、上述した課題を解決するために、各ユーザのWebサイトへのアクセス記録を収集し、一連のWebアクセス活動のうちの最初のアクセスをエントリーポイントとして検知する。収集したアクセス記録に基づいて上記Webサイトの、悪性URLを含む各URLからエントリーポイントに到達するまで、一つ前のアクセスを追跡することを繰り返し実行し、追跡した全てのアクセス履歴を参照し、各URLからエントリーポイントに至るまでのユーザの一連のURLへのアクセスの履歴を示すアクセスパスを構築し、構築したアクセスパスにおける上記ドメイン毎に、悪性URLに到達するリスクを推定するドメインリスク推定システムを発明した。
【0008】
第1発明に係るドメインリスク推定システムは、Webサイトの各ドメインについてユーザが当該ドメインにアクセスした後に悪性URLへ到達するリスクを推定するドメインリスク推定システムにおいて、各ユーザのWebサイトへのアクセス記録を収集するアクセス記録収集手段と、一連のWebアクセス活動のうちの最初のアクセスをエントリーポイントとして検知するエントリーポイント検知手段と、上記アクセス記録収集手段により収集されたアクセス記録に基づいて上記Webサイトの、悪性URLから、上記エントリーポイント検知手段により検知されたエントリーポイントに到達するまで、一つ前のアクセスを追跡することを繰り返し実行することにより、上記各URLからエントリーポイントに至るまでのユーザの一連のURLへのアクセス履歴を示すアクセスパスを構築するアクセスパス構築手段と、上記アクセスパス構築手段により構築されたアクセスパスに登場するドメイン毎に、悪性URLに到達するリスクを推定するリスク推定手段とを備えることを特徴とする。
【0009】
第2発明に係るドメインリスク推定システムは、第1発明において、上記リスク推定手段は、以下のリスクレベルの式(1)に基づいて上記リスクを推定することを特徴とする。
リスクレベル=推定対象のドメインにアクセスしたユーザが、次回以降のアクセスにて悪性URLへ到達する回数/当該ドメインへのアクセス総数・・・・・・・・(1)
【0010】
第3発明に係るドメインリスク推定システムは、第2発明において、上記リスク推定手段は、上記リスクレベルが所定の閾値以上のドメインを危険ドメインと判別し、更に上記リスク推定手段により判別された危険ドメインにアクセスしようとするユーザに対して警告を通知する警告通知手段を備えることを特徴とする。
【0011】
第4発明に係るドメインリスク推定システムは、第2発明において、上記リスク推定手段は、上記リスクレベルが所定の閾値以上のドメインを危険ドメインと判別し、更に上記リスク推定手段により判別された危険ドメインへのユーザによるアクセスを遮断するように制御する制御手段を備えることを特徴とする。
【0012】
第5発明に係るドメインリスク推定システムは、第1発明において、上記アクセスパス構築手段は、再読込追跡を試みることで一つ前のアクセスを追跡し、上記再読込追跡により一つ前のアクセスが追跡できない場合であり、かつアクセス記録にソースタブIDが記録されている場合には、当該ソースタブIDが設定されたタブ内のアクセスを追跡し、アクセス記録にソースタブIDが記録されていない場合には、タブの識別子であるタブIDが共通の同一タブ内におけるアクセスを追跡し、更に上記同一タブ内において一つ前のアクセスが追跡できない場合には、他の全てのタブ内におけるアクセスを追跡することを特徴とする。
【0013】
第6発明に係るドメインリスク推定方法は、Webサイトの各ドメインについてユーザが当該ドメインにアクセスした後に悪性URLへ到達するリスクを推定するドメインリスク推定方法において、各ユーザのWebサイトへのアクセス記録を収集するアクセス記録収集ステップと、一連のWebアクセス活動のうちの最初のアクセスをエントリーポイントとして検知するエントリーポイント検知ステップと、上記アクセス記録収集ステップにより収集されたアクセス記録に基づいて上記Webサイトの、悪性URLから、上記エントリーポイント検知ステップにより検知されたエントリーポイントに到達するまで、一つ前のアクセスを追跡することを繰り返し実行することにより,上記各URLからエントリーポイントに至るまでのユーザの一連のURLへのアクセス履歴を示すアクセスパスを構築するアクセスパス構築ステップと、上記アクセスパス構築ステップにより構築されたアクセスパスに登場するドメイン毎に、悪性URLに到達するリスクを推定するリスク推定ステップとを有することを特徴とする。
【発明の効果】
【0014】
上述した構成からなる本発明によれば、次回以降のアクセスにて悪性URLに到達する可能性が高いドメインにユーザが到達したときに注意喚起等を促し、或いはそのドメインで通信を遮断することができる。このためユーザが悪性URLに到達してしまうのを未然に防止することが可能となる。即ち、本発明によれば、悪性コンテンツをホストしていなくとも最終的に悪性URLに到達するドメインを検出できる。これにより、未だブラックリストに登録されていない悪性URLへのアクセスも,その手前に存在する危険ドメインにてアクセスを遮断することにより、アクセス回避をすることが可能となる.結果的に、ユーザによる悪性URLへのアクセスを高効率かつ高精度に阻止することが可能となる。
【図面の簡単な説明】
【0015】
【
図1】本発明を適用したドメインリスク推定システムの全体構成を示す図である。
【
図2】本発明を適用したドメインリスク推定システムのプロセスを示す図である。
【
図3】アクセス追跡フェーズの詳細なフローを示す図である。
【
図4】本発明で特定する危険ドメインについて説明するための図である。
【
図5】リスクレベルを算出する例について説明するための図である。
【発明を実施するための形態】
【0016】
以下、本発明を適用したドメインリスク推定システムについて、図面を参照しながら詳細に説明をする。
【0017】
図1は、本発明を適用したドメインリスク推定システム1の全体構成を示している。ドメインリスク推定システム1は、インターネット回線で構成される公衆通信網10にそれぞれ接続されたユーザ端末2と、サーバ4とを備えている。
【0018】
ユーザ端末2は、デスクトップ型のパーソナルコンピュータ、ノート型PC、携帯端末、スマートフォン、タブレット型端末、ウェアラブル端末等のWebへのアクセスが可能な端末装置で構成されている。
【0019】
サーバ4は、各ユーザ端末2によるWebサイトへのアクセス記録を収集する。サーバ4は、収集されたアクセス記録に基づいて後述するアクセス追跡を行う。サーバ4は、追跡したアクセスから、各ドメインについて悪性URLに到達するリスクを推定する。
【0020】
以下、サーバ4による、ドメイン毎の悪性URLへ到達するリスクを推定するまでの処理動作について説明をする。
【0021】
図2は、本発明を適用したドメインリスク推定システム1のプロセスを示す図である。ドメインリスク推定システムの処理動作は大きく分類して、アクセス記録収集フェーズAと、アクセス追跡フェーズBと、リスク推定フェーズCから成り立っている。
【0022】
アクセス記録収集フェーズAにおいて、サーバ4は、各ユーザ端末2からWebサイトへのアクセス記録を公衆通信網10を介して収集する。サーバ4は、この収集したアクセス記録を一端格納する。サーバ4により収集されるアクセス記録のデータ例は、例えば、HTTPリクエストのURL、リクエスト発行時刻を示すタイムスタンプ、referer、ブラウザタブを識別するタブID(その一意性は同一セッションの中でのみ保証)、ブラウザタブに示されるURL(タブURL)、メインフレームや画像、フォント、スクリプト等を識別するリソース種別、ブックマークアクセス、再読込、URLタイピング等を識別するページ遷移種別、ユーザID、現在のタブの生成元タブのID(ソースタブID) (例えばtarget=”_blank”やwindow.open() 等により、新しいウィンドウが生成された際にソースタブIDを記録)等である。なお、リソース種別およびページ遷移種別については、Google Chrome APIsであるwebRequest及びhistoryにて定義された値をそのまま取得するようにしてもよい。また、各ユーザ端末2から収集したデータを用いて、アクセスしたURLを評価したその評価結果を保存する。例えば、URLのGoogle Safe Browsing (GSB)の評価結果やAlexa Traffic Rank の順位等である。このようにしてサーバ4によりアクセス記録が収集された後、アクセス追跡フェーズBへ移行する。
【0023】
アクセス追跡フェーズBにおいては、サーバ4は、収集したアクセス記録に基づいて、各悪性URLからエントリーポイントに到達するまで、一つ前のアクセスを追跡することを繰り返し実行する。このエントリーポイントとは、一つ前のアクセスと非連続なアクセスであり、換言すればユーザが最初にアクセスしたURLである。即ち、このエントリーポイントとは、リンクを辿ったアクセスでない最初のアクセスであり、例えば、ブックマークアクセスや検索エンジン等による検索を通じて最初にアクセスしたURLである。
【0024】
このアクセス追跡フェーズBの概略は、
図2に示す通りであり、先ず未追跡の悪性URLが存在するか否かを確認する。その結果、未追跡の悪性URLが存在していない場合には、リスク推定フェーズCへ移行する。一方、未追跡の悪性URLが存在していた場合には、一つ前のアクセス記録を追跡する。一つ前のアクセス記録を追跡できた場合、これがエントリーポイントに相当するか否かを都度判別する。その結果、エントリーポイントに該当するのであれば、エントリーポイントから悪性URLまでのアクセス履歴をアクセスパスとして保存した上で、再び未追跡の悪性URLが存在するか否かを確認することを繰り返す。一方、エントリーポイントに該当しないのであれば、再び一つ前のアクセス記録の追跡を繰り返す。以下、このアクセス記録追跡フェーズBの詳細について説明をする。
【0025】
図3は、このアクセス追跡フェーズBの詳細なフローを示している。アクセス追跡フェーズBに移行した場合、先ずステップS11において、再読込追跡を試みることで一つ前のアクセスを追跡する。かかる場合には、ページ遷移種別が”reload”であるか否かを判別する。その結果、ページ遷移種別が”reload”である場合には、現在のページが再読込されたぺージと判断し、ステップS12へ再読込追跡を実施する。これに対して、ページ遷移種別が”reload”以外である場合には、ステップS13へ移行する。
【0026】
ステップS12における再読込追跡では、現在のアクセス記録と同一のタブURL、及びURLを持つ直近のアクセス記録を探索する、いわゆる同一タブ内再読込追跡を行う。かかる場合には、同一タブ内のアクセス記録を調査し、該当がない場合に限りその他のタブのアクセス記録を調査する、リロード追跡を行う。再読込追跡を終了後、処理動作を終了する。
【0027】
ステップS13に移行した場合、アクセス記録にソースタブIDが設定されているか否かを判別する。その結果、ソースタブIDが設定されている場合には、ステップS14へ移行し、ソースタブIDが設定されていない場合には、ステップS15へ移行する。
【0028】
ステップS14に移行した場合、ソースタブIDにより指定されたタブ内のアクセスを追跡する、いわゆるソースタブ追跡を行う。かかる場合において、ソースタブIDが指定されている場合には、現在のアクセスが指定されたタブから生成されたと判断し、そのタブ内のアクセス記録を追跡するソースタブ追跡を実施する。referer情報が入手可能な場合には、現在のアクセスから直前のメインフレームアクセスまでの間のアクセス記録のうちURLがrefererと一致するものを一つ前のアクセス記録として選択する、referer追跡を行う。これに対して、referer情報が提供されないか、又は適切な記録が発見できない場合には、直前のメインフレームへのアクセス記録を一つ前のアクセス記録として選択する、いわゆるメインフレーム追跡を行う。メインフレーム追跡を終了させた後、処理動作は終了となる。
【0029】
ステップS15へ移行した場合には、同一タブ内にて一つ前のアクセス記録を追跡する同一タブ内追跡を行う。ここで同一タブとは、タブの識別子であるタブIDが同一であるものを指し,同一タブ内の追跡とは、タブIDが一致するログのみを分析・追跡するということをいう。ソースタブ追跡手法同様、referer追跡とメインフレーム追跡技術を用いて記録を分析し、現在表示されているタブ上のユーザの過去のアクセス記録から一つ前のアクセス記録を特定する。その結果、ステップS16において、一つ前のアクセスを発見できた場合には、処理動作を終了するが、一つ前のアクセスを発見できなかった場合には、ステップS17へ移行する。
【0030】
ステップS17に移行した場合には、当該ユーザの全てのアクセス記録内を追跡する全タブ追跡を実施する。全タブ追跡は、ソースタブ追跡や、同一タブ内追跡と同様に、referer情報が存在する場合にはまずreferer追跡を実施する。refererがorigin情報のみ保持しているケースでは、全タブ追跡ではoriginが一致するURLを持つ直前のメインフレームのアクセス記録を一つ前のアクセスとして決定する、いわゆるorigin追跡を行う。なお、ステップS14のソースタブ追跡及び、ステップS15の同一タブ内追跡ではメインフレーム追跡により一つ前のアクセスの特定が高精度で実現できるため、origin追跡は実施しない。仮に、上述の処理動作を通じて適切なエントリーが発見できない際には、この全タブ追跡において更にメインフレーム追跡を行うようにしてもよい。
【0031】
このようにして、このアクセス追跡フェーズBでは、全タブ追跡よりも、より高効率でアクセス追跡が可能なリロード追跡、ソースタブ追跡、同一タブ内追跡を優先的に行い、あまり効率が芳しくなく、しかも信頼性の高い追跡ができるとは限らない全タブ追跡の優先度を低くしている。このため、本発明によれば、このアクセス追跡を高効率に行うことが可能となる。
【0032】
上述したステップS11~S17に示すプロセスを通じて一つ前のアクセス記録を追跡できた場合、これがエントリーポイントに相当するか否かを都度判別する。その結果、追跡したアクセスがエントリーポイントに該当する場合には、悪性URLから一つ前のアクセスを繰り返し遡って追跡してきた当該エントリーポイントまでの一連のアクセス履歴をアクセスパスとして保存する。これに対して、追跡したアクセスがエントリーポイントに該当しない場合には、更に一つ前のアクセス記録の追跡を試みるが、かかる場合も同様に、ステップS11~S17に示すプロセスを実行することになる。このプロセスをエントリーポイントに到達するまで繰り返し実行する。
【0033】
上記のようにして作成したアクセスパスを、すべての悪性URLに対するアクセス記録に対して生成し、保存する。
【0034】
追跡したアクセスがエントリーポイントに該当するか否かの判断は、以下に説明するように、ブックマークアクセス、セッションの再構築、Web検索、オムニバーアクセス、アドレス直接入力、スタートページアクセスに該当するか否かに基づいて判断するようにしてもよい。
【0035】
ブックマークアクセスは、ページ遷移種別が”auto_bookmark”であるか否かに基づいて判断する。ページ遷移種別が”auto_bookmark”である場合、ユーザは、現在のページにブックマークを選択して来訪したものと判断し、そのページをエントリーポイントと認識する。
【0036】
セッションの再構築は、ページ遷移種別が”reload”であり、かつ同一のタブにて一定期間アクセスがなければ、セッションが再構築されたと判断する。ブラウザでは最近閉じたブラウザタブを復元する等、セッションの再構築が可能であり、そのセッションの再構築がなされたものと判断した場合には、これをエントリーポイントと認識する。
【0037】
Web検索は、URLが主要検索エンジンのトップページと一致するか、もしくはページ遷移種別が”form_submit”であり、かつURLが主要検索エンジンの検索結果ページである場合に、Web検索が実施されたものと判断し、これをエントリーポイントと認識する。尚,このWeb検索は、サイト内の検索は含まない。
【0038】
オムニバーアクセスは、Chromeブラウザのオムニバーは、検索ボックスとアドレスバーの機能を併せ持つが、そのページ遷移種別が”generated”の際には、オムニバーを利用したアクセスであると判断し、これをエントリーポイントと認識する。
【0039】
アドレス直接入力は、ユーザが連続するブラウジング活動の一環として、アドレスバーにある現在のURLを編集して、トップページなどの別のページへ移動するケースである。ページ推移種別が”typed”であるもののうち、直前のページと現在のページのドメインが異なる場合のみ、アドレス直接入力があったものと認識し、これをエントリーポイントとして判断する。
【0040】
スタートページアクセスは、ページ遷移種別が”start_page”の際には、そのページがブラウザの起動により、プログラム引数もしくはデフォルト設定により開かれたと判断し、これをエントリーポイントと認識する。なお、外部アプリ上でリンクをクリックした場合においてもOS上にてChrome がそのリンクのURLを引数として起動されるため、ページ遷移種別は”start_page”となる。
【0041】
アクセス追跡フェーズBにおいて、上述のようにしてアクセス追跡を行った例を表1に示す。この表1では、各アクセスの時刻毎に、タブID、実際にアクセスしたURLに加え、ソースタブIDが割り当てられた場合にはそのIDが示されており、更にページ遷移種別やリソース種別、追跡手法が示されている。
【0042】
【0043】
次にリスク推定フェーズCへ移行する。
図4は、リスク推定フェーズにて特定する危険ドメインについて説明するための図であり,例示としてドメインPにアクセスしたユーザがその後どのようなページ遷移をしていったかを示したものになる.本図では,ユーザはドメインPにアクセスした後、ドメインQもしくはドメインRにアクセスしており、更にドメインQからドメインSもしくはURL22へ、またドメインSからURL21へとアクセスしたことが示されている。またドメインRからはURL23、ドメインT、URL26へ、更にドメインTからURL24、25、27へとアクセスしたことが示されている。
【0044】
アクセス追跡フェーズBで生成したアクセスパスより、あるユーザがURL21にアクセスする前にドメインS、ドメインQ、ドメインPにアクセスしていることが分かる。同様に、アクセス追跡フェーズBで生成した別のアクセスパスにより,また別のユーザがURL24にアクセスする前にドメインT、ドメインR、ドメインPにアクセスしていることが分かる。アクセス追跡フェーズBで生成したアクセスパスを分析することにより,
図4に示すようなアクセスのツリー構造を理解することができる。
【0045】
このとき、末端の各URLの中には、悪性URLが含まれている場合がある。この
図4の例では、URL21、URL22、URL25、URL27がそれぞれ悪性URLであったものとする。このような悪性URLの特定は、悪性URLが登録されているブラックリストを参照するようにしてもよい。
【0046】
このアクセスパスの構築は、サーバ4において行われるが、上述した
図4に示すようなパス図をシステム管理者に表示可能な程度に描画することは必須ではなく、アクセス追跡フェーズBにて生成したアクセスパスが用意されていればよい。
【0047】
上述の概念説明の通り、リスク推定フェーズCでは、上記アクセスパス構築手段により構築されたアクセスパスにおける上記ドメイン毎に、悪性URLに到達するリスクを推定する。
図4の例では、ドメインQ、R、S、Tに対して一つ後のアクセスのURLが悪性URLであるリスクを推定することになる。ドメインQ、R、S、Tに対して一つ後のURLが悪性URLであれば、当該ドメインにアクセスした場合に悪性URLに到達する可能性が生じる。リスク推定フェーズCでは、この中でも、次回以降のアクセスにて悪性URLに到達する可能性が高いドメインを危険ドメインとして特定する。
【0048】
ドメイン毎に、悪性URLに到達するリスクを推定する方法としては、以下のリスクレベルの式(1)に基づいて上記リスクを推定するようにしてもよい。
【0049】
リスクレベル=推定対象のドメインにアクセスしたユーザが、次回以降のアクセスにて悪性URLへ到達する回数/当該ドメインへのアクセス総数・・・・・・・・(1)
【0050】
即ち、このリスクレベルは、あるドメインへのアクセス総数のうち、その一つ後のアクセスが悪性URLに到達する確率を示すものである。次回以降のアクセスとは、1回目のアクセスの次の2回目にアクセスのみならず、3回目以降のアクセスもすべて含むものであり、これらについて悪性URLにアクセスするものをカウントする。
【0051】
例えば、
図5に示すようにあるドメインXに対してURL31、URL32、URL33、URL34、URL35、URL36の6回のアクセス総数があり、その6回のアクセスのうち4回が悪性URLに到達したものとする。残りの2回が良性URLであるものとする。かかる場合のリスクレベルは、上記(1)式に基づいて4/6=66.7%となる。
【0052】
実際にこのようなリスクレベルを算出した後、予め設定した閾値とリスクレベルを比較し、リスクレベルが閾値以上の場合には、危険ドメインと判定し、リスクレベルが閾値未満の場合にはこれを危険ドメインと判定しないようにしてもよい。この閾値の設定は、システムの運用業者側において自由に設定することができ、少しでも悪性URLへ到達する可能性のあるドメインを悪性ドメインするか、或いは悪性URLへ到達する可能性がかなり高いもののみを悪性ドメインするか、決めることが可能となる。
【0053】
図4の例では、異なる7つのURLに到達する複数のアクセスパスから構築されているアクセスパスが描かれているが、そのURLのうちの4つは悪性URLであり、ドメインQ及びドメインSを通じたアクセスは、全て悪性URLに到達する。このため、これらのドメインは危険ドメインとみなされる。ドメインTを通じたアクセスは、悪性URLと、安全なURLの両方に到達するが、ドメインTのリスクレベルが閾値以上の確率で悪性URLに到達する場合には、危険ドメインとみなされる。
【0054】
なお、本発明においては、このような危険ドメインの判別は、上述したリスクレベルを参照する場合に限定されるものではなく、アクセスパスを参照し、一連のアクセスの中でユーザが各ドメイン訪問以降に実施する後続のアクセスにて悪性URLに到達するか否かに基づくものであればいかなる方法により推定するようにしてもよい。
【0055】
またリスクレベルを算出した後、これを閾値を介して危険ドメインであるか否かの2段階を判別する以外に、その危険度を3段階以上で判別してもよい。かかる場合には、閾値を2段階以上設定し、いかなる閾値以上で、かついかなる閾値未満かに応じて危険ドメインの危険度を判別するようにしてもよい。
【0056】
リスク推定フェーズを通じて判別された危険ドメインに関しては、これにアクセスしようとするユーザに対して警告を通知するようにしてもよい。かかる場合には、サーバ4において判別された危険ドメインについては、各ユーザ端末2へと通知し、各ユーザ端末2においてユーザが危険ドメインに対しアクセスを実施した,もしくはアクセス要求を発した場合において、危険性が高い旨を注意喚起することができる。又は、各ユーザ端末2においてユーザが危険ドメインにアクセスしようとする場合、当該危険ドメインへのユーザのアクセスを遮断するように通信を制御するようにしてもよい。
【0057】
このように、本発明を適用したドメインリスク推定システム1では、悪性URLに到達する虞があるドメインにユーザが到達した,もしくはアクセスしようとする際に注意喚起等を促し、或いはそのドメインへの通信を遮断することができる。このためユーザが悪性URLに到達してしまうのを未然に防止することが可能となる。
【0058】
特に個々のドメイン自体は、悪性のコンテンツをホストしていないケースも多く、このようなものはブラックリストからは掲載されていない場合が多い。各ドメインへのアクセス後に訪問される後続のURL群の中には、現時点にて悪性特定されていないにしても、本来悪性URLとして特定されるべきURLが存在しているケースが多いため,このドメインにて通信を遮断することにより、ユーザが悪性URLに到達する可能性を従来よりも低減させることができる。
【0059】
また、そのドメイン自体が悪性ではなく、数ホップ先で悪性URLにリンクしている場合であっても、ブラックリストに登録されることはなかったが、本発明において、上述のような危険ドメインを特定することができることから、その危険ドメイン自体をブラックリストに登録して管理することも可能となる。
【符号の説明】
【0060】
1 ドメインリスク推定システム
2 ユーザ端末
4 サーバ
10 公衆通信網