(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024162084
(43)【公開日】2024-11-21
(54)【発明の名称】危険サイトのリスト生成装置、リスト生成方法及びリスト生成プログラム
(51)【国際特許分類】
G06F 16/953 20190101AFI20241114BHJP
【FI】
G06F16/953
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023077271
(22)【出願日】2023-05-09
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】澤谷 雪子
(72)【発明者】
【氏名】磯原 隆将
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HB01
(57)【要約】
【課題】網羅性を向上した危険サイトのリストを効率的に生成できるリスト生成装置、リスト生成方法及びリスト生成プログラムを提供すること。
【解決手段】リスト生成装置1は、ウェブ検索サービスにおいて、頻出する検索クエリの上位所定数を用いた複数の学習用の検索結果を収集する学習データ収集部11と、学習用の検索結果に頻出するドメインを所定のルールに従って抽出するドメイン抽出部12と、複数の条件からなる検索クエリを用いた危険サイト発見用の検索結果を収集する発見用データ収集部13と、危険サイト発見用の検索結果から、ドメイン抽出部12により抽出されたドメインとは異なるドメインを含むURLを抽出する危険サイト抽出部14と、危険サイト抽出部14により抽出されたURLを、危険サイトのリストとして管理するリスト管理部15と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ウェブ検索サービスにおいて、頻出する検索クエリの上位所定数を用いた複数の学習用の検索結果を収集する学習データ収集部と、
前記学習用の検索結果に頻出するドメインを所定のルールに従って抽出するドメイン抽出部と、
複数の条件からなる検索クエリを用いた危険サイト発見用の検索結果を収集する発見用データ収集部と、
前記危険サイト発見用の検索結果から、前記ドメイン抽出部により抽出されたドメインとは異なるドメインを含むURLを抽出する危険サイト抽出部と、
前記危険サイト抽出部により抽出されたURLを、危険サイトのリストとして管理するリスト管理部と、を備えるリスト生成装置。
【請求項2】
前記ドメイン抽出部は、前記頻出するドメインとして、トップレベルドメインを抽出する請求項1に記載のリスト生成装置。
【請求項3】
前記ドメイン抽出部は、前記頻出するドメインとして、予め登録された属性型ドメインを抽出する請求項1に記載のリスト生成装置。
【請求項4】
前記発見用データ収集部は、前記複数の条件にサイトのカテゴリを含める請求項1から請求項3のいずれかに記載のリスト生成装置。
【請求項5】
前記発見用データ収集部は、前記複数の条件として、複数の検索キーワードを含める請求項1から請求項3のいずれかに記載のリスト生成装置。
【請求項6】
前記学習データ収集部は、前記学習用の検索結果として収集するサイト数に上限を設ける請求項1から請求項3のいずれかに記載のリスト生成装置。
【請求項7】
前記危険サイト抽出部は、文書中の単語の重要度を評価するための指標を、前記複数の学習用の検索結果及び前記危険サイト発見用の検索結果を文書とみなし、ドメインを単語とみなして適用し、当該指標のスコアが所定の閾値を超えたドメインを含むURLを抽出する請求項1から請求項3のいずれかに記載のリスト生成装置。
【請求項8】
前記リスト管理部は、前記リストに含まれるURLそれぞれについて、前記発見用データ収集部により検索されたときと同一の検索クエリを用いた検索結果に含まれるか否かを所定のタイミングで確認し、検索結果に含まれない場合に前記リストから削除する請求項1から請求項3のいずれかに記載のリスト生成装置。
【請求項9】
前記リスト管理部は、前記リストに含まれるURLそれぞれについて、当該URLに基づくウェブページで使用されている言語が変化したか否かを所定のタイミングで確認し、変化した場合に前記リストから削除する請求項1から請求項3のいずれかに記載のリスト生成装置。
【請求項10】
ウェブ検索サービスにおいて、頻出する検索クエリの上位所定数を用いた複数の学習用の検索結果を収集する学習データ収集ステップと、
前記学習用の検索結果に頻出するドメインを所定のルールに従って抽出するドメイン抽出ステップと、
複数の条件からなる検索クエリを用いた危険サイト発見用の検索結果を収集する発見用データ収集ステップと、
前記危険サイト発見用の検索結果から、前記ドメイン抽出ステップにおいて抽出されたドメインとは異なるドメインを含むURLを抽出する危険サイト抽出ステップと、
前記危険サイト抽出ステップにおいて抽出されたURLを、危険サイトのリストとして管理するリスト管理ステップと、をコンピュータが実行するリスト生成方法。
【請求項11】
請求項1から請求項3のいずれかに記載のリスト生成装置としてコンピュータを機能させるためのリスト生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、危険サイトのURLを収集する技術に関する。
【背景技術】
【0002】
従来、フィッシングサイト又はマルウェア配布サイト等、ウェブサイトを閲覧したユーザに不利益を及ぼす危険サイトが存在する。これらのウェブサイトは、一見して危険サイトであることを判別できない場合も多いため、自動的に判定することで被害を抑制するシステムが望まれている。
【0003】
そこで、例えば、安全でないサイトのリストと照合することにより、問い合わせに対して安全性を返答するサービス(例えば、非特許文献1)や、検索結果に表示されているURLの安全性を通知するサービス(例えば、非特許文献2)等が提供されている。
【0004】
さらに、非特許文献3では、Whoisの情報(登録者名、登録日、連絡先等)に基づいて機械学習を行い、ボットネットに関わるドメインを特定する手法が提案されている。
また、特許文献1では、特定のサイトにアクセスした際のホストの遷移状況に基づいて、サイトの改ざん検知を行う手法が提案されている。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【非特許文献1】Google LLC、Google Safe Browsing、インターネット、<https://developers.google.com/safe-browsing/v4/>、2023年2月27日
【非特許文献2】トレンドマイクロ株式会社、ウイルスバスタークラウド「Trendツールバー」機能について、インターネット、<https://helpcenter.trendmicro.com/ja-jp/article/tmka-18502>、2023年1月10日
【非特許文献3】久山 真宏,佐々木 良一、「ドメインのWHOIS構造を用いた悪性ドメインの判別手法」、マルチメディア,分散,協調とモバイル(DICOMO2016)シンポジウム、2016年7月
【発明の概要】
【発明が解決しようとする課題】
【0007】
安全でないサイトのリストを保持する場合、リストに掲載されるまでに時間が掛かる場合もある上に、リストの網羅性が低いために検知率が低いという課題があった。また、安全か危険かの判断は、ウェブページが改ざんされていない前提であるため、正規サイトが改ざんされている場合、安全である旨が通知されるおそれがあった。
【0008】
また、Whois情報を用いた悪性ドメインの検知手法では、リスト作成にあたり、ドメインリストの全てに対してWhois情報を収集する必要がある。また、Whois情報は取得に時間を要し、さらに近年では、Whois情報をプライバシ保護しているドメインも存在しており、危険サイトかどうかの判断が難しくなりつつある。
特許文献1の手法であっても、各URLに対し検証が必要なため、危険サイトのリストを作成するには時間及び労力的コストが掛かる。
【0009】
本発明は、網羅性を向上した危険サイトのリストを効率的に生成できるリスト生成装置、リスト生成方法及びリスト生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明に係るリスト生成装置は、ウェブ検索サービスにおいて、頻出する検索クエリの上位所定数を用いた複数の学習用の検索結果を収集する学習データ収集部と、前記学習用の検索結果に頻出するドメインを所定のルールに従って抽出するドメイン抽出部と、複数の条件からなる検索クエリを用いた危険サイト発見用の検索結果を収集する発見用データ収集部と、前記危険サイト発見用の検索結果から、前記ドメイン抽出部により抽出されたドメインとは異なるドメインを含むURLを抽出する危険サイト抽出部と、前記危険サイト抽出部により抽出されたURLを、危険サイトのリストとして管理するリスト管理部と、を備える。
【0011】
前記ドメイン抽出部は、前記頻出するドメインとして、トップレベルドメインを抽出してもよい。
【0012】
前記ドメイン抽出部は、前記頻出するドメインとして、予め登録された属性型ドメインを抽出してもよい。
【0013】
前記発見用データ収集部は、前記複数の条件にサイトのカテゴリを含めてもよい。
【0014】
前記発見用データ収集部は、前記複数の条件として、複数の検索キーワードを含めてもよい。
【0015】
前記学習データ収集部は、前記学習用の検索結果として収集するサイト数に上限を設けてもよい。
【0016】
前記危険サイト抽出部は、文書中の単語の重要度を評価するための指標を、前記複数の学習用の検索結果及び前記危険サイト発見用の検索結果を文書とみなし、ドメインを単語とみなして適用し、当該指標のスコアが所定の閾値を超えたドメインを含むURLを抽出してもよい。
【0017】
前記リスト管理部は、前記リストに含まれるURLそれぞれについて、前記発見用データ収集部により検索されたときと同一の検索クエリを用いた検索結果に含まれるか否かを所定のタイミングで確認し、検索結果に含まれない場合に前記リストから削除してもよい。
【0018】
前記リスト管理部は、前記リストに含まれるURLそれぞれについて、当該URLに基づくウェブページで使用されている言語が変化したか否かを所定のタイミングで確認し、変化した場合に前記リストから削除してもよい。
【0019】
本発明に係るリスト生成方法は、ウェブ検索サービスにおいて、頻出する検索クエリの上位所定数を用いた複数の学習用の検索結果を収集する学習データ収集ステップと、前記学習用の検索結果に頻出するドメインを所定のルールに従って抽出するドメイン抽出ステップと、複数の条件からなる検索クエリを用いた危険サイト発見用の検索結果を収集する発見用データ収集ステップと、前記危険サイト発見用の検索結果から、前記ドメイン抽出ステップにおいて抽出されたドメインとは異なるドメインを含むURLを抽出する危険サイト抽出ステップと、前記危険サイト抽出ステップにおいて抽出されたURLを、危険サイトのリストとして管理するリスト管理ステップと、をコンピュータが実行する。
【0020】
本発明に係るリスト生成プログラムは、前記リスト生成装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0021】
本発明によれば、網羅性を向上した危険サイトのリストが効率的に生成される。
【図面の簡単な説明】
【0022】
【
図1】実施形態におけるリスト生成装置の機能構成を示す図である。
【
図2】実施形態におけるリスト生成方法の手順を例示するフローチャートである。
【発明を実施するための形態】
【0023】
[第1実施形態]
以下、本発明の第1実施形態を例示する。
本実施形態のリスト生成装置は、インターネット上の危険サイトのURLを収集し、ユーザによるアクセスを制限するためのブラックリストを生成及び管理するものである。
【0024】
ウェブ検索サービスにおける検索結果の中には、頻出するトップレベルドメイン(TLD)と、出現率の低いTLDとが存在し、後者の中に改ざんサイトを含む危険サイトが多く存在する。この理由としては、次のことが考えられる。
すなわち、検索エンジンによるキーワード検索の地理的・言語的差異として、例えば、日本国内での検索結果には、「.jp」や「.com」等で終わるURLが多く、カナダ国内での検索結果には「.ca」や「.com」等で終わるURLが多い。ところが、危険サイトは、脆弱な海外の正規サイトを狙った攻撃により改ざんされたものが多いため、「.jp」ではないccTLDを持ちながら日本語表記のウェブページであることが多い。
【0025】
本実施形態のリスト生成装置は、この特徴を利用して、頻出するTLDとは異なるTLDが検索結果に出現した場合に、この稀なTLDを含むURLを、危険サイトとしてリスト化する。
【0026】
図1は、本実施形態におけるリスト生成装置1の機能構成を示す図である。
リスト生成装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0027】
制御部10は、リスト生成装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、後述の各機能部として動作し、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0028】
記憶部20は、ハードウェア群をリスト生成装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスクドライブ(HDD)等であってよい。
具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(リスト生成プログラム)の他、管理対象のURLリスト、及び各種のデータベース等を記憶する。
【0029】
制御部10は、学習データ収集部11と、ドメイン抽出部12と、発見用データ収集部13と、危険サイト抽出部14と、リスト管理部15とを備える。
【0030】
学習データ収集部11は、ウェブ検索サービスにおいて、頻出する検索クエリの上位所定数を用いた複数の学習用の検索結果を収集する。
具体的には、学習データ収集部11は、特定言語及び地域で頻出するTLDを収集するために、ウェブ検索サービスにおける統計情報(例えば、Google Trends等)で、総合検索上位(例えば、全てのカテゴリの過去30日間の検索ランキング)となっている検索クエリN件について、それぞれの検索クエリに対する検索結果である応答を収集する。
【0031】
学習データ収集部11は、このN件の検索クエリに対する検索結果を学習データとする。ここで、1つのクエリに対する応答数が多い場合には、学習データ収集部11は、学習用の検索結果として取得するサイト数に上限Xを設けてもよい。
【0032】
ドメイン抽出部12は、学習データ収集部11により収集された学習用の検索結果に頻出するドメインを所定のルールに従って抽出する。
具体的には、ドメイン抽出部12は、頻出するドメインとして、トップレベルドメイン(TLD)を抽出してよい。あるいは、ドメイン抽出部12は、頻出するドメインとして、予め候補として登録された属性型ドメインを抽出してもよい。
なお、属性型ドメインとは、例えば、「.co.jp」又は「.or.jp」等、TLD(例えば「.jp」)に加えて、組織の種別毎に区別された属性を含むドメインである。
【0033】
TLDのみを対象とする場合、例えば、日本国内での日本語による検索結果には、「.com」、「.jp」等が頻出し、他国の言語でウェブページが構成されている他国のドメインの出現率は低い。
頻出するTLDを抽出するための所定のルールは限定されないが、例えば、出現率の降順にソートした場合の上位から所定数、あるいは、出現率が閾値以上のTLDが抽出されてよい。また、出現率に検索結果の出力順に応じた重み付けをした評価値に基づいて、上位所定数、又は閾値以上のものが抽出されてもよい。
【0034】
発見用データ収集部13は、学習データ収集部11と同一のウェブ検索サービスにおいて、複数の条件からなる検索クエリを用いた危険サイト発見用の検索結果を収集する。
ここで、検索結果数が膨大にならないような条件下においては、検索結果の中の危険サイトの比率が高まると考えられる。そこで、発見用データ収集部13は、次のような検索クエリに対する検索結果を収集する。
【0035】
例えば、発見用データ収集部13は、サイトのカテゴリを含めた複数の条件を検索クエリとする。あるいは、発見用データ収集部13は、複数の検索キーワードを含めた複数の条件を検索クエリとする。
さらに、発見用データ収集部13は、これら両方の条件を含めて、カテゴリ毎に複数の検索キーワードを用いて検索クエリを作成してもよい。
【0036】
危険サイト抽出部14は、発見用データ収集部13により収集された危険サイト発見用の検索結果から、ドメイン抽出部12により抽出された頻出するドメインとは異なるドメインを含むURLを抽出する。
【0037】
リスト管理部15は、危険サイト抽出部14により抽出されたURLを、危険サイトのリストとして管理し、ユーザによるアクセスを制限するためのブラックリストとして提供する。
【0038】
ここで、危険サイトのうち、正規サイトのページデータが改ざんされたサイトの場合は、時間の経過とともに修正されるため、危険サイトから正規サイトへと変化する。したがって、正規サイトをブラックリストに登録した状態を維持することは、好ましくない状況である。
このため、リスト管理部15は、危険サイトの発見日、及び発見した元の検索クエリを記憶部20に保持しておき、定期的に検索を行うことで、生存状況を確認する。
【0039】
すなわち、リスト管理部15は、生成したリストに含まれるURLそれぞれについて、発見用データ収集部13により検索されたときと同一の検索クエリを用いた検索結果に含まれるか否かを所定のタイミングで定期的に確認し、検索結果に含まれない場合にリストから削除する。
また、リスト管理部15は、リストに含まれるURLそれぞれについて、このURLに基づくウェブページで使用されている言語が変化したか否かを所定のタイミングで確認し、変化した場合に正規サイトに変化した(修正された)と判断してリストから削除してもよい。
【0040】
図2は、本実施形態におけるリスト生成方法の手順を例示するフローチャートである。
ここでは、学習用の検索結果及び危険サイト発見用の検索結果からの抽出対象とするドメインをTLDとする。
【0041】
ステップS1において、学習データ収集部11は、ウェブ検索サービスにおける頻出の検索クエリをN件抽出する。
ステップS2において、学習データ収集部11は、ステップS1で抽出したN件の検索クエリのそれぞれによる学習用の検索結果を収集する。
【0042】
ステップS3において、ドメイン抽出部12は、ステップS2で収集されたN件の検索結果の中から、頻出するTLDを抽出する。
【0043】
ステップS4において、発見用データ収集部13は、n個のカテゴリ(全てのカテゴリではなく、アート、エンターテインメント、ゲーム、金融、…等)それぞれの検索上位にある複数のキーワードから構成される検索クエリをm件ずつ抽出する。
ステップS5において、発見用データ収集部13は、抽出した合計n×m件の検索クエリを用いて危険サイト発見用の検索結果を収集する。
【0044】
ステップS6において、危険サイト抽出部14は、ステップS5で収集された危険サイト発見用の検索結果に含まれるURLのうち、ステップS3で抽出された頻出TLDとは異なるTLDを持つURLを抽出する。
ステップS7において、リスト管理部15は、ステップS6で抽出されたURLを、危険サイトのリストとして記憶部20に格納する。
【0045】
[第2実施形態]
以下、本発明の第2実施形態を例示する。
本実施形態のリスト生成装置1の機能構成は、第1実施形態(
図1)と共通であるが、危険サイト抽出部14の処理内容が異なる。
【0046】
危険サイト抽出部14は、文書中の単語の重要度を評価するためのTF-IDF又はBM25等の指標を、複数の学習用の検索結果及び発見用の検索結果を文書とみなし、ドメインを単語とみなして適用する。これにより、危険サイト抽出部14は、この指標のスコアが所定の閾値を超えたドメインを含むURLを抽出する。
【0047】
具体的には、危険サイト抽出部14は、危険サイト発見用の検索結果、及びN件の学習データそれぞれを、合計N+1件の文書データとみなし、危険サイト発見用の検索結果に出現するドメインそれぞれのスコア(単語の重要度)を算出する。危険サイト抽出部14は、このスコアが高いドメインを持つURLを危険サイトのリストに追加する。
【0048】
前述の実施形態によれば、リスト生成装置1は、検索のトレンド上位の検索クエリを用いた検索結果を取得することで、頻出するドメイン(TLD又は属性型ドメイン)を学習し、新たに検索した危険サイト発見用の検索結果の中で、頻出するドメインを含まないURLを、改ざんサイトを含む危険サイトとみなして収集する。
【0049】
これにより、リスト生成装置1は、検索クエリ数に応じてリスト内の危険サイト数を増やすことができるので、従来よりも危険サイトのリスト生成の効率、すなわち網羅性が向上する。また、検索結果として得られるURLのドメインの解析のみで完結できるため、時間的、労力的コストが削減される。
このようにして収集された危険サイトのURLは、ユーザのアクセスを制限するためのブラックリストとして活用でき、例えば、メール内に記載のURL等をリストと照合することにより、アクセスすることなく危険サイトを検知することができる。
【0050】
ここで、リスト生成装置1によるリスト生成方法によると、例えば日本国内での検索結果を用いた場合に、「.com」、「.jp」等の頻出TLDを含む危険サイトを見逃すことが考えられるが、従来方式よりは多く危険サイトを収集することができる。また、異なる言語又は国で上記の手法を適用することで、日本国内での頻出TLDを含む危険サイトを収集することも可能となる。
【0051】
リスト生成装置1は、解析対象をTLDとすることで、検索結果のURLから容易に危険サイトを抽出することができる。
また、リスト生成装置1は、属性型ドメインを対象とすることで、TLDを対象とするよりも詳細な解析が可能となるため、リストの網羅性を向上させることができる。
【0052】
リスト生成装置1は、危険サイト発見用の検索クエリにサイトのカテゴリを含めることにより、あるいは、複数の検索キーワードを用いることにより、適切に検索条件を絞り込み、危険サイトの出現率を高めて効率的に発見することができる。
【0053】
リスト生成装置1は、学習用の検索結果として収集するサイト数に上限を設けることにより、処理負荷を上げすぎることなく適切に頻出ドメインを学習できる。
【0054】
リスト生成装置1は、文書中の単語の重要度を評価するための既存の指標を、危険サイト発見用の検索結果中のドメインの重要度を評価するために適用し、スコアの高いドメインを含むURLを危険サイトとして抽出してもよい。
これにより、リスト生成装置1は、学習用の検索結果の中には現れにくく、危険サイト発見用の検索結果の中に集中して現れるドメインを含んだURLを適切に抽出できる。
【0055】
リスト生成装置1は、リストに含まれるURLそれぞれについて、発見時と同一の検索クエリによって検索されるか否かを定期的に確認することにより、検索されなくなった場合に該当のサイトの改ざんデータが修正されたと判断できる。これにより、リスト生成装置1は、危険サイトのリストを定期的に更新して適切な状態を保つことができる。
【0056】
リスト生成装置1は、リストに含まれるURLそれぞれについて、ウェブページで使用されている言語が変化したか否かを定期的に確認することにより、変化した場合に該当のサイトの改ざんデータが修正されたと判断できる。これにより、リスト生成装置1は、危険サイトのリストを定期的に更新して適切な状態を保つことができる。
【0057】
なお、前述の実施形態により、例えば危険サイトへのアクセスを防止できることから、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、持続可能な産業化を推進するとともに、イノベーションの拡大を図る」に貢献することが可能となる。
【0058】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0059】
リスト生成装置1によるリスト生成方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0060】
1 リスト生成装置
10 制御部
11 学習データ収集部
12 ドメイン抽出部
13 発見用データ収集部
14 危険サイト抽出部
15 リスト管理部
20 記憶部