IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7589745収集装置、収集方法および収集プログラム
<>
  • 特許-収集装置、収集方法および収集プログラム 図1
  • 特許-収集装置、収集方法および収集プログラム 図2
  • 特許-収集装置、収集方法および収集プログラム 図3
  • 特許-収集装置、収集方法および収集プログラム 図4
  • 特許-収集装置、収集方法および収集プログラム 図5
  • 特許-収集装置、収集方法および収集プログラム 図6
  • 特許-収集装置、収集方法および収集プログラム 図7
  • 特許-収集装置、収集方法および収集プログラム 図8
  • 特許-収集装置、収集方法および収集プログラム 図9
  • 特許-収集装置、収集方法および収集プログラム 図10
  • 特許-収集装置、収集方法および収集プログラム 図11
  • 特許-収集装置、収集方法および収集プログラム 図12
  • 特許-収集装置、収集方法および収集プログラム 図13
  • 特許-収集装置、収集方法および収集プログラム 図14
  • 特許-収集装置、収集方法および収集プログラム 図15
  • 特許-収集装置、収集方法および収集プログラム 図16
  • 特許-収集装置、収集方法および収集プログラム 図17
  • 特許-収集装置、収集方法および収集プログラム 図18
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】収集装置、収集方法および収集プログラム
(51)【国際特許分類】
   G06F 16/9532 20190101AFI20241119BHJP
   G06F 21/55 20130101ALI20241119BHJP
【FI】
G06F16/9532
G06F21/55
【請求項の数】 5
(21)【出願番号】P 2022556745
(86)(22)【出願日】2020-10-14
(86)【国際出願番号】 JP2020038733
(87)【国際公開番号】W WO2022079824
(87)【国際公開日】2022-04-21
【審査請求日】2023-01-31
【前置審査】
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】中野 弘樹
(72)【発明者】
【氏名】千葉 大紀
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】米国特許出願公開第2011/0087648(US,A1)
【文献】特開2019-174926(JP,A)
【文献】米国特許出願公開第2018/0218079(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 21/00-21/88
(57)【特許請求の範囲】
【請求項1】
所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する取得部と、
サービスごとの前記ユーザ生成コンテンツに出現する単語を用いて、前記ユーザ生成コンテンツの文脈を表すキーフレーズを抽出し、前記キーフレーズを含む検索クエリを生成し、サービスごとに過去の所定期間に悪性と判定されたユーザ生成コンテンツの検索に用いられた前記検索クエリに基づいて、前記検索クエリの悪性度を算出し、前記悪性度が所定の閾値以上の前記検索クエリを当該サービスの悪性になり得る検索クエリとして選定する生成部と、
選定された前記検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する収集部と、
を有することを特徴とする収集装置。
【請求項2】
前記生成部は、出現する単語の組み合わせを用いて検索クエリを生成することを特徴とする請求項1に記載の収集装置。
【請求項3】
前記生成部は、各単語の出現する頻度を用いて検索クエリを生成することを特徴とする請求項1に記載の収集装置。
【請求項4】
収集装置が実行する収集方法であって、
所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する取得工程と、
サービスごとの前記ユーザ生成コンテンツに出現する単語を用いて、前記ユーザ生成コンテンツの文脈を表すキーフレーズを抽出し、前記キーフレーズを含む検索クエリを生成し、サービスごとに過去の所定期間に悪性と判定されたユーザ生成コンテンツの検索に用いられた前記検索クエリに基づいて、前記検索クエリの悪性度を算出し、前記悪性度が所定の閾値以上の前記検索クエリを当該サービスの悪性になり得る検索クエリとして選定する生成工程と、
選定された前記検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する収集工程と、
を含んだことを特徴とする収集方法。
【請求項5】
所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する取得ステップと、
サービスごとの前記ユーザ生成コンテンツに出現する単語を用いて、前記ユーザ生成コンテンツの文脈を表すキーフレーズを抽出し、前記キーフレーズを含む検索クエリを生成し、サービスごとに過去の所定期間に悪性と判定されたユーザ生成コンテンツの検索に用いられた前記検索クエリに基づいて、前記検索クエリの悪性度を算出し、前記悪性度が所定の閾値以上の前記検索クエリを当該サービスの悪性になり得る検索クエリとして選定する生成ステップと、
選定された前記検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する収集ステップと、
をコンピュータに実行させるための収集プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収集装置、収集方法および収集プログラムに関する。
【背景技術】
【0002】
Web上の脅威として、ユーザ心理の脆弱性を悪用するソーシャルエンジニアリング(SE)攻撃が主流となりつつある。そして、悪性なWebサイトへの誘導経路として、攻撃者がオンラインサービスで生成してWeb上に投稿する動画、ブログ、掲示板への書き込み等のユーザ生成コンテンツが増加している。
【0003】
一方、攻撃者の生成するユーザ生成コンテンツは、特定のコンサートやスポーツ等のイベントをターゲットにリアルタイムで集中的に大量に生成され、多数のサービス上で正規ユーザを装って拡散される。そのため、迅速で精度が高い広範囲の検知技術が期待されている。
【0004】
例えば、従来、検索エンジンを用いて悪性なサイトを検知し、再帰的に悪性サイト検索用のクエリを作成している(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0005】
【文献】Luca Invernizzi, Paolo Milani Comparetti, “EVILSEED: A Guided Approach to Finding Malicious Web Pages”、[online]、[2020年7月27日検索]、インターネット<URL:https://sites.cs.ucsb.edu/~vigna/publications/2012_SP_Evilseed.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来技術によれば、検知精度、検知速度、および検知範囲の観点で不十分であった。例えば、非特許文献1に記載の技術では、悪性サイトにアクセスすることが必要であり、検知速度が遅いという問題があった。
【0007】
本発明は、上記に鑑みてなされたものであって、広範囲で悪性サイトの検知を迅速かつ精度高く行うことを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明に係る収集装置は、所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する取得部と、サービスごとの前記ユーザ生成コンテンツに出現する単語を用いて、検索クエリを生成する生成部と、生成された前記検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する収集部と、を有することを特徴とする。
【発明の効果】
【0009】
本発明によれば、広範囲で悪性サイトの検知を迅速かつ精度高く行うことが可能となる。
【図面の簡単な説明】
【0010】
図1図1は、本実施形態の検知装置の概要を説明するための図である。
図2図2は、本実施形態の検知装置の概略構成を例示する模式図である。
図3図3は、収集機能部の処理を説明するための図である。
図4図4は、生成部の処理を説明するための図である。
図5図5は、判定機能部の処理を説明するための図である。
図6図6は、算出部の処理を説明するための図である。
図7図7は、算出部の処理を説明するための図である。
図8図8は、算出部の処理を説明するための図である。
図9図9は、算出部の処理を説明するための図である。
図10図10は、抽出機能部の処理を説明するための図である。
図11図11は、脅威情報を説明するための図である。
図12図12は、脅威情報を説明するための図である。
図13図13は、収集機能部の処理手順を示すフローチャートである。
図14図14は、判定機能部の処理手順を示すフローチャートである。
図15図15は、判定機能部の処理手順を示すフローチャートである。
図16図16は、抽出機能部の処理手順を示すフローチャートである。
図17図17は、抽出機能部の処理手順を示すフローチャートである。
図18図18は、検知プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
【0012】
[検知装置の概要]
図1は検知装置の概要を説明するための図である。本実施形態の検知装置1は、Facebook(登録商標)、Twitter(登録商標)等のオンラインサービスにおいて、ユーザが生成してWeb上に投稿する動画、ブログ、掲示板書き込み等のユーザ生成コンテンツを収集し、解析を行う。
【0013】
具体的には、攻撃者が、ユーザが注目するイベントに対して集中的に大量のユーザ生成コンテンツを生成して拡散すること、また、ユーザが悪性サイトにアクセスしたくなるような類似の文脈でユーザ生成コンテンツを生成することに着目する。
【0014】
そこで、検知装置1は、攻撃者によるユーザ生成コンテンツは、特定のタイミングに類似した文脈で拡散されるという特徴を用いて、攻撃者による悪性のものである可能性の高いユーザ生成コンテンツを効率よく収集し、悪性か否かの解析を行う。また、検知装置1は、解析の結果、悪性のユーザ生成コンテンツであると判定された場合に、この悪性のユーザ生成コンテンツから、脅威となり得る特徴である脅威情報を抽出し、脅威レポートを出力する。
【0015】
例えば、検知装置1は、ユーザ生成コンテンツの類似した文脈を抽出して検索クエリを生成し、検索クエリを用いて悪性である可能性が高いユーザ生成コンテンツを効率よく収集する。また、特定のサービスに特化して、攻撃者が生成するユーザ生成コンテンツと正規ユーザが生成するユーザ生成コンテンツとの特徴差を学習することにより、同時期に生成された特定のサービスの大量のユーザ生成コンテンツの悪性判定を行う。
【0016】
また、検知装置1は、任意のサービスにおいて、攻撃者が生成するユーザ生成コンテンツと正規ユーザが生成するユーザ生成コンテンツとについて、ユーザ生成コンテンツに記載されているURLにアクセスして得られるWebコンテンツの特徴差を学習する。そして、検知装置1は、学習した特徴差を用いて、同時期に任意のサービスで大量に生成されたユーザ生成コンテンツについて、悪性判定を行う。
【0017】
また、検知装置1は、悪性のユーザ生成コンテンツであると判定された場合に、この悪性のユーザ生成コンテンツから、脅威となり得る特徴である脅威情報を抽出し、脅威レポートを出力する。このようにして、検知装置1は、脅威となり得る攻撃をリアルタイムに検知する。
【0018】
[検知装置の構成]
図2は、本実施形態の検知装置の概略構成を例示する模式図である。図2に例示するように、本実施形態の検知装置1は、収集機能部15A、判定機能部15Bおよび抽出機能部15Cを含んで構成される。これらの各機能部は、検知装置1とは異なるハードウェアに実装されてもよい。すなわち、検知装置1は、収集装置、判定装置および抽出装置を有する検知システムとして実装されてもよい。
【0019】
検知装置1は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
【0020】
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部12には、後述する検知処理の結果が表示される。
【0021】
通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、各サービスのユーザ生成コンテンツ等を管理するサーバ等と制御部15との通信を制御する。
【0022】
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、検知装置1を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
【0023】
本実施形態において、記憶部14は、後述する検知処理の結果として得られる脅威情報等を記憶する。また、記憶部14は、検知処理に先立って、後述する取得部15aが各サービスのサーバ等から取得したユーザ生成コンテンツを記憶してもよい。
【0024】
図2の説明に戻る。制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図2に例示するように、収集機能部15A、判定機能部15Bおよび抽出機能部15Cとして機能する。
【0025】
収集機能部15Aは、取得部15a、生成部15bおよび収集部15cを含む。また、判定機能部15Bは、算出部15d、学習部15eおよび判定部15fを含む。また、抽出機能部15Cは、抽出部15g、学習部15eおよび判定部15fを含む。
【0026】
なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、上記したように、収集機能部15A、判定機能部15B、抽出機能部15Cが、それぞれ収集装置、判定装置、抽出装置として異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
【0027】
[収集機能部]
図3は、収集機能部の処理を説明するための図である。図3に示すように、収集機能部15Aは、あるサービスで同時期に生成されたユーザ生成コンテンツ群から類似した文脈をキーフレーズとして抽出して検索クエリを生成する。また、収集機能部15Aは、生成した悪性である可能性の高いキーフレーズの検索クエリを用いて、悪性である可能性が高い任意のサービスのユーザ生成コンテンツを効率よく収集する。
【0028】
図2の説明に戻る。取得部15aは、所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する。具体的には、取得部15aは、入力部11あるいは通信制御部13を介して、各サービスのサーバ等から、ユーザ生成コンテンツを取得する。
【0029】
例えば、取得部15aは、所定のサービスについて、URLが記載されているユーザ生成コンテンツを取得する。その際に、取得部15aは、所定の時間ごとに定常的に、あるいは、“since”、“until”を用いて投稿された時間を指定して、ユーザ生成コンテンツを取得してもよい。また、取得部15aは、“filters”を用いてURLが記載されているユーザ生成コンテンツに限定して取得してもよい。これにより、取得部15aは、リアルタイムに外部のサイトのURLが記載されているユーザ生成コンテンツを取得することが可能となる。
【0030】
なお、取得部15aは、例えば、後述する生成部15bの処理に先立って、取得したユーザ生成コンテンツを記憶部14に記憶させてもよい。
【0031】
生成部15bは、サービスごとのユーザ生成コンテンツに出現する単語を用いて、検索クエリを生成する。例えば、生成部15bは、出現する単語の組み合わせを用いて検索クエリを生成する。
【0032】
具体的には、生成部15bは、取得されたユーザ生成コンテンツを、所定の次元数の特徴ベクトルに変換する。例えば、生成部15bは、ユーザ生成コンテンツに出現する語彙すなわち出現する単語の総体を表すベクトル空間で、各ユーザコンテンツに出現する単語の組み合わせを表す単語の分散表現のベクトルを、当該ユーザ生成コンテンツの特徴ベクトルとする。そして、生成部15bは、単語の分散表現のモデルを予め学習し、文章要約技術を適用する。つまり、文章要約技術により、対象とする文章(テキスト)全体の分散表現と類似した分散表現の単語の組み合わせをキーフレーズとして抽出する。
【0033】
これにより、生成部15bは、各ユーザ生成コンテンツの文脈を表すキーフレーズを抽出する。また、生成部15bは、抽出したキーフレーズを含むユーザ生成コンテンツを検索するための検索クエリを生成する。
【0034】
具体的には、生成部15bは、次式(1)に従って、ユーザ生成コンテンツのテキスト全体とキーフレーズ候補との間の類似度を算出する。ここで、docは対象とする文章全体、Cはキーフレーズ候補、Kは抽出された単語の組み合わせ(フレーズ)の集合である。
【0035】
【数1】
【0036】
上記式(1)において、λを変化させることにより、多様なキーフレーズを抽出することが可能となる。
【0037】
例えば、生成部15bは、テキストから連続するn個の単語を抽出するn-gramの手法により、単語の組み合わせを抽出する。そして、生成部15bは、上記式(1)によりユーザ生成コンテンツのテキスト全体と抽出したn-gramの各フレーズとの間のコサイン類似度を算出し、算出した類似度の値が所定の閾値より高いフレーズのうち最大のものをキーフレーズとして抽出する。
【0038】
ここで、図4は、生成部15bの処理を説明するための図である。図4に示す例では、生成部15bは、3-gramにより単語の組み合わせを抽出している。また、生成部15bは、ユーザ生成コンテンツのテキスト全体「Japan vs Unibted States Free live streaming click here」と各3-gramのフレーズ「japan vs united」、「vs united states」、「united states free」、…との間のコサイン類似度を算出することにより、キーフレーズを抽出する。
【0039】
あるいは、生成部15bは、各単語の出現する頻度を用いて検索クエリを生成する。例えば、生成部15bは、所定の期間に取得されたユーザ生成コンテンツのテキストにおいて、2-gramのフレーズと3-gramのフレーズとの出現する頻度を集計する。そして、生成部15bは、出現する頻度が所定の閾値以上のフレーズをキーフレーズとして抽出し、キーフレーズを含むユーザ生成コンテンツを検索するための検索クエリを生成する。
【0040】
例えば、生成部15bは、3月1日の24時間に、1時間ごとに投稿された全ユーザ生成コンテンツのテキストから3-gramのフレーズを抽出し、各フレーズの出現頻度を算出する。次に、生成部15bは、翌日3月2日の0時-1時の1時間のユーザ生成コンテンツに出現した3-gramのフレーズのうち、統計的に異常な値(外れ値)のものをキーフレーズとして抽出する。つまり、生成部15bは、通常は出現しないフレーズを含むユーザ生成コンテンツが特定のタイミングに大量に投稿された場合に、このフレーズをキーフレーズとする。
【0041】
例えば、生成部15bは、z-scoreを用いて正の外れ値を算出する。図4に示した例において、フレーズ「japan vs united」について、3月1日の24時間の1時間ごとの出現回数が、それぞれ0,0,0,2,4,10,2,5,10,2,4,5,6,2,2,5,12,20,15,20,10,20,25,30であったとする。この場合の平均は8.792回、標準偏差は8.602である。
【0042】
また、3月2日の0時-1時の1時間にこのフレーズが50回出現したとする。この場合のz-scoreは、Z=(50-8.792)/8.602=4.790と算出される。また、外れ値の閾値が、有意な出現頻度5%に対応する1.96である場合には、生成部15bは、このフレーズ「japan vs united」をキーフレーズとして、このキーフレーズを含むユーザ生成コンテンツを検索する検索クエリを生成する。
【0043】
また、生成部15bは、サービスごとに悪性になり得る検索クエリを選定する。例えば、生成部15bは、サービスごとに直近に悪性と判定されたユーザ生成コンテンツの検索に用いられた検索クエリに基づいて、生成した検索クエリの悪性度を算出する。そして、生成部15bは、悪性度が所定の閾値以上の検索クエリを当該サービスの検索クエリとして選定する。
【0044】
ここで、生成部15bは、検索クエリの悪性度として、過去24時間に、この検索クエリを用いて検索され、悪性または良性と判定されたユーザ生成コンテンツの数を用いて、悪性と判定されたユーザ生成コンテンツ数の割合を算出する。また、生成部15bは、キーフレーズの単語ごとの悪性度の平均値を、検出クエリの悪性度とみなして算出する。
【0045】
例えば、過去24時間にあるサービスにおいて、キーフレーズ「rugby world cup streaming」の検索クエリによって検索された悪性のユーザ生成コンテンツ数が20、良性のユーザ生成コンテンツ数が50であったとする。また、キーフレーズ「free live streaming」の検索クエリによって検索された悪性のユーザ生成コンテンツ数が100、良性のユーザ生成コンテンツ数が100であったとする。また、キーフレーズ「rugby japan vs korea」の検索クエリによって検索された悪性のユーザ生成コンテンツ数が10、良性のユーザ生成コンテンツ数が100であったとする。
【0046】
この場合に、単語「japan」の悪性度は、α=10/(10+100)となる。また、単語「rugby」の悪性度は、β={20/(20+50)+10/(10+100)}/2となる。また、また、単語「streaming」の悪性度は、γ={20/(20+50)+100/(100+100)}/2となる。
【0047】
したがって、キーフレーズ「japan rugby streaming」の検索クエリの悪性度のスコアは、(α+β+γ)/3=0.225と算出される。
【0048】
このようにして、生成部15bは、サービスごとに検索クエリの悪性度を算出し、算出した悪性度が閾値以上である検索クエリを、当該サービスの悪性となり得るユーザ生成コンテンツの検索クエリとして選定する。
【0049】
収集部15cは、生成された検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する。例えば、収集部15cは、あるサービスのユーザ生成コンテンツで生成された検索クエリを用いて、他のサービスのユーザ生成コンテンツを収集する。また、収集部15cは、各サービスにおいても、複数の種類のユーザ生成コンテンツを、同一の検索クエリを用いて、生成された日時とともに収集する。
【0050】
例えば、収集部15cは、文章投稿、動画投稿およびイベント告知のユーザ生成コンテンツが生成されるサービスaに対して、同一の検索クエリを3種類の収集URLに適用して、3種類のそれぞれのユーザ生成コンテンツを投稿(生成)された日時とともに収集する。また、動画投稿および動画配信のユーザ生成コンテンツが生成されるサービスbに対して、同一の検索クエリを共通の収集URLに適用して、2種類のユーザ生成コンテンツを投稿された日時とともに収集する。
【0051】
これにより、収集部15cは、特定のタイミングに類似した文脈で拡散されるユーザ生成コンテンツを効率よく収集することが可能となる。特に、収集部15cは、生成部15bが選定した悪性となり得る検索クエリを用いることにより、サービスごとに悪性の可能性が高いユーザ生成コンテンツを容易かつ迅速に収集することが可能となる。
【0052】
なお、収集部15cは、例えば1時間当あたり100クエリというように、収集量に上限を設けてユーザ生成コンテンツの収集を行う。これにより、収集先である各サービスのサーバの負荷を軽減することが可能となる。
【0053】
[判定機能部]
図5は、判定機能部の処理を説明するための図である。図5に示すように、判定機能部15Bは、特定のサービスについて、攻撃者が生成するユーザ生成コンテンツと正規ユーザが生成するユーザ生成コンテンツとの特徴の差を用いて、それぞれの特徴量を表す機械学習モデルを学習により取得する。判定機能部15Bは、特徴量として、ユーザ生成コンテンツのフレーズの共起性を表すテキスト特徴量と、各ユーザ生成コンテンツに出現する単語の類似性を表すグループ特徴量とを用いて、機械学習モデルの学習を行う。
【0054】
これにより、判定機能部15Bは、学習された機械学習モデルを用いて、その後に生成された当該サービスのユーザ生成コンテンツが悪性か否かを判定することが可能となる。例えば、判定機能部15Bは、同時期に生成された特定のサービスの大量のユーザ生成コンテンツの悪性判定をリアルタイムに行うことが可能となる。
【0055】
図2の説明に戻る。算出部15dは、所定の期間に、所定のサービスにおいて、ユーザにより生成されるユーザ生成コンテンツの特徴量を算出する。本実施形態において、ユーザ生成コンテンツの特徴量は、複数のユーザ生成コンテンツに共起する単語の組み合わせの特徴を表すテキスト特徴量と、所定の期間に生成された複数のユーザ生成コンテンツ間の単語の類似に関する特徴を表すグループ特徴量である。
【0056】
ここで、図6図9は、算出部の処理を説明するための図である。まず、算出部15dは、複数のユーザ生成コンテンツに共起する単語の組み合わせの特徴を表すテキスト特徴量を算出する。具体的には、算出部15dは、収集されたユーザ生成コンテンツの集合に共起するフレーズのそれぞれについて、最適化した単語の分散表現のモデルを用いて、ユーザ生成コンテンツの集合のテキスト特徴量を算出する。
【0057】
より具体的には、図6に示すように、算出部15dは、予め、ユーザ生成コンテンツの集合の各ユーザ生成コンテンツで共起するフレーズによる分散表現の特徴ベクトルを出力するモデルの最適化を行う。図6に示す例では、算出部15dは、悪性のユーザ生成コンテンツの集合に出現する単語(1-gramのフレーズ)と2-gramのフレーズとのそれぞれを各行として、各ユーザ生成コンテンツ(文書)を各列とした行列(1.参照)を入力の重みとして用いている。また、算出部15dは、各フレーズに対応する各行の平均を算出している(2.参照)。
【0058】
また、算出部15dは、各文書を各行として、各単語を各列とした行列を出力の重みとして用いて、内積を算出し(3.参照)、各フレーズの分散表現の特徴ベクトルを出力するモデルの最適化を行っている(4.参照)。
【0059】
そして、算出部15dは、図7に示すように、まず、収集されたユーザ生成コンテンツの集合Uに対して、コンテンツ内のURLの文字列から辞書に存在する単語を抽出し、URLの文字列と置き換える(WordSegmentation)。
【0060】
また、算出部15dは、予め、ユーザ生成コンテンツの集合Uに出現する単語(1-gramのフレーズ)と2-gramのフレーズとについて、図6に示したように分散表現のモデルの最適化を行う。そして、算出部15dは、最適化した分散表現のモデルを用いて、各ユーザ生成コンテンツuの特徴ベクトルVECの集合を生成する(WordEmbeddings)。そして、算出部15dは、ユーザ生成コンテンツの集合のテキスト特徴量として、各ユーザ生成コンテンツuの特徴ベクトルVECの平均を算出する。
【0061】
ここで、異なるタイミングのイベントにおいても、悪性のユーザ生成コンテンツには類似した単語が多く存在する傾向にある。そのため、悪性のユーザ生成コンテンツの集合Uについて、上記のように算出される各ユーザ生成コンテンツuの特徴ベクトルVECの平均は、ユーザ生成コンテンツの集合Uの特徴を反映した特徴量となり得る。
【0062】
また、算出部15dは、所定の期間に生成された複数のユーザ生成コンテンツ間の単語の類似に関する特徴を表すグループ特徴量を算出する。具体的には、図8に示すように、算出部15dは、同時期に収集されたユーザ生成コンテンツの集合Uについて、出現する単語(1-gramのフレーズ)に対して、Minhash-LSHアルゴリズムを適用し、各ユーザ生成コンテンツ間の類似度を算出する。ここで、同時期とは、生成された日時の時間差が所定の時間閾値σ以内であることを意味している。そして、算出部15dは、算出した類似度が所定の類似度閾値τを超えた場合に、このユーザ生成コンテンツの集合を類似ユーザ生成コンテンツ集合とする。
【0063】
算出部15dは、類似ユーザ生成コンテンツ集合について、グループ特徴量を特定する。グループ特徴量は、集合のサイズ、集合内のユーザ数、集合内に記載されているユニークなURLの数、集合内のユーザ生成コンテンツに記載されているURLの数の平均、または集合内の平均投稿時間間隔である。
【0064】
例えば、図9に例示するように、算出部15dは、収集されたユーザ生成コンテンツ集合ごとに、類似ユーザ生成コンテンツ集合であるか否かを判定し、類似ユーザ生成コンテンツ集合である場合に、グループ特徴量を特定する。
【0065】
図9には、例えば、ユーザ生成コンテンツ1は、user1により生成され、出現する単語が「Free live streaming URL1 URL1」であることが例示されている。また、ユーザ生成コンテンツ1~3が同一の類似ユーザ生成コンテンツ集合であることが例示されている。また、この類似ユーザ生成コンテンツ集合のグループ特徴量として、平均投稿時間間隔、集合のサイズが3、集合のユニークユーザの数が2(user1、user2)、集合のURLユニーク数が2(URL1、URL2)、1コンテンツのURL数の平均が1.67であることが例示されている。
【0066】
また、ユーザ生成コンテンツ4、5が同一の類似ユーザ生成コンテンツ集合であることが例示されている。また、ユーザ生成コンテンツ6、7は、類似ユーザ生成コンテンツ集合ではないことが例示されている。
【0067】
ここで、悪性のユーザ生成コンテンツは、類似した文脈で同時期に拡散される傾向にある。そのため、悪性のユーザ生成コンテンツ集合について、上記のようにグループ特徴量を特定することが可能である。つまり、このようにグループ特徴量を特定できる場合には、このユーザ生成コンテンツの集合が悪性である可能性が高いことを意味する。
【0068】
図2の説明に戻る。学習部15eは、算出された正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する。また、判定部15fは、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する。
【0069】
具体的には、学習部15eは、ユーザ生成コンテンツのフレーズの共起性を表すテキスト特徴量と、各ユーザ生成コンテンツに出現する単語の類似性を表すグループ特徴量とを用いて、機械学習モデルの教師あり学習を行う。また、判定部15fは、学習された機械学習モデルを用いて、その後に取得された当該サービスのユーザ生成コンテンツが悪性か否かを判定する。
【0070】
このように、判定機能部15Bは、イベント等の特定のタイミングで生成される悪性の可能性が高いユーザ生成コンテンツの特徴を学習し、学習結果を用いて、リアルタイムに収集されたユーザ生成コンテンツの悪性判定を行うことが可能となる。
【0071】
[抽出機能部]
図10は、抽出機能部の処理を説明するための図である。図10に示すように、抽出機能部15Cは、任意のサービスにおいて、ユーザ生成コンテンツに含まれるURLにアクセスして得られるWebコンテンツの特徴量を抽出する。例えば、抽出機能部15Cは、最終的に到達するFQDN(完全指定ドメイン名)のIPアドレスを特定する。
【0072】
また、抽出機能部15Cは、攻撃者が生成するユーザ生成コンテンツと正規ユーザが生成するユーザ生成コンテンツについて、特徴量を用いて学習する。そして、抽出機能部15Cは、抽出機能部15Cは、学習した特徴量を用いて、同時期に任意のサービスで大量に生成されたユーザ生成コンテンツについて、悪性判定を行う。
【0073】
また、抽出機能部15Cは、悪性のユーザ生成コンテンツであると判定された場合に、この悪性のユーザ生成コンテンツから、脅威となり得る特徴である脅威情報を抽出し、脅威レポートを出力する。このようにして、抽出機能部15Cは、脅威となり得る攻撃をリアルタイムに検知することが可能となる。
【0074】
図2の説明に戻る。抽出部15gは、所定の期間に、複数のサービスにおいて、ユーザにより生成されるユーザ生成コンテンツに記載された入口URLにアクセスして該ユーザ生成コンテンツの特徴量を抽出する。ここで抽出される特徴量は、到達する到達WebサイトのWebコンテンツに関する特徴量と、所定の期間に生成された複数のユーザ生成コンテンツに関する特徴量とを含む。
【0075】
具体的には、抽出部15gは、まず、収集されたユーザ生成コンテンツに記載されたURLを入口URLとして、この入口URLにアクセスして、最終的に到達したサイトのURLすなわち到達URLを特定する。なお、入口URLがURL短縮サービスを利用したものである場合には、これをそのまま入口URLとする。
【0076】
ここで、ユーザ生成コンテンツに記載されたURLには、bit[.]ly、tinyuri[.]com等のURL短縮サービスを利用したものが多数存在する。URL短縮サービスは、長いURLを短く簡素なURLに変換して発行するサービスである。URL短縮サービスの多くは、他のサイトの長いURLを自サービスの配下で発行した短いURLと対応付けておくことで、この短いURLへのアクセスがあった場合に、元の長いURLへリダイレクトする。
【0077】
そこで、抽出部15gは、例えば、スクレイピングフレームワークのScrapyとJavascript(登録商標)レンダリングが可能なヘッドレスブラウザSplashとを組み合わせてWebクローラを作成する。これにより、抽出部15gは、ユーザ生成コンテンツに記載されたURLにアクセスし、通信情報を記録する。
【0078】
例えば、抽出部15gは、最終的に到達するWebサイトのWebコンテンツとリダイレクトの回数とを記録する。入口URL「http://bit.ly/aaa」→「http://redirect.com/」→到達URL「http://malicious.com」の順に遷移する通信パターンである場合には、リダイレクト回数2回、最終到達Webサイト「malicious.com」のWebコンテンツ等が記録される。
【0079】
そして、抽出部15gは、到達サイトの各HTMLのタグ数、到達サイト上に表示される文字列の分散表現、リダイレクト回数、入口URLから到達URLまでに遷移するFQDN(完全指定ドメイン名)の数等といった、Webコンテンツの特徴量を抽出する。ここで、HTMLの計上するタグは、例えば、悪性サイトに頻出するTop30のタグとすることにより、抽出部15gが、悪性のユーザ生成コンテンツの特徴量を抽出することが可能となる。
【0080】
また、抽出部15gは、最終的に到達するFQDNのIPアドレスを特定する。また、抽出部15gは、同時期に複数のサービスから同一のIPアドレスに到達する場合に、これらのユーザ生成コンテンツの集合を、類似ユーザ生成コンテンツ集合とする。
【0081】
そして、抽出部15gは、類似ユーザ生成コンテンツ集合について、集合内のユーザ生成コンテンツ数、サービス数、入口URLの数、ユーザ数、テキストの分散表現等といった、ユーザ生成コンテンツの特徴量を抽出する。
【0082】
学習部15eは、抽出された正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する。また、判定部15fは、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する。
【0083】
具体的には、学習部15eは、抽出された最終到達WebサイトのWebコンテンツに関する特徴量と、同時期に生成されたユーザ生成コンテンツに関する特徴量とを用いて、機械学習モデルの教師あり学習を行う。また、判定部15fは、学習された機械学習モデルを用いて、その後に取得された当該サービスのユーザ生成コンテンツが悪性か否かを判定する。
【0084】
このように、学習部15eは、イベント等の特定のタイミングで類似した文脈で生成され、同一のIPアドレスに到達するURLが記載された悪性の可能性が高いユーザ生成コンテンツ集合の特徴を学習する。したがって、判定部15fは、学習結果を用いて、リアルタイムに収集されたユーザ生成コンテンツの悪性判定を行うことが可能となる。
【0085】
また、抽出部15gは、ユーザ生成コンテンツが悪性ユーザにより生成されたと判定された場合に、該ユーザ生成コンテンツの攻撃の特徴を脅威情報として出力する。ここで、図11および図12は、脅威情報を説明するための図である。図11に示すように、脅威情報には、例えばユーザ生成コンテンツに含まれるキーフレーズと、各サービスのユーザ生成コンテンツに記載された入口URL、到達URL等が含まれる。図11に示す例では、キーフレーズ「rugby world cup」を含むサービスaおよびサービスbのユーザ生成コンテンツと、それぞれに記載されている入口URLと、サービスa、bに共通の到達URLが示されている。抽出部15gは、これらの脅威情報を、所定の提供先に対して出力部12または通信制御部13を介して出力する。
【0086】
具体的には、図12に示すように、脅威情報として、提供先に対する通報等の注意喚起や、ブラックリスト等が提供される。図12に示す例では、例えば、単語「定期開催(週に1回)、無料、生放送、Jリーグ」等を含む文脈のユーザ生成コンテンツについて、注意喚起されている。特に、この文脈を用いる攻撃者のアカウントと悪用されたサービスとが通報されている。また、このユーザ生成コンテンツに記載された入口URL、入口URLから遷移する中継URL、中継URLから最終的に到達する到達URLを含むブラックリストが提示されている。
【0087】
また、図12に示す例では、上記の文脈の悪性のユーザ生成コンテンツと、単語「定期開催(4年に1回)、無料、生放送、東京オリンピック」等を含む文脈の悪性のユーザ生成コンテンツとについて、到達URLが共通の悪性サイトであることが提示されている。
【0088】
このように、抽出機能部15Cは、同時期に任意のサービスで大量に生成された悪性の可能性の高いユーザ生成コンテンツについて、入口URLにアクセスして得られる特徴量を用いて、悪性判定を行う。また、抽出機能部15Cは、悪性のユーザ生成コンテンツであると判定された場合に、この悪性のユーザ生成コンテンツから脅威情報を抽出し、脅威レポートを出力する。これにより、抽出機能部15Cは、同時期に任意のサービスで大量に生成された悪性の可能性の高いユーザ生成コンテンツのうち、脅威となり得る攻撃をリアルタイムに検知して、攻撃情報を出力することが可能となる。
【0089】
なお、抽出部15gは、上記の判定機能部15Bにおいて悪性のユーザ生成コンテンツであると判定された場合に、該ユーザ生成コンテンツの誘導文脈に含まれる文字列やURL等の攻撃の特徴を脅威情報として出力してもよい。
【0090】
[検知処理]
次に、図13図17を参照して、本実施形態に係る検知装置1による検知処理について説明する。まず、図13は、収集機能部の収集処理手順を示すフローチャートである。図13のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
【0091】
まず、取得部15aが、所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する(ステップS1)。具体的には、取得部15aは、入力部11あるいは通信制御部13を介して、各サービスのサーバ等から、ユーザ生成コンテンツを取得する。
【0092】
次に、生成部15bは、サービスごとのユーザ生成コンテンツに出現する単語を用いて、検索クエリを生成する。例えば、生成部15bは、出現する単語の組み合わせを用いて検索クエリを生成する(ステップS2)。
【0093】
また、生成部15bは、サービスごとに検索クエリの悪性度を算出し、算出した悪性度が閾値以上である検索クエリを、当該サービスの悪性となり得るユーザ生成コンテンツの検索クエリとして選定する。
【0094】
収集部15cは、選定された検索クエリを用いて、所定のサービスにおいて生成されるユーザ生成コンテンツを収集する(ステップS3)。これにより、一連の収集処理が完了する。
【0095】
次に、図14および図15は、判定機能部の処理手順を示すフローチャートである。まず、図14のフローチャートは、判定機能部15Bにおける学習処理を示し、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
【0096】
算出部15dは、収集機能部15Aが所定の期間に収集した、所定のサービスのユーザ生成コンテンツの特徴量を算出する(ステップS4)。具体的には、算出部15dは、複数のユーザ生成コンテンツに共起する単語の組み合わせの特徴を表すテキスト特徴量と、所定の期間に生成された複数のユーザ生成コンテンツ間の単語の類似に関する特徴を表すグループ特徴量とを算出する。
【0097】
また、学習部15eが、算出された正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する(ステップS5)。これにより、一連の学習処理が完了する。
【0098】
次に、図15のフローチャートは、判定機能部15Bにおける判定処理を示し、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
【0099】
算出部15dは、収集機能部15Aが所定の期間に収集した、所定のサービスのユーザ生成コンテンツの特徴量を算出する(ステップS4)。
【0100】
次に、判定部15fが、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する(ステップS6)。これにより、一連の判定処理が終了する。
【0101】
また、図16および図17は、抽出機能部の処理手順を示すフローチャートである。まず、図16のフローチャートは、抽出機能部15Cにおける学習処理を示し、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
【0102】
まず、抽出部15gが、収集機能部15Aが所定の期間に収集した、複数のサービスのユーザ生成コンテンツに記載された入口URLにアクセスして、該ユーザ生成コンテンツの特徴量を抽出する(ステップS14)。具体的には、抽出部15gは、到達する到達WebサイトのWebコンテンツに関する特徴量と、所定の期間に生成された複数のユーザ生成コンテンツに関する特徴量とを抽出する。
【0103】
また、学習部15eが、抽出された正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する(ステップS5)。これにより、一連の学習処理が完了する。
【0104】
次に、図17のフローチャートは、抽出機能部15Cにおける判定処理を示し、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
【0105】
まず、抽出部15gが、収集機能部15Aが所定の期間に収集した、複数のサービスのユーザ生成コンテンツに記載された入口URLにアクセスして、該ユーザ生成コンテンツの特徴量を抽出する(ステップS14)。
【0106】
また、判定部15fが、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する(ステップS6)。
【0107】
そして、判定部15fが、ユーザ生成コンテンツが悪性ユーザにより生成されたと判定した場合には、抽出部15gが、このユーザ生成コンテンツの攻撃の特徴を脅威情報として出力する(ステップS7)。これにより、一連の判定処理が終了する。
【0108】
なお、図17の処理と同様に、図15に示したステップS6の処理の後にステップS7の処理が行われてもよい。すなわち、判定機能部15Bにおいてユーザ生成コンテンツが悪性ユーザにより生成されたと判定された場合に、抽出部15gがこのユーザ生成コンテンツの攻撃の特徴を脅威情報として出力してもよい。
【0109】
以上、説明したように、本実施形態の収集機能部15Aでは、取得部15aが、所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する。また、生成部15bが、サービスごとのユーザ生成コンテンツに出現する単語を用いて、検索クエリを生成する。また、収集部15cが、生成された検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する。
【0110】
これにより、収集機能部15Aは、特定のタイミングに類似した文脈で拡散される、悪性の可能性が高いユーザ生成コンテンツを効率よく収集することが可能となる。その結果、検知装置1は、広範囲で悪性サイトの検知を迅速かつ精度高く行うことが可能となる。
【0111】
また、生成部15bは、サービスごとに悪性になり得る検索クエリを選定する。これにより、収集機能部15Aは、サービスごとに悪性の可能性が高いユーザ生成コンテンツを容易に迅速に収集することが可能となる。
【0112】
また、判定機能部15Bでは、算出部15dが、所定の期間に、ユーザにより生成されるユーザ生成コンテンツの特徴量を算出する。また、学習部15eが、算出された正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する。また、判定部15fが、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する。
【0113】
これにより、判定機能部15Bは、イベント等の特定のタイミングで生成されるユーザ生成コンテンツの特徴を学習し、学習結果を用いて、リアルタイムに収集されたユーザ生成コンテンツの悪性判定を行うことが可能となる。このように、判定機能部15Bは、悪性サイトの検知を迅速かつ精度高く行うことが可能となる。
【0114】
また、算出部15dが算出するユーザ生成コンテンツの特徴量は、複数のユーザ生成コンテンツに共起する単語の組み合わせの特徴を表すテキスト特徴量と、所定の期間に生成された複数のユーザ生成コンテンツ間の単語の類似に関する特徴を表すグループ特徴量とを含む。
【0115】
これにより、判定機能部15Bは、悪性の可能性が高いユーザ生成コンテンツの特徴を用いて学習し、学習結果を用いて、リアルタイムに収集されたユーザ生成コンテンツの悪性判定を行うことが可能となる。
【0116】
また、抽出機能部15Cでは、抽出部15gが、所定の期間に、複数のサービスにおいて、ユーザにより生成されるユーザ生成コンテンツに記載された入口URLにアクセスして該ユーザ生成コンテンツの特徴量を抽出する。また、学習部15eが、抽出された正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する。また、判定部15fが、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する。
【0117】
これにより、抽出機能部15Cは、イベント等の特定のタイミングで生成される多様なサービスのユーザ生成コンテンツの特徴を用いて、リアルタイムに収集されたユーザ生成コンテンツの悪性判定を行うことが可能となる。このように、抽出機能部15Cは、広範囲で悪性サイトの検知を迅速かつ精度高く行うことが可能となる。
【0118】
また、抽出部15gが抽出する特徴量は、到達する到達WebサイトのWebコンテンツに関する特徴量と、所定の期間に生成された複数のユーザ生成コンテンツに関する特徴量とを含む。これにより、抽出機能部15Cは、有効な悪性サイトの脅威情報を抽出することが可能となる。
【0119】
また、抽出部15gは、ユーザ生成コンテンツが悪性ユーザにより生成されたと判定された場合に、該ユーザ生成コンテンツの攻撃の特徴を脅威情報として出力する。これにより、抽出機能部15Cは、所定の提供先に、有効な悪性サイトの脅威情報を提示することが可能となる。
【0120】
また、本実施形態の検知装置1において、取得部15aが、所定の期間に各サービスにおいて生成されるユーザ生成コンテンツを取得する。また、生成部15bが、サービスごとのユーザ生成コンテンツに出現する単語を用いて、検索クエリを生成する。また、収集部15cが、生成された検索クエリを用いて、複数のサービスにおいて生成されるユーザ生成コンテンツを収集する。また、算出部15dが、収集された所定のサービスのユーザ生成コンテンツの特徴量を算出する。また、学習部15eが、正規ユーザにより生成されるユーザ生成コンテンツの特徴量と、悪性ユーザにより生成されるコンテンツの特徴量とを用いて学習する。また、判定部15fが、学習されたモデルにより、ユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する。また、抽出部15gが、ユーザ生成コンテンツが悪性ユーザにより生成されたと判定された場合に、該ユーザ生成コンテンツに記載された入口URLにアクセスして該ユーザ生成コンテンツの攻撃の特徴を脅威情報として出力する。
【0121】
これにより、検知装置1は、イベント等の特定のタイミングで生成されるユーザ生成コンテンツの特徴を用いて、迅速に悪性のユーザ生成コンテンツを検知して、所定の提供先に、有効な悪性サイトの脅威情報を提示することが可能となる。このように、検知装置1は、広範囲で悪性サイトの検知を迅速に行うことが可能となる。
【0122】
また、生成部15bは、サービスごとに悪性になり得る検索クエリを選定する。これにより、検知装置1は、悪性の可能性の高いユーザ生成コンテンツを容易に収集し、より迅速に悪性のユーザ生成コンテンツを検知することが可能となる。
【0123】
また、算出部15dが算出するユーザ生成コンテンツの特徴量は、複数のユーザ生成コンテンツに共起する単語の組み合わせの特徴を表すテキスト特徴量と、所定の期間に生成された複数のユーザ生成コンテンツ間の単語の類似に関する特徴を表すグループ特徴量とを含む。これにより、検知装置1は、悪性の可能性の高いユーザ生成コンテンツを処理対象として、より迅速に悪性のユーザ生成コンテンツを検知することが可能となる。
【0124】
また、学習部15eは、抽出部15gが抽出する複数のサービスのユーザ生成コンテンツの特徴量を用いて学習し、判定部15fが、学習されたモデルにより、複数のサービスのユーザ生成コンテンツが悪性ユーザにより生成されたものか否かを判定する。これにより、任意のサービスのユーザ生成コンテンツの特徴を用いて、より迅速に悪性のユーザ生成コンテンツの検知が可能となる。
【0125】
また、抽出部15gが抽出する特徴量は、到達する到達WebサイトのWebコンテンツに関する特徴量と、所定の期間に生成された複数のユーザ生成コンテンツに関する特徴量とを含む。これにより、検知装置1は、所定の提供先に、有効な悪性サイトの脅威情報を提示することが可能となる。
【0126】
[プログラム]
上記実施形態に係る検知装置1が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、検知装置1は、パッケージソフトウェアやオンラインソフトウェアとして上記の検知処理を実行する検知プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の検知プログラムを情報処理装置に実行させることにより、情報処理装置を検知装置1として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、検知装置1の機能を、クラウドサーバに実装してもよい。
【0127】
図18は、検知プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
【0128】
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
【0129】
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
【0130】
また、検知プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した検知装置1が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
【0131】
また、検知プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
【0132】
なお、検知プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、検知プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0133】
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
【符号の説明】
【0134】
1 検知装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
15 制御部
15A 収集機能部
15B 判定機能部
15C 抽出機能部
15a 取得部
15b 生成部
15c 収集部
15d 算出部
15e 学習部
15f 判定部
15g 抽出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18