特許7182764 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＢＢソフトサービス株式会社の特許一覧

特許7182764不正Ｗｅｂページ検出装置、不正Ｗｅｂページ検出装置の制御方法及び制御プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-11-25

(45)【発行日】2022-12-05

(54)【発明の名称】不正Ｗｅｂページ検出装置、不正Ｗｅｂページ検出装置の制御方法及び制御プログラム

(51)【国際特許分類】

G06F 21/55 20130101AFI20221128BHJP

【ＦＩ】

G06F21/55

【請求項の数】 6

(21)【出願番号】P 2020539928

(86)(22)【出願日】2018-08-29

(86)【国際出願番号】 JP2018031993

(87)【国際公開番号】W WO2020044469

(87)【国際公開日】2020-03-05

【審査請求日】2021-08-03

(73)【特許権者】

【識別番号】506129924

【氏名又は名称】ＢＢソフトサービス株式会社

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100180806

【弁理士】

【氏名又は名称】三浦剛

(74)【代理人】

【識別番号】100159259

【弁理士】

【氏名又は名称】竹本実

(72)【発明者】

【氏名】田代隆一

【審査官】平井誠

(56)【参考文献】

【文献】米国特許出願公開第２０１６／０３５２７７２（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１３／００８６６７７（ＵＳ，Ａ１）

【文献】特開平０７－３１９８９７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ２１／５５

(57)【特許請求の範囲】

【請求項1】

複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ（HyperText Markup Language）文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する記憶部と、
検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書を取得する取得部と、
前記検査対象ＨＴＭＬ文書及び前記不正ＨＴＭＬ文書に対して、ＨＴＭＬタグ内に記載されているＵＲＬのパスを削除する処理を実行する前処理部と、
前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出するベクトル算出部と、
前記検査対象ＨＴＭＬ文書の特徴ベクトルと、前記複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する類似度算出部と、
前記算出された各類似度としきい値とに基づいて、前記検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する判定部と、
前記判定部による判定結果を出力する判定結果出力部と、
を有し、
前記記憶部が記憶する特徴ベクトルは、前記前処理部により処理された不正ＨＴＭＬ文書の特徴ベクトルであり、
前記ベクトル算出部は、前記前処理部により処理された検査対象ＨＴＭＬ文書に基づいて前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出する、
ことを特徴とする不正Ｗｅｂページ検出装置。

【請求項2】

前記取得部は、新たな不正ＨＴＭＬ文書をさらに取得し、
前記ベクトル算出部は、ＨＴＭＬ文書の特徴ベクトルを出力するように事前学習された学習器により前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出し、かつ、前記学習器により前記新たな不正ＨＴＭＬ文書の特徴ベクトルをさらに算出し、
前記類似度算出部は、前記検査対象ＨＴＭＬ文書の特徴ベクトルと、前記新たな不正ＨＴＭＬ文書の特徴ベクトルとの類似度をさらに算出する、請求項１に記載の不正Ｗｅｂページ検出装置。

【請求項3】

前記記憶部は、さらに、複数の正規Ｗｅｂページのそれぞれを構成する複数の正規ＨＴＭＬ文書の前記特徴ベクトルを、前記正規Ｗｅｂページを示す正規ＵＲＬ（Uniform Resource Locator）と関連付けて記憶し、
前記取得部は、さらに、前記検査対象Ｗｅｂページを示す検査対象ＵＲＬを取得し、
前記類似度算出部は、前記検査対象ＵＲＬ中のドメイン名が前記複数の正規ＵＲＬ中のドメイン名の何れとも一致しない場合、さらに、前記検査対象ＨＴＭＬ文書の特徴ベクトルと、前記複数の正規ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する、請求項１又は２に記載の不正Ｗｅｂページ検出装置。

【請求項4】

前記類似度算出部は、前記不正ＨＴＭＬ文書のサイズと前記検査対象ＨＴＭＬ文書のサイズとの差が所定値以上である場合、当該不正ＨＴＭＬ文書について前記類似度を算出しない、請求項１～３の何れか一項に記載の不正Ｗｅｂページ検出装置。

【請求項5】

記憶部及び出力部を有する不正Ｗｅｂページ検出装置の制御方法であって、前記不正Ｗｅｂページ検出装置が、
複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ（HyperText Markup Language）文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを前記記憶部に記憶し、
検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書を取得し、
前記検査対象ＨＴＭＬ文書及び前記不正ＨＴＭＬ文書に対して、ＨＴＭＬタグ内に記載されているＵＲＬのパスを削除する処理を実行し、
前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出し、
前記検査対象ＨＴＭＬ文書の特徴ベクトルと、前記複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出し、
前記算出された各類似度としきい値とに基づいて、前記検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定し、
前記判定の結果を前記出力部に出力する、
ことを含み、
前記記憶部が記憶する特徴ベクトルは、前記ＵＲＬのパスを削除する処理により処理された不正ＨＴＭＬ文書の特徴ベクトルであり、
前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出する処理は、前記ＵＲＬのパスを削除する処理により処理された検査対象ＨＴＭＬ文書に基づいて前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出する、
ことを特徴とする不正Ｗｅｂページ検出装置の制御方法。

【請求項6】

記憶部及び出力部を有する不正Ｗｅｂページ検出装置の制御プログラムであって、
複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ（HyperText Markup Language）文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを前記記憶部に記憶し、
検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書を取得し、
前記検査対象ＨＴＭＬ文書及び前記不正ＨＴＭＬ文書に対して、ＨＴＭＬタグ内に記載されているＵＲＬのパスを削除する処理を実行し、
前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出し、
前記検査対象ＨＴＭＬ文書の特徴ベクトルと、前記複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出し、
前記算出された各類似度としきい値とに基づいて、前記検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定し、
前記判定の結果を前記出力部に出力する、
ことを不正Ｗｅｂページ検出装置に実行させ、
前記記憶部が記憶する特徴ベクトルは、前記ＵＲＬのパスを削除する処理により処理された不正ＨＴＭＬ文書の特徴ベクトルであり、
前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出する処理は、前記ＵＲＬのパスを削除する処理により処理された検査対象ＨＴＭＬ文書に基づいて前記検査対象ＨＴＭＬ文書の特徴ベクトルを算出する、
ことを特徴とする制御プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、不正Ｗｅｂページ検出装置、不正Ｗｅｂページ検出装置の制御方法及び制御プログラムに関する。

【背景技術】

【0002】

インターネットを利用したフィッシング詐欺の増加に対応するため、フィッシング詐欺による被害を防止するための技術が普及しつつある。

【0003】

例えば、特許文献１には、フィッシングサイトのＵＲＬ（Uniform Resource Locator）へのアクセスを禁止する通信制御装置が記載されている。通信制御装置は、ユーザの端末と、ユーザの端末が通信する他の装置との間の通信経路に設けられ、端末が送信した通信データに含まれるアクセス先のコンテンツのＵＲＬと、フィッシングサイトリスト、即ちブラックリストに含まれるＵＲＬとを比較する。通信制御装置は、端末のアクセス先のコンテンツのＵＲＬが、ブラックリストに含まれるＵＲＬに合致した場合、そのコンテンツへのアクセスを禁止する。

【先行技術文献】

【特許文献】

【0004】

【文献】国際公開第２００６／０８７９０８号

【発明の概要】

【0005】

近年、フィッシングサイトを構築するためのツールがフィッシング詐欺を行う犯罪者の間で広く流通し、犯罪者は、ツールを使用することによって、容易に且つ短期間でフィッシングサイトを生成できるようになっている。犯罪者は、ツールを使用して新たなフィッシングサイトを生成し、ユーザを新たなサイトの不正Ｗｅｂページに誘導してフィッシング詐欺を実行し、生成したフィッシングサイトを閉鎖することを、短期間で実行する。犯罪者は、不正Ｗｅｂページがブラックリストに掲載される前にフィッシング詐欺を実行することができ、従来のブラックリスト方式では、不正Ｗｅｂページを検出できない場合がある。

【0006】

不正Ｗｅｂページ検出装置、不正Ｗｅｂページ検出装置の制御方法及び制御プログラムの目的は、Ｗｅｂページが不正Ｗｅｂページであるか否かを高精度に判定することを可能にすることにある。

【0007】

本実施形態に係る不正Ｗｅｂページ検出装置は、複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ（HyperText Markup Language）文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する記憶部と、検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書を取得する取得部と、検査対象ＨＴＭＬ文書の特徴ベクトルを算出するベクトル算出部と、検査対象ＨＴＭＬ文書の特徴ベクトルと、複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する類似度算出部と、算出された各類似度としきい値とに基づいて、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する判定部と、判定部による判定結果を出力する判定結果出力部と、を有する。

【0008】

本実施形態に係る不正Ｗｅｂページ検出装置において、記憶部は、さらに、複数の正規Ｗｅｂページのそれぞれを構成する複数の正規ＨＴＭＬ文書の特徴ベクトルを、正規Ｗｅｂページを示す正規ＵＲＬ（Uniform Resource Locator）と関連付けて記憶し、取得部は、さらに、検査対象Ｗｅｂページを示す検査対象ＵＲＬを取得し、類似度算出部は、検査対象ＵＲＬ中のドメイン名が複数の正規ＵＲＬ中のドメイン名の何れとも一致しない場合、さらに、検査対象ＨＴＭＬの特徴ベクトルと、複数の正規ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出することが好ましい。

【0009】

本実施形態に係る不正Ｗｅｂページ検出装置において、類似度算出部は、不正ＨＴＭＬ文書のサイズと検査対象ＨＴＭＬ文書のサイズとの差が所定値以上である場合、不正ＨＴＭＬ文書について類似度を算出しないことが好ましい。

【0010】

本実施形態に係る不正Ｗｅｂページ検出装置において、複数の文字列は、ＨＴＭＬタグ及び単語を含むことが好ましい。

【0011】

本実施形態に係る不正Ｗｅｂページ検出装置において、複数の文字列は、連続する文字列であることが好ましい。

【0012】

本実施形態に係る記憶部及び出力部を有する不正Ｗｅｂページ検出装置の制御方法は、不正Ｗｅｂページ検出装置が、複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶部に記憶し、検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書を取得し、検査対象ＨＴＭＬ文書の特徴ベクトルを算出し、検査対象ＨＴＭＬ文書の特徴ベクトルと、複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出し、算出された各類似度としきい値とに基づいて、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定し、判定の結果を出力部に出力する、ことを含む。

【0013】

本実施形態に係る記憶部及び出力部を有する不正Ｗｅｂページ検出装置の制御プログラムは、複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶部に記憶し、検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書を取得し、検査対象ＨＴＭＬ文書の特徴ベクトルを算出し、検査対象ＨＴＭＬ文書の特徴ベクトルと、複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出し、算出された各類似度としきい値とに基づいて、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定し、判定の結果を出力部に出力する、ことを不正Ｗｅｂページ検出装置に実行させる。

【0014】

本実施形態によれば、不正Ｗｅｂページ検出装置、不正Ｗｅｂページ検出装置の制御方法及び制御プログラムは、Ｗｅｂページが不正Ｗｅｂページであるか否かを高精度に判定することを可能にする。

【0015】

本発明の目的及び効果は、特に請求項において指摘される構成要素及び組み合わせを用いることによって認識され且つ得られるだろう。前述の一般的な説明及び後述の詳細な説明の両方は、例示的及び説明的なものであり、特許請求の範囲に記載されている本発明を制限するものではない。

【図面の簡単な説明】

【0016】

【図1】不正Ｗｅｂページ検出装置における処理概要の一例を示す図である。

【図2】通信システム１の概略構成の一例を示す図である。

【図3】不正Ｗｅｂページ検出装置４の概略構成の一例を示す図である。

【図4】（ａ）は不正Ｗｅｂページテーブルのデータ構造の一例を示す図であり、（ｂ）は正規Ｗｅｂページテーブルのデータ構造の一例を示す図である。

【図5】不正Ｗｅｂページ検出装置４の動作の一例を示すフローチャートである。

【図6】初期処理の一例を示すフローチャートである。

【図7】検査処理の一例を示すフローチャートである。

【図8】（ａ）は形態素解析部４３３への入力データの一例であり、（ｂ）は形態素解析部４３３の出力データの一例である。

【図9】特徴ベクトルの処理概要の一例を示す図である。

【図10】（ａ）～（ｄ）は端末２が表示する画面の一例を示す図である。

【発明を実施するための形態】

【0017】

以下、図面を参照しつつ、本発明の様々な実施形態について説明する。ただし、本発明の技術的範囲はそれらの実施形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。

【0018】

図１は、不正Ｗｅｂページ検出装置における処理概要の一例を示す図である。

【0019】

不正Ｗｅｂページ検出装置は、既知の複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ文書を記憶している。不正Ｗｅｂページは、フィッシング詐欺で使用されるＷｅｂページであり、既知の不正ＷｅｂページのＵＲＬは、例えば、フィッシング対策協議会等の団体によって提供される。Ｗｅｂページには、ＨＴＭＬ文書と、ＨＴＭＬ文書中に記載された画像等が含まれる。

【0020】

最初に、不正Ｗｅｂページ検出装置は、複数の不正ＨＴＭＬ文書毎に、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトル１～ｎを算出する。文字列とは、ＨＴＭＬタグ又は単語である。複数の文字列の関連状態とは、各文字列の間の関係性であり、例えば、各ＨＴＭＬ文書内における所定の複数の文字列の配置関係である。複数の文字列は、ＨＴＭＬタグ及び単語を含むことがあり、連続する文字列であってもよい。特徴ベクトルは、複数次元、例えば１×１５０のベクトルである。各特徴ベクトルは、文書内の文字列の配置が類似する２つのＨＴＭＬ文書の特徴ベクトルが、非類似の２つのＨＴＭＬ文書の特徴ベクトルよりも類似するように算出される。

【0021】

次に、不正Ｗｅｂページ検出装置は、検査対象Ｗｅｂページに含まれる検査対象ＨＴＭＬ文書を取得する。検査対象Ｗｅｂページは、フィッシング詐欺で使用されるＷｅｂページであるか否かを検査する対象のＷｅｂページであり、例えば、不正Ｗｅｂページ検出装置とは異なる端末がアクセスを要求したＷｅｂページである。不正Ｗｅｂページ検出装置は、不正ＨＴＭＬ文書と同様に、検査対象ＨＴＭＬ文書に対して特徴ベクトルＡを算出する。

【0022】

次に、不正Ｗｅｂページ検出装置は、算出した特徴ベクトルＡと、各特徴ベクトル１～ｎとの類似度１～ｎを算出する。

【0023】

次に、不正Ｗｅｂページ検出装置は、算出した類似度１～ｎの最大値としきい値とを比較することにより、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する。不正Ｗｅｂページ検出装置は、類似度１～ｎの最大値がしきい値以上である場合、検査対象Ｗｅｂページはその最大値となる類似度が算出された特徴ベクトルに対応する不正Ｗｅｂページに類似しており、不正Ｗｅｂページであると判定する。

【0024】

不正Ｗｅｂページ検出装置は、既知の複数の不正ＨＴＭＬ文書及び検査対象ＨＴＭＬ文書毎に、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する。不正Ｗｅｂページ検出装置は、特徴ベクトルの類似度に基づいて、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する。不正Ｗｅｂページは、共通のツールにより生成されていることが多く、共通のツールにより生成された複数の不正Ｗｅｂページは、ツールに起因する共通の特徴を有し、類似する可能性が高い。このため、不正Ｗｅｂページ検出装置は、ＨＴＭＬ文書の特徴ベクトルを使用することにより、検査対象ＷｅｂページのＵＲＬが既知の不正ＷｅｂページのＵＲＬと異なっていても、検査対象Ｗｅｂページが不正Ｗｅｂページか否かを高精度に判定することができる。

【0025】

＜実施形態＞
図２は、通信システム１の概略構成の一例を示す図である。

【0026】

通信システム１は、端末２、Ｗｅｂサーバ３及び不正Ｗｅｂページ検出装置４等を有する。端末２、Ｗｅｂサーバ３及び不正Ｗｅｂページ検出装置４は、インターネット等の通信ネットワーク５を介して接続される。

【0027】

端末２は、ユーザがＷｅｂページの閲覧に使用する端末である。端末２は、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の通信方式により、通信ネットワーク５を介してＷｅｂサーバ３及び不正Ｗｅｂページ検出装置４と通信し、通信の内容に応じた表示を行う。

【0028】

Ｗｅｂサーバ３は、端末２及び不正Ｗｅｂページ検出装置４による要求に応じて、Ｗｅｂページを送信するサーバである。Ｗｅｂサーバ３は、ＴＣＰ／ＩＰ等の通信方式により、通信ネットワーク５を介して端末２及び不正Ｗｅｂページ検出装置４と通信する。

【0029】

端末２は、ＵＲＬを指定してＷｅｂサーバ３のＷｅｂページにアクセスする際に、同一のＵＲＬを不正Ｗｅｂページ検出装置４に送信する。不正Ｗｅｂページ検出装置４は、送信されたＵＲＬを指定してＷｅｂサーバ３にＨＴＭＬ文書の取得を要求し、Ｗｅｂサーバ３からＨＴＭＬ文書を受信する。不正Ｗｅｂページ検出装置４は、受信したＨＴＭＬ文書が不正ＨＴＭＬ文書であるか否かを判定し、判定した結果を端末２に送信する。端末２は、送信された検査結果に応じて、Ｗｅｂサーバ３から送信されたＷｅｂページ又は警告画面を表示する。

【0030】

図３は、不正Ｗｅｂページ検出装置４の概略構成の一例を示す図である。

【0031】

不正Ｗｅｂページ検出装置４は、通信部４１と、記憶部４２と、処理部４３とを有する。

【0032】

通信部４１は、有線ＬＡＮ等の有線の通信インターフェース回路、又は、無線ＬＡＮ等の無線の通信インターフェース回路を有する。通信部４１は、通信ネットワーク５を介して、端末２、Ｗｅｂサーバ３等とＴＣＰ／ＩＰ等の通信方式により通信を行う。通信部４１は、端末２、Ｗｅｂサーバ３等から受信したデータを処理部４３に供給する。通信部４１は、処理部４３から供給されたデータを端末２、Ｗｅｂサーバ３等に送信する。通信部４１は、出力部の一例である。

【0033】

記憶部４２は、例えば、半導体メモリ、磁気ディスク装置及び光ディスク装置のうちの少なくとも一つを有する。記憶部４２は、処理部４３による処理に用いられるドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム、データ等を記憶する。

【0034】

例えば、記憶部４２は、ドライバプログラムとして、通信部４１を制御する通信デバイスドライバプログラム等を記憶する。また、記憶部４２は、オペレーティングシステムプログラムとして、ＴＣＰ／ＩＰ等の通信方式による接続制御プログラム等を記憶する。また、記憶部４２は、アプリケーションプログラムとして、各種データの送受信を行うデータ処理プログラム等を記憶する。コンピュータプログラムは、例えばＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory）等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて記憶部４２にインストールされてもよい。

【0035】

記憶部４２には、データとして、不正Ｗｅｂページテーブル及び正規Ｗｅｂページテーブル等が記憶される。不正Ｗｅｂページテーブル及び正規Ｗｅｂページテーブルの詳細については後述する。

【0036】

処理部４３は、一又は複数個のプロセッサ及びその周辺回路を有し、不正Ｗｅｂページ検出装置４の全体的な動作を統括的に制御する。処理部４３は、例えば、ＣＰＵ（Central Processing Unit）である。なお、処理部４３は、ＤＳＰ（digital signal processor）、ＬＳＩ（large scale integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programming Gate Array）等でもよい。

【0037】

処理部４３は、不正Ｗｅｂページ検出装置４の各種処理が記憶部４２に記憶されているプログラム等に応じて適切な手順で実行されるように、通信部４１等の動作を制御する。処理部４３は、記憶部４２に記憶されているプログラム（ドライバプログラム、オペレーティングシステムプログラム、アプリケーションプログラム等）に基づいて処理を実行する。また、処理部４３は、複数のプログラム（アプリケーションプログラム等）を並列に実行できる。

【0038】

処理部４３は、取得部４３１、前処理部４３２、形態素解析部４３３、ベクトル算出部４３４、類似度算出部４３５、判定部４３６及び判定結果出力部４３７等を有する。処理部４３が有するこれらの各部は、処理部４３が有するプロセッサ上で実行されるプログラムによって実装される機能モジュールである。あるいは、処理部４３が有するこれらの各部は、独立した集積回路、マイクロプロセッサ、又はファームウェアとして不正Ｗｅｂページ検出装置４に実装されてもよい。

【0039】

図４（ａ）は、不正Ｗｅｂページテーブルのデータ構造の一例を示す図である。

【0040】

不正Ｗｅｂページテーブルには、不正Ｗｅｂページを識別するためのＩＤ、不正Ｗｅｂページを示すＵＲＬ、不正Ｗｅｂページに含まれる不正ＨＴＭＬ文書、不正ＨＴＭＬ文書に基づいて算出された特徴ベクトル等が関連付けられて記憶される。不正ＨＴＭＬ文書は、不正Ｗｅｂページテーブルに複数個記憶され、複数の不正ＨＴＭＬ文書は、複数の不正Ｗｅｂページのそれぞれを構成する。なお、特徴ベクトルは、不正Ｗｅｂページテーブルとは別に、ＩＤ、ＵＲＬ等と関連付けられて記憶部４２上に記憶されてもよい。また、ＵＲＬは、不正Ｗｅｂページテーブルに含まれなくてもよい。特徴ベクトルが不正Ｗｅｂページテーブルに記憶されるか否かに関わらず、記憶部４２は、複数の不正Ｗｅｂページのそれぞれを構成する複数の不正ＨＴＭＬ文書の、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを記憶する。

【0041】

図４（ｂ）は、正規Ｗｅｂページテーブルのデータ構造の一例を示す図である。

【0042】

正規Ｗｅｂページテーブルには、正規Ｗｅｂページを識別するためのＩＤ、正規Ｗｅｂページを示す正規ＵＲＬ、正規Ｗｅｂページに含まれる正規ＨＴＭＬ文書、正規ＨＴＭＬ文書に基づいて算出された特徴ベクトル等が関連付けられて記憶される。なお、特徴ベクトルは、正規Ｗｅｂページテーブルとは別に、ＩＤ、正規ＵＲＬ等と関連付けられて記憶部４２上に記憶されてもよい。特徴ベクトルが正規Ｗｅｂページテーブルに記憶されるか否かに関わらず、記憶部４２は、複数の正規Ｗｅｂページのそれぞれを構成する複数の正規ＨＴＭＬ文書の特徴ベクトルを、正規Ｗｅｂページを示す正規ＵＲＬと関連付けて記憶する。

【0043】

図５は、不正Ｗｅｂページ検出装置４の動作の一例を示すフローチャートである。

【0044】

以下、図５に示したフローチャートを参照しつつ、不正Ｗｅｂページ検出装置４の動作の例を説明する。以下に説明する動作は、予め記憶部４２に記憶されているプログラムに基づき、主に処理部４３により各要素と協働して実行される。

【0045】

最初に、取得部４３１は、記憶部４２から不正Ｗｅｂページテーブル又は正規Ｗｅｂページテーブルを読み出し、複数の不正ＨＴＭＬ文書及び複数の正規ＨＴＭＬ文書をそれぞれ取得する（ステップＳ１１）。

【0046】

次に、不正Ｗｅｂページ検出装置４は、初期処理を実行する（ステップＳ１２）。不正Ｗｅｂページ検出装置４のベクトル算出部４３４は、初期処理において、複数の不正ＨＴＭＬ文書及び複数の正規ＨＴＭＬ文書毎に特徴ベクトルを算出する。初期処理の詳細については後述する。ステップＳ１１及びステップＳ１２の処理は、不正Ｗｅｂページ検出装置４が起動した直後に実行される。

【0047】

次に、不正Ｗｅｂページ検出装置４の取得部４３１は、端末２からＵＲＬを受信するまで待機する（ステップＳ１３）。端末２は、ＵＲＬを指定してＷｅｂページの送信要求をＷｅｂサーバ３に送信し、同一のＵＲＬを不正Ｗｅｂページ検出装置４に送信する。不正Ｗｅｂページ検出装置４の取得部４３１は、端末２から送信されたＵＲＬを通信部４１を介して受信し、検査対象Ｗｅｂページを示す検査対象ＵＲＬとして取得する。

【0048】

次に、取得部４３１は、取得したＵＲＬを指定して、Ｗｅｂサーバ３にＨＴＭＬ文書の送信要求を通信部４１を介して送信する（ステップＳ１４）。

【0049】

次に、Ｗｅｂサーバ３は、ＨＴＭＬ文書の送信要求を受信すると、ＵＲＬで指定されたＨＴＭＬ文書を不正Ｗｅｂページ検出装置４に送信する。取得部４３１は、ＨＴＭＬ文書を通信部４１を介してＷｅｂサーバ３から受信し、検査対象Ｗｅｂページを構成する検査対象ＨＴＭＬ文書として取得する（ステップＳ１５）。

【0050】

次に、不正Ｗｅｂページ検出装置４の判定部４３６は、検査対象ＨＴＭＬ文書に対して検査処理を実行する（ステップＳ１６）。判定部４３６は、検査処理において、検査対象ＨＴＭＬ文書を含む検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する。検査処理の詳細については後述する。

【0051】

次に、判定結果出力部４３７は、検査処理における判定結果を通信部４１を介して端末２に送信することにより出力する（ステップＳ１７）。次に、判定結果出力部４３７は、処理をステップＳ１３へ戻し、ステップＳ１３からステップＳ１７の処理を繰り返す。

【0052】

一方、端末２は、判定結果を受信すると、受信した判定結果を特定する。端末２は、判定結果が正規Ｗｅｂページであることを示す場合、Ｗｅｂサーバ３から受信したＷｅｂページを表示し、判定結果が不正Ｗｅｂページであることを示す場合、Ｗｅｂサーバ３から受信したＷｅｂページを表示せず、警告画面を表示する。

【0053】

なお、端末２は、不正Ｗｅｂページ検出装置４からＷｅｂページが不正Ｗｅｂページであることを示す判定結果を受信する前にＷｅｂサーバ３からＷｅｂページを受信し、表示している場合がある。その場合、端末２は、表示しているＷｅｂページに代えて、警告画面を表示する。

【0054】

図６は、初期処理の一例を示すフローチャートである。初期処理は図５のステップＳ１２で実行される。

【0055】

最初に、前処理部４３２は、ステップＳ１１で取得した複数の不正ＨＴＭＬ文書及び複数の正規ＨＴＭＬ文書に対して、それぞれ前処理を実行する（ステップＳ２１）。前処理部４３２は、前処理として、各ＨＴＭＬ文書の内容をＨＴＭＬ文法規則に基づいて解析し、解析結果に基づいて各ＨＴＭＬ文書中の一部の文字を削除する。例えば、前処理部４３２は、各ＨＴＭＬ文書中の改行を表す制御文字である改行コード、改行コードの前後の空白文字、コメント文字列又はJavaScriptの実行コード等を削除する。また、前処理部４３２は、各ＨＴＭＬ文書のＨＴＭＬタグ内に記載されているＵＲＬのパスを削除してもよく、一部のＨＴＭＬタグを削除して、他の一部のＨＴＭＬタグがＨＴＭＬ文書に残るように処理してもよい。

【0056】

次に、形態素解析部４３３は、前処理部４３２が処理した各ＨＴＭＬ文書に対して、それぞれ形態素解析処理を実行する（ステップＳ２２）。形態素解析部４３３は、各ＨＴＭＬ文書に対して形態素解析を実行することにより、各ＨＴＭＬ文書の内容を、複数の文字列の集合体に変換する。形態素解析部４３３は、例えばＭｅＣａｂ等の公知の形態素解析エンジンを用いて形態素解析処理を実行する。形態素解析部４３３は、形態素解析処理において、例えば、＜ｐ＞等のＨＴＭＬタグ、及び、ＨＴＭＬタグ以外の単語がそれぞれ１つの文字列となるように処理する。

【0057】

次に、ベクトル算出部４３４は、形態素解析部４３３が処理した各ＨＴＭＬ文書に対して、それぞれ各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する（ステップＳ２３）。

【0058】

ベクトル算出部４３４は、複数の文字列を有するＨＴＭＬ文書が入力された場合に、ＨＴＭＬ文書の特徴ベクトルを出力するように事前学習された学習器により、特徴ベクトルを算出する。この学習器は、例えばニューラルネットワーク等により、既存のＷｅｂページのＨＴＭＬ文書を用いて事前学習され、予め記憶部４２に記憶されている。学習器は、ＨＴＭＬ文書内の文字列の配置が類似するＨＴＭＬ文書については類似する特徴ベクトルを出力し、ＨＴＭＬ文書内の文字列の配置の状態が類似しないＨＴＭＬ文書については類似しない特徴ベクトルを出力する様に学習されている。学習器は、この学習を、例えばＤｏｃ２Ｖｅｃ等の公知の手法を用いて実行する。事前学習に用いられるＨＴＭＬ文書は、例えばＷｉｋｉｐｅｄｉａのＨＴＭＬ文書である。

【0059】

なお、ベクトル算出部４３４は、学習器を使用せずに特徴ベクトルを算出してもよい。その場合、ベクトル算出部４３４は、二以上の所定数の文字列が各文書内に出現する出現数を各要素とする特徴ベクトルを算出する。所定数の文字列は、予め複数設定され、記憶部４２に記憶されている。この場合、複数の文字列の関連状態とは、各文字列の出現数の大小関係であり、類似するＨＴＭＬ文書については、各文字列の出現数の大小関係は類似するものとなる。したがって、ベクトル算出部４３４は、ＨＴＭＬ文書内の各文字列の出現数が相互に類似するＨＴＭＬ文書については類似する特徴ベクトルを算出し、ＨＴＭＬ文書内の各文字列の出現数が類似しないＨＴＭＬ文書については類似しない特徴ベクトルを算出する。

【0060】

次に、ベクトル算出部４３４は、算出した各特徴ベクトルを、それぞれ対応する不正ＨＴＭＬ文書又は正規ＨＴＭＬ文書と関連付けて不正Ｗｅｂページテーブル又は正規Ｗｅｂページテーブルに記憶する（ステップＳ２４）。以上により、一連の処理は終了する。

【0061】

図７は、検査処理の一例を示すフローチャートである。初期処理は図５のステップＳ１６で実行される。

【0062】

最初に、前処理部４３２は、ステップＳ１５で取得した検査対象ＨＴＭＬ文書に対して、前処理を実行する（ステップＳ３１）。この前処理は、対象が検査対象ＨＴＭＬ文書である点を除いてステップＳ２１で説明した前処理と同一である。

【0063】

次に、形態素解析部４３３は、前処理部４３２が処理した検査対象ＨＴＭＬ文書に対して、形態素解析処理を実行する（ステップＳ３２）。この形態素解析処理は、対象が検査対象ＨＴＭＬ文書である点を除いてステップＳ２２で説明した形態素解析処理と同一である。

【0064】

次に、ベクトル算出部４３４は、形態素解析部４３３が処理した検査対象ＨＴＭＬ文書の特徴ベクトルを算出する（ステップＳ３３）。この特徴ベクトルの算出処理は、対象が検査対象ＨＴＭＬ文書である点を除いてステップＳ２３で説明した特徴ベクトルの算出処理と同一である。ステップＳ２３及びステップＳ３３のように、ベクトル算出部４３４は、複数の不正ＨＴＭＬ文書、複数の正規ＨＴＭＬ文書及び検査対象ＨＴＭＬ文書毎に、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する。

【0065】

次に、類似度算出部４３５は、検査対象ＨＴＭＬ文書の特徴ベクトルと、ステップＳ２４で記憶した複数の不正ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する（ステップＳ３４）。

【0066】

次に、判定部４３６は、算出された各類似度としきい値とに基づいて、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する（ステップＳ３５）。

【0067】

類似度の最大値がしきい値以上である場合（ステップＳ３５－Ｙ）、判定部４３６は、検査対象Ｗｅｂページが、その最大値となる類似度が算出された特徴ベクトルに対応する不正Ｗｅｂページであると判定し（ステップＳ３６）、一連の処理を終了する。

【0068】

一方、類似度の最大値がしきい値未満である場合（ステップＳ３５－Ｎ）、判定部４３６は、正規Ｗｅｂテーブルを読み出し、複数の正規ＵＲＬを取得する（ステップＳ３７）。

【0069】

次に、判定部４３６は、ステップＳ１３で取得した検査対象ＵＲＬ中のドメイン名が、ステップＳ３７で取得した複数の正規ＵＲＬ中のドメイン名の何れかと一致するか否かを判定する（ステップＳ３８）。

【0070】

検査対象ＵＲＬ中のドメイン名が複数の正規ＵＲＬ中のドメイン名の何れかと一致する場合（ステップＳ３８－Ｙ）、判定部４３６は、検査対象Ｗｅｂページは正規のＷｅｂサイトに属しており、不正Ｗｅｂページでないと判定する（ステップＳ３９）。以上により、一連の処理を終了する。

【0071】

検査対象ＵＲＬ中のドメイン名が複数の正規ＵＲＬ中のドメイン名の何れとも一致しない場合（ステップＳ３８－Ｎ）、判定部４３６は、検査対象Ｗｅｂページは正規のＷｅｂサイトに属していないと判定する。次に、類似度算出部４３５は、検査対象ＨＴＭＬの特徴ベクトルと、複数の正規ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する（ステップＳ４０）。

【0072】

次に、判定部４３６は、算出された各類似度の最大値と第２しきい値とを比較することにより、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する（ステップＳ４１）。第２しきい値は、ステップＳ３５で使用するしきい値と同一の値でも、異なる値でもよい。

【0073】

判定部４３６は、ステップＳ３８において、検査対象Ｗｅｂページは正規のＷｅｂサイトに属していないと判定している。したがって、類似度の最大値が第２しきい値以上である場合、判定部４３６は、検査対象Ｗｅｂページは登録されている正規Ｗｅｂページに類似する不正Ｗｅｂページであると判定する（ステップＳ４２）。

【0074】

一方、類似度の最大値が第２しきい値未満である場合、判定部４３６は、検査対象Ｗｅｂページは正規のＷｅｂサイトに属していないが、正規Ｗｅｂページのいずれとも内容が類似していないため、未登録の正規Ｗｅｂページであると判定する（ステップＳ４３）。以上により、一連の処理を終了する。

【0075】

図８（ａ）は、形態素解析部４３３への入力データの一例であり、図８（ｂ）は、形態素解析部４３３の出力データの一例である。

【0076】

図８（ａ）に示す様に、形態素解析部４３３への入力データは、不正Ｗｅｂページ、正規Ｗｅｂページ及び検査対象Ｗｅｂページの各ＨＴＭＬ文書から、前処理部４３２が改行コード等の一部の文字を削除したＨＴＭＬ文書である。

【0077】

図８（ｂ）に示す様に、形態素解析部４３３の出力データは、形態素解析部４３３が、入力データに対して形態素解析を実行し、実行結果として得られる形態素を単語単位にまとめて二重引用符の間に配置したデータである。なお、形態素解析部４３３は、入力データからＨＴＭＬタグを除去した後に形態素解析を実行し、形態素を単語単位にまとめた後、元の位置に二重引用符が付されたＨＴＭＬタグを挿入することによって、出力データを生成してもよい。

【0078】

図９は、特徴ベクトルの処理概要の一例を示す図である。

【0079】

記憶部４２には、複数の各不正Ｗｅｂページ１～ｎの不正ＨＴＭＬ文書１～ｎが記憶されている。まず、ステップＳ２３において、ベクトル算出部４３４は、記憶部４２に記憶された各不正Ｗｅｂページ１～ｎの不正ＨＴＭＬ文書１～ｎに対して、それぞれ特徴ベクトル１～ｎを算出する。一方、ステップＳ３３において、ベクトル算出部４３４は、取得部４３１が取得した検査対象Ｗｅｂページの検査対象ＨＴＭＬ文書に対して、特徴ベクトルＡを算出する。そして、ステップＳ３４において、類似度算出部４３５は、特徴ベクトルＡと、特徴ベクトル１～ｎのそれぞれとのコサイン類似度１～ｎを算出する。２つの特徴ベクトルは、コサイン類似度が１に近いほど類似し、－１に近いほど類似しない。図９に示す例では、類似度１は０．９であり、類似度２は０．４であり、類似度ｎは－０．９である。

【0080】

ステップＳ３５において、判定部４３６は、類似度１～ｎの最大値である０．９と、しきい値とを比較することにより、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する。例えば、しきい値が０．８である場合、類似度１～ｎの最大値０．９は、しきい値以上であるため、検査対象Ｗｅｂページは、不正Ｗｅｂページ１に対応する不正Ｗｅｂページであると判定される。

【0081】

図１０（ａ）～図１０（ｄ）は、端末２が表示する画面の一例を示す図である。

【0082】

図１０（ａ）に示す様に、端末２は、ユーザによりＷｅｂブラウザの起動が指示されると、Ｗｅｂブラウザを起動して表示する。Ｗｅｂブラウザの表示画面６０は、ＵＲＬ入力領域６１と、表示領域６２とを含む。端末２は、Ｗｅｂブラウザを起動すると、不正Ｗｅｂページ検出装置４と通信するアプリケーションプログラムを起動する。

【0083】

図１０（ｂ）に示す様に、ユーザによりＷｅｂブラウザの表示画面７０のＵＲＬ入力領域６１にＵＲＬが入力された場合、端末２は、指示されたＵＲＬが示すＷｅｂサーバ３へアクセスし、Ｗｅｂサーバ３からＷｅｂページを受信する。さらに、端末２は、アプリケーションプログラムに従って、Ｗｅｂブラウザに入力されたＵＲＬを不正Ｗｅｂページ検出装置４に送信する。

【0084】

不正Ｗｅｂページ検出装置４は、端末２から送信されたＵＲＬをステップＳ１３で取得し、ステップＳ１４～ステップＳ１７の処理を実行して、判定結果を端末２に送信する。

【0085】

図１０（ｃ）に示す様に、端末２は、端末２から送信されたＵＲＬに対応するＷｅｂページが正規Ｗｅｂページであることを示す判定結果を不正Ｗｅｂページ検出装置４から受信した場合、Ｗｅｂサーバ３から受信したＷｅｂページ８１を表示画面８０に表示する。

【0086】

図１０（ｄ）に示す様に、端末２は、端末２から送信されたＵＲＬに対応するＷｅｂページが不正Ｗｅｂページであることを示す判定結果を不正Ｗｅｂページ検出装置４から受信した場合、警告画面９０を表示する。警告画面用のデータは、端末２に予め記憶されている。警告画面９０には、文字表示９１と、終了ボタン９２とが表示される。文字表示９１は、Ｗｅｂサーバ３から受信したＷｅｂページがフィッシングページである可能性があることを警告する文章である。終了ボタン９２が押下されると、端末２は、警告画面９０を閉じる。

【0087】

このように、不正Ｗｅｂページ検出装置４は、既知の複数の不正ＨＴＭＬ文書及び検査対象ＨＴＭＬ文書毎に、各ＨＴＭＬ文書内の複数の文字列の関連状態に基づく特徴ベクトルを算出する。不正Ｗｅｂページ検出装置４は、算出した特徴ベクトルの類似度に基づいて、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する。不正Ｗｅｂページは、共通のツールにより生成されていることが多く、共通のツールにより生成された複数の不正Ｗｅｂページは、ツールに起因する共通の特徴を有し、類似する可能性が高い。このため、不正Ｗｅｂページ検出装置４は、ＨＴＭＬ文書の特徴ベクトルを使用することにより、検査対象ＷｅｂページのＵＲＬが既知の不正ＷｅｂページのＵＲＬと異なっていても、検査対象Ｗｅｂページが不正Ｗｅｂページか否かを高精度に判定することができる。

【0088】

また、不正Ｗｅｂページ検出装置４は、検査対象ＵＲＬ中のドメイン名が複数の正規ＵＲＬ中のドメイン名の何れとも一致しない場合、さらに、検査対象ＨＴＭＬの特徴ベクトルと、複数の正規ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する。不正Ｗｅｂページ検出装置４は、検査対象ＨＴＭＬ文書が正規ＨＴＭＬ文書と類似するか否かも判定するため、正規Ｗｅｂページと類似する様に作成され、まだ不正Ｗｅｂページとして登録されていない不正Ｗｅｂページを検出することができる。

【0089】

また、不正Ｗｅｂページ検出装置４は、ＨＴＭＬタグ及び単語を含む複数の文字列の関連状態に基づいて特徴ベクトルを算出する。共通のツールにより生成された複数の不正Ｗｅｂページは、ＨＴＭＬタグと単語との間にツールに起因する特定の関連性を有している可能性が高い。不正Ｗｅｂページ検出装置４は、ＨＴＭＬタグと単語との関連状態が検査対象Ｗｅｂページと各不正Ｗｅｂページとで類似しているか否かを判定するため、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かをより高精度に検出することができる。

【0090】

また、不正Ｗｅｂページ検出装置４は、特徴ベクトルを、複数の連続する文字列の関連状態に基づいて算出する。連続する文字列において同様なＨＴＭＬタグ及び／又は単語の組が使用される傾向を有するＷｅｂページ群は、類似するＷｅｂページである可能性が高い。したがって、不正Ｗｅｂページ検出装置４は、不正Ｗｅｂページとして登録されているＷｅｂページと類似する不正Ｗｅｂページをより高精度に検出することができる。

【0091】

なお、前処理部４３２は、ステップＳ２１及びステップＳ３１において、前処理により生成された各ＨＴＭＬ文書のサイズをそれぞれ算出してもよい。その場合、類似度算出部４３５は、ステップＳ３４において、算出した複数の不正ＨＴＭＬ文書のそれぞれのサイズと算出した検査対象ＨＴＭＬ文書のサイズとの差を算出し、サイズの差が所定値以上である場合、当該不正ＨＴＭＬ文書について類似度を算出しない。同様に、類似度算出部４３５は、ステップＳ４０において、算出した複数の正規ＨＴＭＬ文書のそれぞれのサイズと算出した検査対象ＨＴＭＬ文書のサイズとの差を算出し、サイズの差が所定値以上である場合、当該正規ＨＴＭＬ文書について類似度を算出しない。

【0092】

検査対象ＨＴＭＬ文書のサイズが不正ＨＴＭＬ文書のサイズ又は正規ＨＴＭＬ文書のサイズと明らかに異なる場合、２つのＨＴＭＬ文書は明らかに異なる。したがって、不正Ｗｅｂページ検出装置４は、不正Ｗｅｂページの判定精度を低減することなく、検査処理の高速化を図ることができる。なお、類似度算出部４３５は、前処理部４３２が前処理を実行する前の各ＨＴＭＬ文書のサイズの差を算出してもよい。または、類似度算出部４３５は、形態素解析部４３３が形態素解析処理を実行した後の各ＨＴＭＬ文書のサイズの差を算出してもよい。

【0093】

また、形態素解析部４３３は、前処理部４３２が前処理を実行したＨＴＭＬ文書に代えて、ステップＳ１１で取得した各正規ＨＴＭＬ文書、及び、ステップＳ１５で取得した検査対象ＨＴＭＬ文書に対して、形態素解析処理を実行してもよい。

【0094】

また、ベクトル算出部４３４は、形態素解析部４３３が処理したＨＴＭＬ文書に代えて、前処理部４３２が前処理を実行したＨＴＭＬ文書に対して特徴ベクトルを算出してもよい。ベクトル算出部４３４は、形態素解析部４３３が処理したＨＴＭＬ文書に代えて、ステップＳ１１で取得した各正規ＨＴＭＬ文書、及び、ステップＳ１５で取得した検査対象ＨＴＭＬ文書に対して特徴ベクトルを算出してもよい。例えば、ＨＴＭＬ文書が単語毎に分かち書きされる英語等の言語で記載されている場合、ベクトル算出部４３４は、入力されたＨＴＭＬ文書をＨＴＭＬタグの切れ目及び単語と単語との間の空白で区切った複数の文字列に基づいて、特徴ベクトルを算出してもよい。

【0095】

また、判定部４３６は、ステップＳ３５において、しきい値以上の類似度と判定された不正Ｗｅｂページが所定数以上であるか否かを判定してもよい。例えば、判定部４３６は、しきい値以上の類似度と判定された不正Ｗｅｂページの数が、所定数以上である場合に検査対象Ｗｅｂページが不正Ｗｅｂページであると判定し、所定数以上でない場合に検査対象Ｗｅｂページが不正Ｗｅｂページでないと判定してもよい。

【0096】

また、ステップＳ３７～ステップＳ４３の処理を省略し、判定部４３６は、ステップＳ３４で算出された各類似度の最大値がしきい値未満である場合、検査対象Ｗｅｂページは正規Ｗｅｂページであると判定してもよい。

【0097】

また、判定部４３６がステップＳ３７～ステップＳ３８の処理を実行するタイミングを、ステップＳ３１の処理の前に変更し、ステップＳ３５－ＮのときにステップＳ４０に処理を進めてもよい。例えば、判定部４３６は、検査処理の最初にステップＳ３７～ステップＳ３８の処理を実行する。ステップＳ３８－Ｙの場合、判定部４３６は、ステップＳ３９と同様に、検査対象Ｗｅｂページは正規のＷｅｂサイトに属しており、不正Ｗｅｂページでないと判定して、一連の処理を終了する。ステップＳ３８－Ｙの場合、判定部４３６は、処理をステップＳ３１に進める。

【0098】

また、記憶部４２は、さらに、不正Ｗｅｂページテーブルの各不正ＨＴＭＬ文書に、どの正規ＵＲＬに対応してフィッシング詐欺を実行する不正ＨＴＭＬ文書であるかを示すＵＲＬ情報を関連付けて記憶してもよい。この場合、類似度算出部４３５は、ステップＳ３４において、さらに、検査対象ＨＴＭＬ文書の特徴ベクトルと、複数の正規ＨＴＭＬ文書の特徴ベクトルのそれぞれとの類似度を算出する。そして、類似度算出部４３５は、各不正ＨＴＭＬ文書に関する類似度と、各不正ＨＴＭＬ文書のＵＲＬ情報が示す正規ＵＲＬに関連付けられた正規ＨＴＭＬ文書に関する類似度との平均値を算出する。判定部４３６は、ステップＳ３５において、類似度算出部４３５が算出した各平均値の最大値がしきい値以上であるか否かを判定することにより、検査対象Ｗｅｂページが不正Ｗｅｂページであるか否かを判定する。

【0099】

また、不正Ｗｅｂページ検出装置４は、運用中に新たな不正Ｗｅｂページ又は正規ＷｅｂページのＵＲＬを取得し、各Ｗｅｂページに対応する特徴ベクトルを算出してもよい。この場合、取得部４３１は、取得したＵＲＬを指定して不正ＨＴＭＬ文書又は正規ＨＴＭＬ文書を取得し、取得したＵＲＬ及びＨＴＭＬ文書を不正Ｗｅｂページテーブル又は正規Ｗｅｂページテーブルに登録する。前処理部４３２、形態素解析部４３３及びベクトル算出部４３４は、新たに取得したＨＴＭＬ文書に対してステップＳ１２の初期処理を実行し、特徴ベクトルを算出する。

【0100】

不正Ｗｅｂページ検出装置４は、既存の学習器に新たなＨＴＭＬ文書を学習させることなく、検査対象ＨＴＭＬ文書の特徴ベクトルと新たなＨＴＭＬ文書の特徴ベクトルとの類似度を算出することができる。不正Ｗｅｂページ検出装置４は、既存のＨＴＭＬ文書及び新たなＨＴＭＬ文書の全体を用いて学習器を再学習させることなく、新たなＨＴＭＬ文書を用いた判定を実行することができるため、学習に係る処理の負荷を軽減させることができる。

【0101】

当業者は、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

【符号の説明】

【0102】

４不正Ｗｅｂページ検出装置
４２記憶部
４３１取得部
４３４ベクトル算出部
４３５類似度算出部
４３６判定部
４３７判定結果出力部

【図1】