特表2024-537659 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネットスコープ，　インク．の特許一覧

特表2024-537659フィッシングウェブサイトを検出するためにＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及びコンテンツページ埋め込み画像を使用する機械学習ベースのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12A
12B
12C
12D
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-16

(54)【発明の名称】フィッシングウェブサイトを検出するためにＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及びコンテンツページ埋め込み画像を使用する機械学習ベースのシステム及び方法

(51)【国際特許分類】

G06F 21/55 20130101AFI20241008BHJP

G06T 7/00 20170101ALI20241008BHJP

G06V 10/82 20220101ALI20241008BHJP

【ＦＩ】

G06F21/55 320

G06T7/00 350C

G06V10/82

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024516418

(86)(22)【出願日】2022-09-13

(85)【翻訳文提出日】2024-05-07

(86)【国際出願番号】 US2022043392

(87)【国際公開番号】W WO2023043750

(87)【国際公開日】2023-03-23

(31)【優先権主張番号】17/475,230

(32)【優先日】2021-09-14

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/475,233

(32)【優先日】2021-09-14

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/475,236

(32)【優先日】2021-09-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡＳＣＲＩＰＴ

２．ＰＹＴＨＯＮ

３．ＪＡＶＡ

４．ＫＡＳＰＥＲＳＫＹ

(71)【出願人】

【識別番号】517325652

【氏名又は名称】ネットスコープ，インク．

【氏名又は名称原語表記】ＮＥＴＳＫＯＰＥ，ＩＮＣ．

(74)【代理人】

【識別番号】100114476

【弁理士】

【氏名又は名称】政木良文

(72)【発明者】

【氏名】リャオ，イーファ

(72)【発明者】

【氏名】アザラルーズ，アリ

(72)【発明者】

【氏名】ミラミルカニ，ナジェメ

(72)【発明者】

【氏名】スー，ジー

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096HA11

5L096KA04

(57)【要約】

ＵＲＬをパース及びハッシュ化して特徴量ハッシュを生成するＵＲＬ特徴量ハッシャと、ＵＲＬのページにアクセスして内部的にレンダリングし、ＨＴＭＬトークンを抽出し、レンダリングの画像をキャプチャするヘッドレスブラウザと、を有する、ＵＲＬ及びコンテンツページをフィッシングか、又はそうでないとして分類する、フィッシング分類器が開示される。また、ＵＲＬをパース及びハッシュ化して特徴量ハッシュにするＵＲＬ特徴量ハッシャと、ＵＲＬのページにアクセスしてページを内部的にレンダリングし、レンダリングから単語を抽出し、ページの画像をキャプチャするヘッドレスブラウザと、を有する、ＵＲＬとこのＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はそうでないとして分類する、フィッシング分類器が開示される。ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はそうでないとして分類することが更に開示される。１つ以上の開示に加えて、フィッシング分類層、ＵＲＬ埋め込み器、及びＨＴＭＬエンコーダがある。
【選択図】なし

【特許請求の範囲】

【請求項1】

ＵＲＬと、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類器であって、
前記ＵＲＬを特徴量にパースして、前記特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、
前記ＵＲＬのコンテンツページにアクセスし、前記コンテンツページを内部的にレンダリングし、
前記コンテンツページの前記レンダリングから単語を抽出し、
前記コンテンツページの前記レンダリングの少なくとも一部の画像をキャプチャするように構成されたヘッドレスブラウザと、
自然言語に関して事前訓練されており、前記コンテンツページから抽出された前記単語の単語エンコーディングを生成する、自然言語エンコーダと、
画像に関して事前訓練されており、前記コンテンツページからキャプチャされた前記画像の画像埋め込みを生成する、画像埋め込み器と、
前記ＵＲＬと、前記ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つのスコアを生成するように、前記ＵＲＬ特徴量ハッシュと、前記単語エンコーディングと、前記ＵＲＬの前記画像埋め込みと、の連結された入力を処理するフィッシング分類器層と、を含み、
前記フィッシング分類器層が、例示的なＵＲＬの、前記ＵＲＬ特徴量ハッシュ、前記単語エンコーディング、及び前記画像埋め込みに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う、フィッシング分類器。

【請求項2】

前記自然言語エンコーダが、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）と、ユニバーサルセンテンスエンコーダと、のうちの１つである、請求項１に記載のフィッシング分類器。

【請求項3】

前記画像埋め込み器が、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つである、請求項１に記載のフィッシング分類器。

【請求項4】

ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータ実装方法であって、
ＵＲＬ特徴量ハッシャを適用し、前記ＵＲＬから特徴量を抽出し、前記特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
自然言語に関して事前訓練されており、前記コンテンツページのレンダリングからパースされた単語の単語エンコーディングを生成する、自然言語エンコーダを適用することと、
画像に関して事前訓練されており、前記レンダリングの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器を適用することと、
フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬについての、前記ＵＲＬ特徴量ハッシュと、前記単語エンコーディングと、前記画像埋め込みと、の連結に関して訓練されたフィッシング分類器層を適用することと、
前記ＵＲＬ特徴量ハッシュと、前記単語エンコーディングと、前記画像埋め込みと、の連結された入力を処理して、前記ＵＲＬと、前記ＵＲＬを介してアクセスされた前記コンテンツと、がフィッシングリスクを提示する少なくとも１つのスコアを生成することと、を含む、コンピュータ実装方法。

【請求項5】

ヘッドレスブラウザを適用することと、
前記ＵＲＬを介して前記コンテンツページにアクセスし、前記コンテンツページを内部的にレンダリングすることと、
前記レンダリングされた前記コンテンツページから単語をパースすることと、
前記レンダリングされたコンテンツページの少なくとも一部の画像をキャプチャすることと、を更に含む、請求項４に記載のコンピュータ実装方法。

【請求項6】

前記自然言語エンコーダが、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）と、ユニバーサルセンテンスエンコーダと、のうちの１つである、請求項４に記載のコンピュータ実装方法。

【請求項7】

前記画像埋め込み器が、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つである、請求項４に記載のコンピュータ実装方法。

【請求項8】

ＵＲＬと、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータプログラム命令で特徴付けられた非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサ上で実行されるときに、
ＵＲＬ特徴量ハッシャを適用し、前記ＵＲＬから特徴量を抽出し、前記特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
自然言語に関して事前訓練されており、前記コンテンツページのレンダリングからパースされた単語の単語エンコーディングを生成する、自然言語エンコーダを適用することと、
画像に関して事前訓練されており、前記レンダリングの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器を適用することと、
フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬについての、前記ＵＲＬ特徴量ハッシュと、前記単語エンコーディングと、前記画像埋め込みと、の連結に関して訓練されたフィッシング分類器層を適用することと、
前記ＵＲＬ特徴量ハッシュと、前記単語エンコーディングと、前記画像埋め込みと、の連結された入力を処理して、前記ＵＲＬと、前記ＵＲＬを介してアクセスされた前記コンテンツと、がフィッシングリスクを提示する少なくとも１つのスコアを生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。

【請求項9】

【請求項10】

前記自然言語エンコーダが、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）と、ユニバーサルセンテンスエンコーダと、のうちの１つである、請求項８に記載の非一時的コンピュータ可読記憶媒体。

【請求項11】

前記画像埋め込み器が、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つである、請求項８に記載の非一時的コンピュータ可読記憶媒体。

【請求項12】

フィッシング分類器層を訓練して、ＵＲＬと、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するためのコンピュータ実装方法であって、
例示的なＵＲＬについて、
ＵＲＬ特徴量ハッシュと、前記コンテンツページから抽出された単語の単語エンコーディングと、前記コンテンツページのレンダリングからキャプチャされた画像の画像埋め込みと、の連結された入力を受信及び処理して、
各例示的なＵＲＬと、前記ＵＲＬを介してアクセスされた前記コンテンツページと、がフィッシングリスクを提示する少なくとも１つのスコアを生成することと、
各例示的なＵＲＬについての前記スコアと、前記例示的なＵＲＬ及び前記コンテンツページがフィッシングか、又はフィッシングでないという各対応するグラウンドトゥルースと、の間の差を計算することと、
前記例示的なＵＲＬについての差を使用して、前記フィッシング分類器層の係数を訓練することと、
本番ＵＲＬと、前記本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する使用のために、前記訓練された係数を保存することと、を含む、コンピュータ実装方法。

【請求項13】

前記差を、前記フィッシング分類器層を越えて、前記単語エンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートしないことを更に含む、請求項１２に記載のコンピュータ実装方法。

【請求項14】

前記差を、前記フィッシング分類器層を越えて、前記画像埋め込みを生成するために使用される埋め込み層にバックプロパゲートしないことを更に含む、請求項１２に記載のコンピュータ実装方法。

【請求項15】

前記例示的なＵＲＬの各々について前記ＵＲＬ特徴量ハッシュを生成することと、前記コンテンツページのレンダリングから抽出された単語の前記単語エンコーディングを生成することと、前記レンダリングからキャプチャされた前記画像の前記画像埋め込みを生成することと、を更に含む、請求項１２に記載のコンピュータ実装方法。

【請求項16】

Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）エンコーダ又はＢＥＲＴエンコーダの変形を使用して、前記単語エンコーディングを生成することを更に含む、請求項１５に記載のコンピュータ実装方法。

【請求項17】

残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つを使用して前記画像埋め込みを生成することを更に含む、請求項１５に記載のコンピュータ実装方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、以下の優先権及び利益を主張する：

【0002】

現在は２０２２年９月１３日に発行された米国特許第１１，４４４，９７８号（代理人整理番号ＮＳＫＯ１０５２－１）である、２０２１年９月１４日に出願された「ＡＭａｃｈｉｎｅＬｅａｒｎｉｎｇ－ＢａｓｅｄｓｙｓｔｅｍｆｏｒＤｅｔｅｃｔｉｎｇＰｈｉｓｈｉｎｇＷｅｂｓｉｔｅｓＵｓｉｎｇｔｈｅＵＲＬｓ，ＷｏｒｄｅｎｃｏｄｉｎｇｓａｎｄＩｍａｇｅｓｏｆＣｏｎｔｅｎｔＰａｇｅｓ」と題された米国出願第１７／４７５，２３６号、及び

【0003】

現在は２０２２年５月１７日に発行された米国特許第１１，３３６，６８９号（代理人整理番号ＮＳＫＯ１０６０－１）である、２０２１年９月１４日に出願された「ＤｅｔｅｃｔｉｎｇＰｈｉｓｈｉｎｇＷｅｂｓｉｔｅｓｖｉａａＭａｃｈｉｎｅＬｅａｒｎｉｎｇ－ＢａｓｅｄＳｙｓｔｅｍＵｓｉｎｇＵＲＬＦｅａｔｕｒｅＨａｓｈｅｓ，ＨＴＭＬＥｎｃｏｄｉｎｇｓａｎｄＥｍｂｅｄｄｅｄＩｍａｇｅｓｏｆＣｏｎｔｅｎｔＰａｇｅｓ」と題された米国出願第１７／４７５，２３３号、及び

【0004】

現在は２０２２年９月６日に発行された米国特許第１１，４３８，３７７号（代理人整理番号：ＮＳＫＯ１０６１－１）である、２０２１年９月１４日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ－ＢａｓｅｄＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｏｆＵｓｉｎｇＵＲＬｓａｎｄＨＴＭＬＥｎｃｏｄｉｎｇｓｆｏｒＤｅｔｅｃｔｉｎｇＰｈｉｓｈｉｎｇＷｅｂｓｉｔｅｓ」と題された米国出願第１７／４７５，２３０号。

【0005】

関連事例
本出願はまた、本明細書に完全に記載されているかのように、あらゆる目的で参照により援用される以下の出願にも関連する。

【0006】

現在は２０２１年８月３日に発行された米国特許第１１，０８２，４４５号（代理人整理番号：ＮＳＫＯ１０３７－１）である２０２１年１月２１日に出願された「ＰｒｅｖｅｎｔｉｎｇＰｈｉｓｈｉｎｇＡｔｔａｃｋｓＶｉａＤｏｃｕｍｅｎｔＳｈａｒｉｎｇ」と題された米国出願第１７／１５４，９７８号の継続である、２０２１年７月３０日に出願された「ＰｒｅｖｅｎｔｉｎｇＣｌｏｕｄ－ＢａｓｅｄＰｈｉｓｈｉｎｇＡｔｔａｃｋｓＵｓｉｎｇＳｈａｒｅｄＤｏｃｕｍｅｎｔｓｗｉｔｈＭａｌｉｃｉｏｕｓＬｉｎｋｓ」と題された米国出願第１７／３９０，８０３号（代理人整理番号１０３７－２）。

【0007】

援用
以下の材料は、本出願において参考として援用される。
“ＫＤＥＨｙｐｅｒＰａｒａｍｅｔｅｒＤｅｔｅｒｍｉｎａｔｉｏｎ，”ＹｉＺｈａｎｇｅｔａｌ．，Ｎｅｔｓｋｏｐｅ，Ｉｎｃ．、
２０１６年９月２日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＢａｓｅｄＡｎｏｍａｌｙＤｅｔｅｃｔｉｏｎ」と題する米国非仮出願第１５／２５６，４８３号（代理人整理番号ＮＳＫＯ１００４－２）（現在は２０１９年４月２３日に発行された米国特許第１０，２７０，７８８号）、
２０１９年４月１９日に出願された「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＢａｓｅｄＡｎｏｍａｌｙＤｅｔｅｃｔｉｏｎ」と題する米国非仮出願第１６／３８９，８６１号（代理人整理番号ＮＳＫＯ１００４－３）（現在は２０２１年６月１日に発行された米国特許第１１，０２５，６５３号）、
２０１４年３月０５日に出願された「ＳｅｃｕｒｉｔｙＦｏｒＮｅｔｗｏｒｋＤｅｌｉｖｅｒｅｄＳｅｒｖｉｃｅｓ」と題する米国非仮出願第１４／１９８，５０８号（代理人整理番号ＮＳＫＯ１０００－３）（現在は２０１６年２月２３日に発行された米国特許第９，２７０，７６５号）、
２０１６年１２月０２日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｏｆＥｎｆｏｒｃｉｎｇＭｕｌｔｉ－ＰａｒｔＰｏｌｉｃｉｅｓｏｎＤａｔａ－ＤｅｆｉｃｉｅｎｔＴｒａｎｓａｃｔｉｏｎｓｏｆＣｌｏｕｄＣｏｍｐｕｔｉｎｇＳｅｒｖｉｃｅｓ」と題する米国非仮出願第１５／３６８，２４０号（代理人整理番号ＮＳＫＯ１００３－２）（現在は２０２０年１１月０３日に発行された米国特許第１０，８２６，９４０号）、及び２０１６年３月１１日に出願された「ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｏｆＥｎｆｏｒｃｉｎｇＭｕｌｔｉ－ＰａｒｔＰｏｌｉｃｉｅｓｏｎＤａｔａ－ＤｅｆｉｃｉｅｎｔＴｒａｎｓａｃｔｉｏｎｓｏｆＣｌｏｕｄＣｏｍｐｕｔｉｎｇＳｅｒｖｉｃｅｓ」と題する米国仮出願第６２／３０７，３０５号（代理人整理番号ＮＳＫＯ１００３－１）、
“ＣｌｏｕｄＳｅｃｕｒｉｔｙｆｏｒＤｕｍｍｉｅｓ，ＮｅｔｓｋｏｐｅＳｐｅｃｉａｌＥｄｉｔｉｏｎ”ｂｙＣｈｅｎｇ，Ｉｔｈａｌ，Ｎａｒａｙａｎａｓｗａｍｙ，ａｎｄＭａｌｍｓｋｏｇ，ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．２０１５；
“ＮｅｔｓｋｏｐｅＩｎｔｒｏｓｐｅｃｔｉｏｎ”ｂｙＮｅｔｓｋｏｐｅ，Ｉｎｃ．；
“ＤａｔａＬｏｓｓＰｒｅｖｅｎｔｉｏｎａｎｄＭｏｎｉｔｏｒｉｎｇｉｎｔｈｅＣｌｏｕｄ”ｂｙＮｅｔｓｋｏｐｅ，Ｉｎｃ．；
“Ｔｈｅ５ＳｔｅｐｓｔｏＣｌｏｕｄＣｏｎｆｉｄｅｎｃｅ”ｂｙＮｅｔｓｋｏｐｅ，Ｉｎｃ．；
“ＮｅｔｓｋｏｐｅＡｃｔｉｖｅＣｌｏｕｄＤＬＰ”ｂｙＮｅｔｓｋｏｐｅ，Ｉｎｃ．；
「ＲｅｐａｖｅｔｈｅＣｌｏｕｄ－ＤａｔａＢｒｅａｃｈＣｏｌｌｉｓｉｏｎＣｏｕｒｓｅ」ｂｙＮｅｔｓｋｏｐｅ，Ｉｎｃ．、及び
「ＮｅｔｓｋｏｐｅＣｌｏｕｄＣｏｎｆｉｄｅｎｃｅＩｎｄｅｘ（商標）」ｂｙＮｅｔｓｋｏｐｅ，Ｉｎｃ．

【0008】

開示される技術は、概して、クラウドベースのセキュリティに関し、より具体的には、コンテンツページのＵＲＬ、単語エンコーディング、及び画像を使用して、フィッシングウェブサイトを検出するためのシステム及び方法に関する。また、コンテンツページのＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び埋め込まれた画像を使用するための方法及びシステムが開示される。開示される技術は、機械学習及び統計分析を通じて、ＵＲＬリンク及びダウンロードされたＨＴＭＬを介してリアルタイムでフィッシングを検出することに更に関する。

【背景技術】

【0009】

このセクションで考察される主題は、単にこのセクションにおけるその言及の結果として先行技術であると想定されるべきではない。同様に、このセクションで言及される問題、又は背景として提供される主題と関連する問題は、先行技術において以前に認識されていたと仮定されるべきではない。このセクションの主題は、異なるアプローチを表すにすぎず、それ自体、特許請求される技術の実装態様に対応することもできる。

【0010】

スピアヘッドフィッシングと呼ばれることもあるフィッシングが増加している。フィッシングによって盗まれたパスワードを使用して取得された文書の悪用によって、全国ニュースが中断されている。通常、電子メールには正当に見えるリンクが含まれており、正当に見えるページにつながり、ユーザは、フィッシング攻撃の危険にさらされるパスワードを入力する。クレジットカードスキマー又はガソリンポンプ若しくはＡＴＭのシムのようなクリーバーフィッシングサイトは、入力されたパスワードを実際のウェブサイトに転送し、経路から外れ得るため、ユーザは、パスワード盗難が発生したときにパスワード盗難を検出しない。近年、在宅勤務は、フィッシング攻撃の大幅な増加につながっている。

【0011】

フィッシングという用語は、無防備なユーザからウェブ上で機密情報を不正に取得するためのいくつかの方法を指す。フィッシングは、部分的には、ますます洗練された誘導を使用して会社の極秘情報を引き出すことから生じる。これらの方法は、一般に、フィッシング攻撃と称される。レンダリングされたウェブページが正当なログインページの外観を模倣している場合、ウェブサイトユーザは、フィッシング攻撃の被害に遭う。フィッシング攻撃の被害者は、不正なウェブサイトに誘導され、銀行口座、ログインパスワード、社会保障ＩＤなどの機密情報の暴露をもたらす。

【0012】

最近のデータ侵害調査報告書によると、ソーシャルエンジニアリングに基づく大規模な攻撃の風潮が高まっている。これは、一部には、エクスプロイトの難易度の増加に起因している可能性があり、また一部には、そのようなエクスプロイトを防止及び検出するための機械学習（ＭＬ）アルゴリズムの進歩の利用の賜物である。したがって、フィッシング攻撃は、より頻繁かつ洗練なものになっている。新しい防御ソリューションが必要とされている。

【0013】

ＭＬ／ＤＬを使用して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するための機会が生じる。また、ＵＲＬと、このＵＲＬリンクを介してアクセスされ、かつダウンロードされたＨＴＭＬと、をリアルタイムでフィッシングか、又はフィッシングでないとして分類する機会も出現する。

【0014】

図面において、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は、必ずしも縮尺通りではなく、代わりに、概して、開示される技術の原理を図示することに重点が置かれている。以下の説明では、開示される技術の種々の実装態様が、以下の図面を参照して説明される。

【図面の簡単な説明】

【0015】

【図1】開示される技術の実装態様に従って、システムのアーキテクチャレベルの概略図が、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類することを例示するものである。

【図2】ＵＲＬ特徴量ハッシュのＭＬ／ＤＬエンコーディングと、自然言語（ＮＬ）単語のエンコーディングと、フィッシングサイトを検出するためのキャプチャされたウェブサイト画像のエンコーディングと、を利用する、開示されるフィッシング検出エンジンの高レベルブロック図を例示するものである。

【図3】参照のための、画像分類のための例示的なＲｅｓＮｅｔ残差ＣＮＮブロック図を例示するものである。

【図4】各例示的なＵＲＬが、フィッシングサイトを検出するために、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う、ＵＲＬ特徴量ハッシュと、コンテンツページから抽出されたＨＴＭＬのエンコーディングと、例示的なＵＲＬのコンテンツページからキャプチャされた画像の埋め込みと、を用いるＭＬ／ＤＬを利用する、開示されるフィッシング検出エンジンの高レベルブロック図を例示するものである。

【図5】フィッシング検出エンジンで使用する前に、画像の分類のために事前訓練された参照残差ニューラルネットワーク（ＲｅｓＮｅｔ）のブロック図を例示するものである。

【図6】ＵＲＬ埋め込み器及びＨＴＭＬエンコーダを用いるＭＬ／ＤＬを利用する、開示されるフィッシング検出エンジン６０２の高レベルブロック図を例示するものである。

【図7】複数の開示されるフィッシング検出システムの精度再現率グラフを示す。

【図8】本明細書に記載されるフィッシングウェブサイト検出のための開示されるシステムの受信者動作特性曲線（ＲＯＣ）を例示するものである。

【図9】ＵＲＬ埋め込み器及びＨＴＭＬエンコーダを用いるＭＬ／ＤＬを利用する、開示されるフィッシング検出エンジンのフィッシングウェブサイト検出のための受信者動作特性曲線（ＲＯＣ）を例示するものである。

【図10】オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるＣ＋＋コードを用いて、ＵＲＬ埋め込みを生成する一次元１Ｄ畳み込みニューラルネットワーク（Ｃｏｎｖ１Ｄ）ＵＲＬ埋め込み器の機能性のブロック図を例示するものである。

【図11】フィッシング分類器層に入力されるｈｔｍｌエンコーディングをもたらす、開示されるｈｔｍｌエンコーダの機能性のブロック図を示す。

【図12A】フィッシング分類器層に入力されるｈｔｍｌエンコーディングをもたらす、開示されるｈｔｍｌエンコーダの概要ブロック図を示す。

【図12B】オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるＣ＋＋コードを用いて、フィッシング分類器層６７５に入力されるｈｔｍｌエンコーディングをもたらす、ｈｔｍｌエンコーダの機能性の計算データフローグラフを合わせて例示するものである。入力エンコーディング及び位置埋め込みを例示する、左列の下部にある結合子が右列の上部に流れ込む、点線で区切られた２つの列におけるデータフローグラフの１つのセクションを示す。

【図12C】オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるＣ＋＋コードを用いて、フィッシング分類器層６７５に入力されるｈｔｍｌエンコーディングをもたらす、ｈｔｍｌエンコーダの機能性の計算データフローグラフを合わせて例示するものである。データ接続に沿ってデータを非同期的に伝送する計算ノードを有するデータフローグラフの一例を示す、マルチヘッドアテンションの単一の反復を例示するものである。

【図12D】オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるＣ＋＋コードを用いて、フィッシング分類器層６７５に入力されるｈｔｍｌエンコーディングをもたらす、ｈｔｍｌエンコーダの機能性の計算データフローグラフを合わせて例示するものである。点線で区切られた３つの列を使用して例示される、ＯＮＮＸ演算を使用する加算、正規化、及びフィードフォワード機能性を示す。

【図13】オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるコードを用いて、特定のウェブサイトがフィッシングウェブサイトである可能性がどのくらいあるかを信号伝達する尤度スコア（複数可）を生成する、開示されるフィッシング分類器層の機能性の計算データフローグラフを例示するものである。

【図14】開示される技術の一実装態様による、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するために使用され得るコンピュータシステムの簡略化されたブロック図である。

【発明を実施するための形態】

【0016】

以下の詳細な説明は、図面を参照して行われる。特許請求の範囲によって定義されるその範囲を限定するためではなく、開示される技術を例示するために、サンプルの実装態様が説明される。この議論は、当業者が開示される技術を作製及び使用することを可能にするために提示され、特定の用途及びその要件の文脈において提供される。開示される実施形態に対する様々な修正は、当業者には容易に明白であり、本明細書で定義される一般的な原理は、本発明の趣旨及び範囲から逸脱することなく、他の実装態様態及び用途に適用され得る。したがって、開示される技術は、示される実装態様に限定されるものではなく、本明細書で開示される原理及び特徴と一致する最も広い範囲を与えられるべきである。

【0017】

開示される技術によって対処される問題は、フィッシングウェブサイトの検出である。セキュリティ部門は、フィッシングが生じるとフィッシングキャンペーンをカタログ化しようと試みる。セキュリティベンダは、フィッシングウェブサイトのリストに依存して、セキュリティエンジンを動かす。フィッシングリンクをカタログ化する独自のソース及びオープンソースの両方が利用可能である。フィッシングユニバーサルリソースロケータ（ＵＲＬ）リストの２つのオープンソースのコミュニティの例は、ＰｈｉｓｈＴａｎｋ及びＯｐｅｎＰｈｉｓｈである。セキュリティ部門がリストを使用して、悪意のあるリンクを分析し、かつ悪意のあるＵＲＬからシグネチャを生成する。シグネチャを使用して、典型的には、ＵＲＬの一部若しくは全て、又はそのコンパクトハッシュを一致させることによって、悪意のあるリンクを検出する。シグネチャからの一般化が、ハッカーがシステムを攻撃するために使用することができるゼロデイフィッシング攻撃を阻止するための主なアプローチとなっている。ゼロデイとは、ベンダ又は開発者が知ったばかりであり、かつ修正するための日数がゼロである、最近発見されたセキュリティ脆弱性を指す。

【0018】

フィッシング詐欺師が捕まるのを回避するため、フィッシングキャンペーンは、フィッシングリンクのウェブサイトが分析され得る前に終了することがある。セキュリティ部門によってウェブサイトがリストに掲載されるとすぐに、フィッシング詐欺師によってウェブサイトが解体され得る。収集されたＵＲＬの分析は、アクティブなフィッシングサイトへの悪意のあるＵＲＬを追跡することよりも確実に永続する。サイトは、サイトが現れた時と同じように突然消失する。一部には消失するサイトに起因して、最先端の技術は、ＵＲＬを分析することとなっている。

【0019】

開示される技術は、機械学習／深層学習（ＭＬ／ＤＬ）を、非常に低い偽陽性率及び良好な再現率でフィッシング検出に適用する。テキスト／画像解析に基づく、かつＨＴＭＬ解析に基づく、３つの転移学習技法が提示される。

【0020】

第１の技法では、我々は、ウェブページのテキストコンテンツ及び視覚コンテンツを埋め込むために、多言語自然言語理解及びコンピュータビジョンのための新しい深層学習アーキテクチャを利用することによって、転移学習を使用する。フィッシング検出にＭＬ／ＤＬを適用する第１の世代は、ウェブページテキスト及びウェブページ画像の連結埋め込みを使用する。我々は、テキスト及び画像の埋め込みに関する一般的な訓練からの転移学習を利用して、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（ＢＥＲＴ）及び残差ニューラルネットワーク（ＲｅｓＮｅｔ）のデコーダ関数などの、モデルのエンコーダ関数を使用する検出分類器を訓練する。大量のデータで訓練されるため、そのようなモデルの最終層は、ウェブページの視覚コンテンツ及びテキストコンテンツのための信頼性の高いエンコーディングとして機能する。良性の、フィッシングでないリンクはフィッシングサイトよりもはるかに豊富であり、フィッシングでないリンクのブロックは迷惑であるため、偽陽性を低減するように注意が払われる。

【0021】

フィッシング検出にＭＬ／ＤＬを適用する第２の技法は、ブラウザによるディスプレイへのレンダリングを複製するためのＨＴＭＬの埋め込みを反直感的にデコードする新しいエンコーダ－デコーダペアを作成する。埋め込みは、もちろん情報損失がある。デコードは、ブラウザが達成するものよりもはるかに正確でない。ＨＴＭＬコードを埋め込むことへのエンコーダ－デコーダアプローチは、転移学習を容易にする。エンコーダがＨＴＭＬを埋め込むように訓練されると、分類器が、デコーダを置き換える。埋め込みに基づく転移学習は、比較的小さな訓練コーパスを用い、実用的である。現在、フィッシングページの例のうちのわずか２０ｋ又は４０ｋの例が、埋め込みを処理する２つの全結合層の分類器を訓練するのに十分であることが証明されている。ＨＴＭＬの第２世代の埋め込みは、ＲｅｓＮｅｔ画像埋め込み、ＵＲＬ特徴量埋め込み、又はＲｅｓＮｅｔ画像埋め込み及びＵＲＬ特徴量埋め込みの両方などの、他の埋め込みを連結することによって強化され得る。

【0022】

しかしながら、新しいＵＲＬのスケールは、深層学習アーキテクチャの高い計算複雑性、及びウェブページのコンテンツのレンダリング時間及びパース時間に起因して、これらのコンテンツを使用するウェブページのリアルタイム検出を妨げる可能性がある。

【0023】

ＭＬ／ＤＬをフィッシング検出に適用する第３の世代は、ＵＲＬ埋め込み器、ＨＴＭＬエンコーダ、及びフィッシング分類器層を使用して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類し、悪意のあるウェブページが検出されたときにリアルタイムで反応することができる。この第３の技術は、ウェブサイトを訪問する必要がなく、訓練されたより高速のモデルを使用して、疑わしいＵＲＬを効果的にフィルタリングする。疑わしいＵＲＬを、最終検出のために後で第１又は第２の技術にルーティングすることもできる。

【0024】

次に、オフラインモードで、及びリアルタイムでＵＲＬリンク及びダウンロードされたＨＴＭＬを介してフィッシングを検出するための例示的なシステムについて説明する。

【0025】

アーキテクチャ
図１は、ＵＲＬリンク及びダウンロードされたＨＴＭＬを介してフィッシングを検出するためのシステム１００のアーキテクチャレベルの概略図を示す。システム１００はまた、リダイレクトされた、又は隠された、ＵＲＬリンク及びリアルタイムでダウンロードされたＨＴＭＬを介してフィッシングを検出するための機能性を含む。図１はアーキテクチャ図であるため、説明をより明確にするために、一部の詳細は意図的に省略されている。図１の説明は以下のように構成される。最初に、図の要素について説明し、その後、それらの相互接続について説明する。次に、システムにおける要素の使用をより詳細に説明する。

【0026】

図１は、エンドポイント１６６を含むシステム１００を含む。ユーザエンドポイント１６６は、クラウドベースのストア１３６及びクラウドベースのサービス１３８上に記憶されたデータへのアクセス及び対話を提供する、コンピュータ１７４、スマートフォン１７６、及びコンピュータタブレット１７８などのデバイスを含み得る。別の組織ネットワークでは、組織ユーザは、追加のデバイスを利用し得る。インラインプロキシ１４４が、ネットワーク１５５を通じて、特に、ネットワーク管理者１２２、ネットワークポリシー１３２、評価エンジン１５２、及びデータストア１６４を含むネットワークセキュリティシステム１１２を通じて、ユーザエンドポイント１６６とクラウドベースのサービス１３８との間に介在する。インラインプロキシ１４４は、ネットワークセキュリティシステム１１２の一部として、ネットワーク１５５を通じてアクセス可能である。インラインプロキシ１４４は、ユーザエンドポイント１６６と、クラウドベースのストア１３６と、他のクラウドベースのサービス１３８との間のトラフィックの監視及び制御を提供する。インラインプロキシ１４４は、ＨＴＭＬ及びウェブページのスナップショットを収集し、データセットをデータストア１６４に記憶するアクティブスキャナ１５４を有する。トラフィックからリアルタイムで特徴量を抽出することができ、かつスナップショットがライブトラフィックから収集されない場合、アクティブスキャナ１５４は、フィッシング検出にＭＬ／ＤＬを適用する第３の世代のシステムにおけるように、ＵＲＬのウェブページコンテンツをクロールするために必要とされない。フィッシングウェブサイトを検出するための３つのＭＬ／ＤＬシステムについて、以下で詳細に説明する。インラインプロキシ１４４は、特に、データ損失防止（ＤＬＰ）ポリシー及びプロトコルを含むネットワークセキュリティポリシーを実施するために、ユーザエンドポイント１６６とクラウドベースのサービス１３８との間のネットワークトラフィックを監視する。評価エンジン１５２は、フィッシングウェブサイトの開示される検出を介して、悪意があるとみなされるＵＲＬのデータベースレコードをチェックし、これらのフィッシングＵＲＬは、自動的かつ恒久的にブロックされる。

【0027】

ＵＲＬリンク及びダウンロードされたＨＴＭＬを介してリアルタイムでフィッシングを検出するために、ユーザエンドポイント１６６とクラウドベースのストレージプラットフォームとの間に位置付けられたインラインプロキシ１４４は、着信トラフィックを検査し、以下に説明されるフィッシング検出エンジン２０２、４０４、６０２に転送する。インラインプロキシ１４４は、ユーザがプロキシを介してページにアクセスすることを可能にする前に、リンクに対応するコンテンツをサンドボックス化し、リンクを検査／探索して、ＵＲＬによって指し示されるページが安全であることを確認するように構成され得る。次いで、悪意のあるものとして識別されたリンクを隔離し、セキュアなサンドボックス化を含む、知られている技法を利用して脅威を検査することができる。

【0028】

図１の説明を続けると、クラウドベースのサービス１３８は、クラウドベースのホスティングサービス、ウェブ電子メールサービス、ビデオ、メッセージング、及び音声通話サービス、ストリーミングサービス、ファイル転送サービス、並びにクラウドベースのストレージサービスを含む。ネットワークセキュリティシステム１１２は、公共ネットワーク１５５を介してユーザエンドポイント１６６及びクラウドベースのサービス１３８に接続する。データストア１６４は、悪意のあるＵＲＬからの悪意のあるリンク及びシグネチャのリストを記憶する。シグネチャは、典型的には、ＵＲＬの一部若しくは全て、又はそのコンパクトハッシュを一致させることによって、悪意のあるリンクを検出するために使用され、データストア１６４は、１つ以上のテナントから共通データベースイメージのテーブル内に情報を記憶して、マルチテナントデータベースシステム（ＭＴＤＳ）などの多くの方法で実装され得るオンデマンドデータベースサービス（ＯＤＤＳ）を形成する。データベース画像は、１つ以上のデータベースオブジェクトを含むことができる。他の実装態様では、データベースは、リレーショナルデータベース管理システム（ＲＤＢＭＳ）、オブジェクト指向データベース管理システム（ＯＯＤＢＭＳ）、分散ファイルシステム（ＤＦＳ）、ノースキーマデータベース、又は任意の他のデータ記憶システム若しくはコンピューティングデバイスであり得る。一部の実装態様では、収集されたメタデータは、処理及び／又は正規化される。場合によっては、メタデータは、構造化データを含み、機能性は、クラウドベースのサービス１３８によって提供される特定のデータ構造をターゲットとする。フリーテキストなどの非構造化データもまた、クラウドベースのサービス１３８によって提供され、クラウドベースのサービス１３８に戻ってターゲットにされ得る。構造化データ及び非構造化データの両方が、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔオブジェクト表記）、ＢＳＯＮ（バイナリＪＳＯＮ）、ＸＭＬ、Ｐｒｏｔｏｂｕｆ、Ａｖｒｏ、又はＴｈｒｉｆｔオブジェクトのような半構造化データ形式で記憶されることが可能であり、半構造化データ形式は、文字列フィールド（又は列）と、数字、文字列、配列、オブジェクトなどのような潜在的に異なる型の対応する値と、からなる。他の実装態様では、ＪＳＯＮオブジェクトは、ネストされることができ、フィールドは、多値、例えば、配列、ネストされた配列などであり得る。これらのＪＳＯＮオブジェクトは、ＡｐａｃｈｅＣａｓｓａｎｄｒａ（商標）、ＧｏｏｇｌｅのＢｉｇｔａｂｌｅ（商標）、ＨＢａｓｅ（商標）、Ｖｏｌｄｅｍｏｒｔ（商標）、ＣｏｕｃｈＤＢ（商標）、ＭｏｎｇｏＤＢ（商標）、Ｒｅｄｉｓ（商標）、Ｒｉａｋ（商標）、Ｎｅｏ４ｊ（商標）などのようなスキーマレス又はＮｏＳＱＬキーバリューメタデータストア１７８に記憶され、これは、ＳＱＬのデータベースと同等のキースペースを使用して、パースされたＪＳＯＮオブジェクトを記憶する。各キースペースは、テーブルに類似し、かつ行と列のセットとで構成される列ファミリに分割される。

【0029】

図１の説明を更に続けると、システム１００は、任意の数のクラウドベースのサービス１３８、すなわち、ポイントツーポイントストリーミングサービス、ホストサービス、クラウドアプリケーション、クラウドストア、クラウドコラボレーション及びメッセージングプラットフォーム、並びにクラウド顧客関係管理（ＣＲＭ）プラットフォームを含むことができる。サービスには、ＢｉｔＴｏｒｒｅｎｔ（ＢＴ）、ユーザデータグラムプロトコル（ＵＤＰ）ストリーミング及びファイル転送プロトコル（ＦＴＰ）などのポータルトラフィックのためのプロトコルを介したピアツーピアファイル共有（Ｐ２Ｐ）と、セッション開始プロトコル（ＳＩＰ）及びＳｋｙｐｅを介したインスタントメッセージオーバーインターネットプロトコル（ＩＰ）及びモバイルフォンコーリングオーバーＬＴＥ（ＶｏＬＴＥ）などの音声、ビデオ及びメッセージングマルチメディア通信セッションとが含まれ得る。サービスは、インターネットトラフィック、クラウドアプリケーションデータ、及び汎用ルーティングカプセル化（ＧＲＥ）データを処理することができる。ネットワークサービス又はアプリケーションは、ウェブベース（例えば、ユニフォームリソースロケータ（ＵＲＬ）を介してアクセスされる）又は同期クライアントなどのネイティブとすることができる。例としては、ＳａａＳ（ｓｏｆｔｗａｒｅ－ａｓ－ａ－ｓｅｒｖｉｃｅ）提供物、ＰａａＳ（ｐｌａｔｆｏｒｍ－ａｓ－ａ－ｓｅｒｖｉｃｅ）提供物、及びＩａａＳ（ｉｎｆｒａｓｔｒｕｃｔｕｒｅ－ａｓ－ａ－ｓｅｒｖｉｃｅ）提供物、並びにＵＲＬを介して公開される内部エンタープライズアプリケーションが挙げられる。今日の一般的なクラウドベースのサービスの例として、Ｓａｌｅｓｆｏｒｃｅ．ｃｏｍ（商標）、Ｂｏｘ（商標）、Ｄｒｏｐｂｏｘ（商標）、ＧｏｏｇｌｅＡｐｐｓ（商標）、ＡｍａｚｏｎＡＷＳ（商標）、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ３６５（商標）、Ｗｏｒｋｄａｙ（商標）、ＯｒａｃｌｅｏｎＤｅｍａｎｄ（商標）、Ｔａｌｅｏ（商標）、Ｙａｍｍｅｒ（商標）、Ｊｉｖｅ（商標）、及びＣｏｎｃｕｒ（商標）が挙げられる。

【0030】

システム１００の要素の相互接続において、ネットワーク１５５は、コンピュータ、タブレット及びモバイルデバイス、クラウドベースのホスティングサービス、ウェブ電子メールサービス、ビデオ、メッセージング、及び音声通話サービス、ストリーミングサービス、ファイル転送サービス、クラウドベースのストレージサービス１３６、並びにネットワークセキュリティシステム１１２を通信可能に結合する。通信経路は、パブリック及び／又はプライベートネットワーク上のポイントツーポイントであり得る。通信は、種々のネットワーク、例えば、プライベートネットワーク、ＶＰＮ、ＭＰＬＳ回路、又はインターネットを経由して生じることができ、適切なアプリケーションプログラムインターフェース（ＡＰＩ）及びデータ交換フォーマット、例えば、ＲＥＳＴ、ＪＳＯＮ、ＸＭＬ、ＳＯＡＰ、及び／又はＪＭＳを使用することができる。全ての通信は暗号化することができる。この通信は、概して、ＥＤＧＥ、３Ｇ、４ＧＬＴＥ、Ｗｉ－Ｆｉ、及びＷｉＭＡＸなどのプロトコルを介して、ローカルエリアネットワーク（ＬＡＮ）、ＷＡＮ（広域通信網）、電話ネットワーク（パブリック交換電話網（ＰＳＴＮ））、セッション開始プロトコル（ＳＩＰ）、無線ネットワーク、ポイントツーポイントネットワーク、スター型ネットワーク、トークンリングネットワーク、ハブネットワーク、モバイルインターネットを含むインターネットなどのネットワークを介する。加えて、ユーザ名／パスワード、ＯＡｕｔｈ、Ｋｅｒｂｅｒｏｓ、ＳｅｃｕｒｅＩＤ、デジタル証明書などの種々の認可及び認証技術が、通信をセキュアにするために使用され得る。

【0031】

図１のシステムアーキテクチャの説明を更に続けると、ネットワークセキュリティシステム１１２は、互いに通信するように結合された１つ以上のコンピュータ及びコンピュータシステムを含むことができるデータストア１６４を含む。それらはまた、１つ以上の仮想コンピューティング及び／又はストレージリソースであり得る。例えば、ネットワークセキュリティシステム１１２は、１つ以上のＡｍａｚｏｎＥＣ２インスタンスとすることができ、データストア１６４は、ＡｍａｚｏｎＳ３（商標）ストレージとすることができる。直接物理コンピュータ又は従来の仮想マシン上でネットワークセキュリティシステム１１２を実装するのではなく、Ｓａｌｅｓｆｏｒｃｅ製のＲａｃｋｓｐａｃｅ、Ｈｅｒｏｋｕ、又はＦｏｒｃｅ．ｃｏｍなどの他のサービスとしてのコンピューティングプラットフォームを使用することができる。加えて、セキュリティ機能を実装するために、１つ以上のエンジンを使用することができ、１つ以上のポイントオブプレゼンス（ＰＯＰ）を確立することができる。図１のエンジン又はシステムコンポーネントは、種々のタイプのコンピューティングデバイス上で実行されるソフトウェアによって実装される。例示的なデバイスは、ワークステーション、サーバ、コンピューティングクラスタ、ブレードサーバ、及びサーバファーム、又は任意の他のデータ処理システム若しくはコンピューティングデバイスである。エンジンは、異なるネットワーク接続を介してデータベースに通信可能に結合することができる。

【0032】

システム１００は、特定のブロックを参照して本明細書で説明されるが、ブロックは、説明の便宜のために定義され、構成部品の特定の物理的配置を必要とすることを意図するものではないことを理解されたい。更に、ブロックは、物理的に別個のコンポーネントに対応する必要はない。物理的に別個のコンポーネントが使用される限りにおいて、コンポーネント間の接続は、必要に応じて有線及び／又は無線とすることができる。異なる要素又はコンポーネントは、単一のソフトウェアモジュールに組み合わせることができ、複数のソフトウェアモジュールは、同じプロセッサ上で実行することができる。

【0033】

悪意のある行為者の最善の試みにもかかわらず、フィッシングウェブサイトのコンテンツ及び外観は、開示される深層学習モデルがフィッシングウェブサイトを確実に検出するために利用することができる特徴量を提供する。次に説明される開示されるシステムでは、我々は、ウェブページのテキストコンテンツ及び視覚コンテンツを埋め込むために、多言語自然言語理解及びコンピュータビジョンのための新しい深層学習アーキテクチャを利用することによって、転移学習を使用する。

【0034】

図２は、ＵＲＬ特徴量ハッシュと、自然言語（ＮＬ）単語のエンコーディングと、フィッシングサイトを検出するためのキャプチャされたウェブサイト画像の埋め込みと、を用いるＭＬ／ＤＬを利用する、開示されるフィッシング検出エンジン２０２の高レベルブロック図２００を例示している。開示されるフィッシング分類器層２７５は、特定のウェブサイトがフィッシングウェブサイトである可能性がどのくらいあるかを表す尤度スコア２８５を生成する。一実施形態では、フィッシング検出エンジン２０２は、エンコーダ２６４として１００を超える言語をサポートするＴｒａｎｓｆｏｒｍｅｒ（ＢＥＲＴ）モデルからの多言語双方向エンコーダ表現を利用し、画像に対する残差ニューラルネットワーク（ＲｅｓＮｅｔ５０）を埋め込み器２５６として利用する。ＵＲＬ特徴量ハッシュ２４２、単語エンコーディング２６５、及び画像埋め込み２５７は、次いで、以下で説明されるように、最終訓練及び推論のためにニューラルネットワークフィッシング分類器層２７５に渡される。

【0035】

エンコーダを、エンコーダとデコーダをペアリングすることによって訓練することができる。エンコーダ及びデコーダを、埋め込み空間に入力を圧縮し、次いで、埋め込みから入力を再構築するように訓練することができる。エンコーダが訓練されると、本明細書で説明されるように、エンコーダを再利用することができる。フィッシング分類器層２７５は、ＵＲＬｎ－ｇｒａｍのＵＲＬ特徴量ハッシュ２４２と、コンテンツページから抽出された単語の単語エンコーディング２６５と、ＵＲＬ２１４ウェブアドレスでコンテンツページ２１６からキャプチャされた画像の画像埋め込み２５７と、を利用する。

【0036】

一実施形態では、フィッシング検出エンジン２０２は、ウェブページのコンテンツ、及び応答ヘッダに存在するセキュリティ情報の特徴量ハッシュ化を利用して、良性のウェブページ及びフィッシングウェブページの両方で利用可能な特徴量を補完する。コンテンツは、一実装態様ではＪａｖａＳｃｒｉｐｔで表現される。別の実施形態では、Ｐｙｔｈｏｎなどの異なる言語を使用することができる。ＵＲＬ特徴量ハッシャ２２２は、ＵＲＬ２１４を受信し、ＵＲＬをパースして特徴量にし、特徴量をハッシュ化してＵＲＬ特徴量ハッシュ２４２を生成し、ＵＲＬｎ－ｇｒａｍの次元削減をもたらす。ヘッダ＋セキュリティ情報を有するＵＲＬのドメイン特徴量の一例を次に列挙する。
“ｓｃａｎｎｅｄ＿ｕｒｌ”：［
“ｈｔｔｐ：／／ａｌｆａｂｅｅｋ．ｃｏｍ／”
］，
“ｈｅａｄｅｒ”：｛
“ｄａｔｅ”：”Ｔｕｅ，０２Ｍａｒ２０２１１５：３０：２７ＧＭＴ”，
“ｓｅｒｖｅｒ”：”Ａｐａｃｈｅ”，
“ｌａｓｔ－ｍｏｄｉｆｉｅｄ”：”Ｔｕｅ，０８Ｓｅｐ２０２００２：０９：４９ＧＭＴ”，
“ａｃｃｅｐｔ－ｒａｎｇｅｓ”：”ｂｙｔｅｓ”，
“ｖａｒｙ”：”Ａｃｃｅｐｔ－Ｅｎｃｏｄｉｎｇ”，
“ｃｏｎｔｅｎｔ－ｅｎｃｏｄｉｎｇ”：”ｇｚｉｐ”，
“ｃｏｎｔｅｎｔ－ｌｅｎｇｔｈ”：”２３８５９”，
“ｃｏｎｔｅｎｔ－ｔｙｐｅ”：”ｔｅｘｔ／ｈｔｍｌ”｝，
“ｓｅｃｕｒｉｔｙ＿ｉｎｆｏ”：［
｛
“＿ｓｕｂｊｅｃｔＮａｍｅ”：”ａｌｆａｂｅｅｋ．ｃｏｍ”，
“＿ｉｓｓｕｅｒ”：”ＳｅｃｔｉｇｏＲＳＡＤｏｍａｉｎＶａｌｉｄａｔｉｏｎＳｅｃｕｒｅＳｅｒｖｅｒＣＡ”，
“＿ｖａｌｉｄＦｒｏｍ”：１５８３１０７２００，
“＿ｖａｌｉｄＴｏ”：１６１４７２９５９９，
“＿ｐｒｏｔｏｃｏｌ”：”ＴＬＳ１．３”，
“＿ｓａｎＬｉｓｔ”：［
“ａｌｆａｂｅｅｋ．ｃｏｍ”，
“ｗｗｗ．ａｌｆａｂｅｅｋ．ｃｏｍ”
］

【0037】

図２の説明を続けると、ヘッドレスブラウザ２２６は、ＵＲＬのコンテンツにアクセスし、コンテンツページを内部的にレンダリングし、コンテンツページのレンダリングから単語を抽出し、かつコンテンツページのレンダリングの少なくとも一部の画像をキャプチャするように構成されている。ヘッドレスブラウザ２２６は、コンテンツページ２１６のウェブアドレスであるＵＲＬ２１４を受信し、コンテンツページ２１６から単語を抽出する。ヘッドレスブラウザ２２６は、抽出された単語２４６を自然言語エンコーダ２６４に提供し、自然言語エンコーダ２６４は、抽出された単語からエンコーディングを生成する：ブロック図２００の単語エンコーディング２６５。自然言語（ＮＬ）エンコーダ２６４は、自然言語に関して事前訓練され、コンテンツページから抽出された単語のエンコーディングを生成する。エンコーダ２６４は、例示的な実施形態では、標準エンコーダである自然言語のためのＢＥＲＴを利用する。エンコーダは、エンコーダが比較的低次元の埋め込み空間で処理する入力を埋め込む。ＢＥＲＴは、４００～８００次元の埋め込み空間に自然言語パッセージを埋め込む。Ｔｒａｎｓｆｏｒｍｅｒロジックは、自然言語入力を受け入れ、一例では、入力をエンコーディングして埋め込む７６８次元ベクトルを生成する。事前訓練されたデコーダ２６６の破線ブロック輪郭は、事前訓練されたものとして区別される。すなわち、ＢＥＲＴは、ＵＲＬ２１４のフィッシングを検出するために使用される前に訓練される。エンコーダ２６４は、フィッシングを検出するためにフィッシング分類器層２７５によって使用するために、スクリーニングされているコンテンツページから抽出された単語の単語エンコーディング２６５を生成する。異なる実装態様では、ユニバーサルセンテンスエンコーダなどの異なるＭＬ／ＤＬエンコーダを利用することができる。異なる実施形態では、長期短期記憶（ＬＳＴＭ）モデルを利用することができる。

【0038】

更に図２の説明を続けると、ヘッドレスブラウザ２２６は、コンテンツページ２１６のウェブアドレスであるＵＲＬ２１４を受信し、ウェブページを訪問する実際のユーザを模倣し、かつレンダリングされたウェブページのスナップショットを撮ることによって、ウェブページの画像をキャプチャする。ヘッドレスブラウザ２２６は、スナップショットを撮り、キャプチャされた画像２４８を、画像に関して事前訓練された画像埋め込み器２５６に提供し、コンテンツページからキャプチャされた画像の埋め込みを生成する。画像埋め込みは、難読化されたケースに対して、効率を高め、フィッシング検出を改善することができる。埋め込み器２５６は、キャプチャされた画像２４８を画像埋め込み２５７としてエンコーディングする。一実施形態では、埋め込み器２５６は、標準埋め込み器である残差ニューラルネットワーク（ＲｅｓＮｅｔ５０）を、画像に対する事前訓練された分類器２５８とともに利用する。異なる実装態様では、Ｉｎｃｅｐｔｉｏｎ－ｖ３、ＶＧＧ－１６、ＲｅｓＮｅｔ３４、又はＲｅｓＮｅｔ－１０１などの異なるＭＬ／ＤＬで事前訓練された画像埋め込み器を利用することができる。例示的な実施形態を続けると、ＲｅｓＮｅｔ５０は、ＲＧＢ２２４ｘ２２４ピクセル画像などの画像を埋め込み、この画像を埋め込み空間にマッピングする２４８次元の埋め込みベクトルを生成する。埋め込み空間は、元の入力よりもはるかにコンパクトである。事前訓練されたＲｅｓＮｅｔ５０埋め込み器２５６は、フィッシングウェブサイトを検出するために使用される、スクリーニングされているコンテンツページのスナップショットの画像埋め込み２５７を生成する。

【0039】

開示されるフィッシング検出エンジン２０２のフィッシング分類器層２７５は、ＵＲＬ特徴量ハッシュと、コンテンツページから抽出された単語のエンコーディングと、例示的なＵＲＬのコンテンツページからの画像キャプチャの埋め込みと、に関して訓練され、各例示的なＵＲＬは、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う。フィッシング分類器層２７５は、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みを処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを表す少なくとも１つの尤度スコアを生成する。尤度スコア２８５は、特定のウェブサイトがフィッシングウェブサイトである可能性がどのくらいあるかを表す。一実施形態では、フィッシング分類器層２７５への入力サイズは、２０４８＋７６８＋１０２４であり、ＢＥＲＴの出力は、７６８であり、ＲｅｓＮｅｔ５０埋め込みサイズは、２０４８であり、ＵＲＬのｎ－ｇｒａｍにわたる特徴量ハッシュのサイズは、１０２４である。フィッシング検出エンジン２０２は、フィッシングウェブサイトの言語に関わらず、フィッシングウェブサイトの意味的に有意な検出に非常に好適である。開示されるニアリアルタイムのクローリングパイプラインは、これらが無効化される前に、新しい疑わしいウェブページのコンテンツを迅速にキャプチャし、したがって、フィッシング攻撃の短いライフサイクルの性質に対処し、このことが、所定の深層学習アーキテクチャの継続的な再訓練のためのより大きな訓練データセットを蓄積するのに役立つ。

【0040】

図３は、上記の図２に示されるブロック図に関連して説明されるような、ウェブコンテンツページから抽出された単語の自然言語分類に利用され得るＴｒａｎｓｆｏｒｍｅｒからの参照双方向エンコーダ表現（ＢＥＲＴ）のブロック図を例示するものである。

【0041】

フィッシング検出にＭＬ／ＤＬを適用するための第２のシステムは、画像転移学習を利用し、また、ＨＴＭＬ埋め込みを学習するために生成事前訓練（ＧＰＴ）を使用する。これは、限られたフィッシングデータセットを有するという問題に対処し、また、ＨＴＭＬのコンテンツのより良い表現を提供する。第１のアプローチとは異なり、ＢＥＲＴテキストエンコーディングの必要性がない。ＨＴＭＬ埋め込みネットワークは、ＨＴＭＬコンテンツ（テキスト、ＪＳ、ＣＳＳなど）のマルチモーダルコンテンツ全体を２５６個の数のベクトルによって表すことを学習する。このＨＴＭＬ埋め込みネットワークの理論的な基礎は、ｔｈｅ３７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ＰＭＬＲ１１９：１６９１－１７０３，２０２０の議事録に掲載された“ＯｐｅｎＡＩＧｅｎｅｒａｔｉｖｅＰｒｅｔｒａｉｎｉｎｇＦｒｏｍＰｉｘｅｌｓ”に内示されている。

【0042】

図４は、各例示的なＵＲＬが、フィッシングサイトを検出するために、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う、ＵＲＬ特徴量ハッシュと、コンテンツページから抽出されたＨＴＭＬのエンコーディングと、例示的なＵＲＬのコンテンツページからキャプチャされた画像の埋め込みと、を用いるＭＬ／ＤＬを利用する、開示されるフィッシング検出エンジン４０２の高レベルブロック図４００を例示している。開示されるフィッシング分類器層４７５は、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコア４８５を生成する。

【0043】

フィッシング検出エンジン４０２は、ＵＲＬ４１４を特徴量にパースし、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュ４４２を生成し、ＵＲＬｎ－ｇｒａｍの次元削減をもたらすＵＲＬ特徴量ハッシャ４２２を使用する。ヘッダ＋セキュリティ情報を有するＵＲＬのドメイン特徴量の一例が、上に列挙されている。

【0044】

ヘッドレスブラウザ４２６は、ＨＴＭＬトークン４４６を抽出し、ＨＴＭＬエンコーダ４６４に提供する。フィッシング検出エンジン２０２は、開示されるＨＴＭＬエンコーダ４６４を利用し、例示的なＵＲＬ４１６のコンテンツページから抽出され、エンコードされ、次いで、コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされる、ＨＴＭＬトークン４４６に関して訓練される。破線は、キャプチャされた画像４４８からの破線を含む、アクティブなＵＲＬの後の処理から、エンコーダ埋め込みからページのレンダリングされた画像を生成する生成訓練デコーダ４６６の破線ブロック輪郭を区別する。データ分布Ｐ（Ｘ）を学習することは、Ｐ（Ｘ｜Ｙ）のその後の教師ありモデリングに非常に有益であり、Ｙは、フィッシング及び非フィッシングの二値クラスであり、Ｘは、ＨＴＭＬコンテンツである。ＨＴＭＬエンコーダ４６４は、生成事前訓練（ＧＰＴ）を使用して事前訓練され、これは、大量の教師なしデータにわたる教師なし事前訓練が、Ｐ（Ｙ｜Ｘ）を用いた後続の教師あり意思決定のためにデータ分布Ｐ（Ｘ）を学習するために利用される。ＨＴＭＬエンコーダ４６４が訓練されると、ＨＴＭＬエンコーダ４６４は、再利用され得る。ＨＴＭＬエンコーダ４６４は、コンテンツページ４１６から抽出されたＨＴＭＬトークン４４６のＨＴＭＬエンコーディング４６５を生成する。

【0045】

ＨＴＭＬは、ルールに基づいてトークン化され、ＨＴＭＬトークン４４６は、ＨＴＭＬエンコーダ４６４に渡される。フィッシングＵＲＬリストのコミュニティ例である、オープンソースを提供する、インターネット上の、フィッシングに関するデータ及び情報の共同クリアリングハウスとしては、フィッシングウェブサイトとして識別されているＨＴＭＬファイルのソースとして機能するＰｈｉｓｈＴａｎｋ、ＯｐｅｎＰｈｉｓｈ、ＭａｌｗａｒｅＰａｔｒｏｌ、及びＫａｓｐｅｒｓｋｙが挙げられる。フィッシングを含まない陰性サンプルは、フィッシングウェブサイトの現在の傾向を表す割合でデータセットをバランスさせる。ＨＴＭＬエンコーダ４６４は、インハウスのアクティブスキャナ１５４によって集取された、ＨＴＭＬ及びページスナップショットのラベル付けされていない大規模なデータセットを使用して訓練される。ウェブサイトのユーザは、特に、悪意のあるレンダリングされたページが正当なログインページの外観を模倣しているときに、攻撃の犠牲になるため、訓練の目標は、ＨＴＭＬエンコーダに、これらのページのレンダリングされた画像に関してＨＴＭＬコンテンツを表すように学習することを強制する。

【0046】

訓練のために、ＨＴＭＬエンコーダ４６４は、ＨＴＭＬのランダムな初期パラメータ及びパラメータで初期化される。一実施形態では、データストア１６４内の７００Ｋ個のＨＴＭＬファイルがスキャンされ、コンテンツページを表す上位１０Ｋ個のトークンの結果として得られた抽出が、かなりの数の偽陽性結果に悩まされない分類のためにフィッシング検出エンジン４０２を構成するために使用された。１つの例示的なコンテンツページでは、８００個の有効なトークンが抽出された。別の例では、２Ｋ個の有効なトークンが認識され、第３の例では、およそ１Ｋ個のトークンが収集された。

【0047】

別の実施形態では、ＨＴＭＬパーサを使用して、ＵＲＬを介してアクセスされたコンテンツページからＨＴＭＬトークンを抽出することができる。ヘッドレスブラウザ及びＨＴＭＬパーサの両方を、所定のトークン語彙に属するＨＴＭＬトークンを抽出し、かつ所定のトークン語彙に属さないコンテンツの部分を無視するように構成することができる。一実施形態では、フィッシング検出エンジン４０２は、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成されたヘッドレスブラウザを含む。６４は、特定の、構成可能なシステムパラメータである。抽出は、いくつかの場合には、レンダリングに最大１０ミリ秒を使用することができる。別の実施形態では、ヘッドレスブラウザを、最大１２８、２５６、１０２４、又は４０９６個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成することができる。より多くのトークンの使用は、訓練を遅くする。最大２ｋ個トークンの実装が達成されている。訓練を利用して、ＨＴＭＬトークンのどのような順序パターンが特定のページビューを生じるかを学習することができる。数学的近似は、より良い分類のためにどのような分布のトークンを後に使用すべきかを学習するために使用可能である。

【0048】

図４の説明を続けると、画像に関して事前訓練された画像埋め込み器は、コンテンツページからキャプチャされた画像の画像埋め込みを生成する。事前訓練された埋め込み器係数は、ニアリアルタイムでコスト効率の良い埋め込みを可能にする。ヘッドレスブラウザ４２６は、ＵＲＬのコンテンツにアクセスし、かつコンテンツページを内部的にレンダリングするように構成されている。ヘッドレスブラウザ２２６は、コンテンツページ４１６のウェブアドレスであるＵＲＬ４１４を受信し、ウェブページを訪問する実際のユーザを模倣し、かつレンダリングされたウェブページのスナップショットを撮ることによって、ウェブページの画像をキャプチャする。ヘッドレスブラウザ４２６は、スナップショットを撮り、キャプチャされた画像４４８を、画像に関して事前訓練されたレンダリング画像埋め込み器４５６に提供し、コンテンツページからキャプチャされた画像の埋め込みを生成する。画像埋め込みは、効率を高め、フィッシング検出を改善することができ、このことは、難読化されたケースに対して特に有用である。埋め込み器４５６は、キャプチャされた画像４４８を画像埋め込み４５７としてエンコーディングする。一実施形態では、レンダリング画像埋め込み器４５６は、標準埋め込み器である残差ニューラルネットワーク（ＲｅｓＮｅｔ５０）を、画像に対する事前訓練された分類器４５８とともに利用する。異なる実装態様では、Ｉｎｃｅｐｔｉｏｎ－ｖ３、ＶＧＧ－１６、ＲｅｓＮｅｔ３４、又はＲｅｓＮｅｔ－１０１などの異なるＭＬ／ＤＬで事前訓練された画像埋め込み器を利用することができる。例示的な実施形態を続けると、ＲｅｓＮｅｔ５０は、ＲＧＢ２２４ｘ２２４ピクセル画像などの画像を埋め込み、この画像を埋め込み空間にマッピングする２０４８次元の埋め込みベクトルを生成する。埋め込み空間は、元の入力よりもはるかにコンパクトである。事前訓練されたＲｅｓＮｅｔ５０埋め込み器４５６は、フィッシングウェブサイトを検出するために使用されるように、コンテンツページからキャプチャされた画像の画像埋め込み４５７を生成する。ＵＲＬ特徴量ハッシュ４４２、ＨＴＭＬエンコーディング４６５、及び画像埋め込み４５７は、以下で説明されるように、最終訓練及び推論のためにニューラルネットワークフィッシング分類器層４７５に渡される。一実施形態では、最終分類器の入力サイズは、２０４８（ＲｅｓＮｅｔ５０埋め込みサイズ）＋２５６（ＨＴＭＬエンコーダのエンコーディングサイズ）＋１０２４（ＵＲＬのｎ－ｇｒａｍにわたる特徴量ハッシュのサイズ）である。新しいフィッシングウェブサイトは、１つの本番システムで、セキュリティチームによって時間ごとに提出される。１つの例示的なフィッシングウェブサイトでは、ＨＴＭＬスクリプトが開始し、次いで、空白のセクションが検出され、次いで、ＨＴＭＬスクリプトが終了する。開示される技術は、新しいフィッシングウェブサイトのタイムリーな検出をサポートする。

【0049】

開示されるフィッシング検出エンジン４０２のフィッシング分類器層４７５は、ＵＲＬ特徴量ハッシュと、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングと、例示的なＵＲＬのコンテンツページからのキャプチャされた画像の埋め込みと、に関して訓練され、各例示的なＵＲＬは、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース４７２分類を伴う。訓練後、フィッシング分類器層２７５は、ＵＲＬ特徴量ハッシュ４４２、ＨＴＭＬエンコーディング４６５、及び画像埋め込み４５７を処理して、ＵＲＬと、このＵＲＬ４１４を介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコア４８５を生成する。尤度スコア４８５は、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する可能性がどのくらいあるかを表す。次に、分類損失と、ｃｌｆ損失と、二値のフィッシングか否かと、分類器が見ることを期待するものと分類器が見るものとの間の差Ｇｅｎ＿ｌｏｓｓについて、モデルを訓練するための例示的な擬似コードを列挙する。
ｄｅｆｔｒａｉｎｉｎｇ＿ｓｔｅｐ（ｓｅｌｆ，ｂａｔｃｈ，ｂａｔｃｈ＿ｉｄｘ）：
ｈｔｍｌ＿ｔｏｋｅｎｓ，ｓｎａｐｓｈｏｔ，ｌａｂｅｌ，ｒｅｓｎｅｔ＿ｅｍｂｅｄ，ｄｏｍａｉｎ＿ｆｅａｔｕｒｅｓ＝ｂａｔｃｈ
＃チューニング及び分類
ｉｆｓｅｌｆ．ｃｌａｓｓｉｆｙ：
埋め込み、ｌｏｇｉｔｓ＝ｓｅｌｆ．ｇｐｔ（ｘ，ｃｌａｓｓｉｆｙ＝Ｔｒｕｅ）
ｇｅｎ＿ｌｏｓｓ＝ｓｅｌｆ．ｃｒｉｔｅｒｉｏｎ（ｌｏｇｉｔｓ，ｙ）
ｃｌｆ＿ｌｏｇｉｔｓ＝ｓｅｌｆ．ｃｏｎｃａｔ＿ｌａｙｅｒ（ｔｏｒｃｈ．ｃａｔ（［ｅｍｂｅｄｄｉｎｇ，ｒｅｓｎｅｔ＿ｅｍｂｅｄ，ｄｏｍａｉｎ＿ｆｅａｔｕｒｅｓ］，ｄｉｍ＝１））
ｃｌｆ＿ｌｏｓｓ＝ｓｅｌｆ．ｃｌｆ＿ｃｒｉｔｅｒｉｏｎ（ｃｌｆ＿ｌｏｇｉｔｓ，ｌａｂｅｌ）
＃分類のための共同損失
ｌｏｓｓ＝ｃｌｆ＿ｌｏｓｓ＋ｇｅｎ＿ｌｏｓｓ
＃生成事前訓練
ｅｌｓｅ：
ｇｅｎｅｒａｔｅｄ＿ｉｍｇ＝ｓｅｌｆ．ｇｐｔ（ｈｔｍｌ＿ｔｏｋｅｎｓ）
ｌｏｓｓ＝ｓｅｌｆ．ｃｒｉｔｅｒｉｏｎ（ｇｅｎｅｒａｔｅｄ＿ｉｍｇ，ｓｎａｐｓｈｏｔ）

【0050】

図５は、フィッシング検出エンジン４０２で使用する前に、画像の分類のために事前訓練された参照残差ニューラルネットワーク（ＲｅｓＮｅｔ）のブロック図を例示している。

【0051】

インラインフィッシングでは、ウェブページは、ユーザエンドポイント１６６においてユーザサイドでレンダリングされるため、ページのスナップショットは、利用可能ではないため、ＲｅｓＮｅｔは、利用されず、フィッシング検出分類器は、コンテンツページのヘッダ情報にアクセスしない。次に、ページから抽出されたＵＲＬ及びＨＴＭＬトークンを利用して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか否かとして分類する、開示される分類器システムについて説明する。この第３のシステムは、訪問されたコンテンツのスナップショットへの、及びヘッダ情報へのアクセスが利用可能でない場合、本番環境で特に有用であり、ネットワークセキュリティシステムで、リアルタイムで動作することができる。

【0052】

別の開示される分類器システムは、訪問されたコンテンツのスナップショットへの、及びヘッダ情報へのアクセスが利用可能でないときに、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか否かとして分類するためのＭＬ／ＤＬを適用する。図６は、ＵＲＬ埋め込み器及びＨＴＭＬエンコーダを用いるＭＬ／ＤＬを利用する、開示されるフィッシング検出エンジン６０２の高レベルブロック図６００を例示している。ＨＴＭＬのエンコーディングは、ＵＲＬによって指し示されるコンテンツページから抽出される。開示されるフィッシング分類器層６７５は、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコア６８５を生成する。

【0053】

フィッシング検出エンジン６０２は、ＵＲＬ６１４から所定の文字セット内の文字を抽出してＵＲＬ文字シーケンス６４２を生成する、ＵＲＬリンクシーケンス抽出器６２２を使用する。一次元１Ｄ畳み込みニューラルネットワーク（Ｃｏｎｖ１Ｄ）ＵＲＬ埋め込み器６５２は、ＵＲＬ埋め込み６５３を生成する。分類のために使用する前に、ＵＲＬ埋め込み器６５２及びＵＲＬ分類器６５４は、ＵＲＬをフィッシングか、又はフィッシングでないとして分類するグラウンドトゥルース６３２を伴う例示的なＵＲＬを使用して訓練される。訓練されたＵＲＬ分類器６５４の破線ブロック輪郭は、訓練をアクティブなＵＲＬの後の処理から区別する。ＵＲＬ埋め込み器６５２の訓練中、フィッシング分類器層を越えて、ＵＲＬ埋め込みを生成するために使用される埋め込み層までの差がバックプロパゲートされる。

【0054】

図６に例示されるシステム６００の説明を続けると、フィッシング検出エンジン６０２はまた、開示されるＨＴＭＬエンコーダ６６４を利用し、これは、例示的なＵＲＬ６１６におけるコンテンツページからＨＴＭＬパーサ６３６によってパースされたＨＴＭＬトークン６４６を使用して訓練され、エンコーディングされ、次いで、デコードされて、コンテンツページのレンダリングからキャプチャされた画像を再現する。パースすることは、利用可能なメタデータから意味を抽出する。一実装態様では、トークン化は、メタデータのストリーム内のＨＴＭＬトークンを識別するためのパースすることの第１のステップとして動作し、パースすることは、次いで、トークンが見つかったコンテキストを使用して、参照されている情報の意味及び／又は種類を決定することに進む。ＨＴＭＬエンコーダ６６４は、コンテンツページ６１６から抽出されたＨＴＭＬトークン６４６のＨＴＭＬエンコーディング６６５を生成する。

【0055】

訓練中、ヘッドレスブラウザ６２８は、事前訓練で使用するために、ＵＲＬのコンテンツページの画像をキャプチャする。キャプチャされた画像６４８から、エンコーダ埋め込みからページのレンダリングされた画像を生成する生成訓練デコーダ６６８の破線ブロック輪郭までの破線は、訓練をアクティブなＵＲＬの後の処理から区別する。訓練のために、ＨＴＭＬエンコーダ６６４は、ＨＴＭＬのランダムな初期パラメータ及びパラメータで初期化される。ＨＴＭＬエンコーダ６６４は、生成事前訓練を使用して事前訓練され、これは、大量の教師なしデータにわたる教師なし事前訓練が、Ｐ（Ｙ｜Ｘ）を用いた後続の教師あり意思決定のためにデータ分布Ｐ（Ｘ）を学習するために利用される。ＨＴＭＬエンコーダ６６４が訓練されると、本番での使用のために再利用される。エンコーダ６６４の訓練中、ＨＴＭＬエンコーディングを生成するために使用されるエンコーディング層の差は、フィッシング分類器層を越えてバックプロパゲートされる。訓練データは、一実施形態では、２０６，２２４個の良性ページ及び６９，８０８個のフィッシングページを含む。

【0056】

システム６００の説明を更に続けると、フィッシング分類器層６７５は、例示的なＵＲＬのＵＲＬ埋め込み及びＨＴＭＬエンコーディングに関して訓練され、各例示的なＵＲＬは、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類６３２を伴う。ＵＲＬ埋め込み器６５２の訓練中、ＵＲＬ埋め込み６５３を生成するために使用されるエンコーディング層の差は、フィッシング分類器層を越えてバックプロパゲートされる。すなわち、ＨＴＭＬエンコーダ６６４が事前訓練されると、ＵＲＬ埋め込み６５３ネットワークは、ネットワークの残りの部分（分類層６７５、及びＨＴＭＬエンコーダ６５４の微調整ステップ）とともに、損失関数と、入力情報についてのグラウンドトゥルース６３２を有するＵＲＬ例の助けと、を用いて訓練される。

【0057】

訓練後、フィッシング分類器層６７５は、ＵＲＬ埋め込み６５３及びＨＴＭＬエンコーディング６６５の連結された入力を処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する。フィッシング検出エンジン６０２は、フィッシング分類器層６７５を、ＵＲＬ埋め込み及びＨＴＭＬエンコーディングの連結された入力に適用して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコア６８５を生成する。

【0058】

ＨＴＭＬパーサ６３６は、ＵＲＬを介してアクセスされたコンテンツページからＨＴＭＬトークンを抽出する。一例では、ＨＴＭＬパーサ６３６は、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツから抽出し、改行及び行送りなどの、所定のトークン語彙に属さないコンテンツの一部を無視するように構成可能である。一実施形態では、ＨＴＭＬエンコーダ６６４を訓練するために指定するＨＴＭＬトークンの数を決定するための訓練において、データストア１６４における７００Ｋ個のＨＴＭＬファイルのスキャンと、コンテンツページを表す上位１０Ｋ個のトークンの結果として得られる抽出と、が、かなりの数の偽陽性結果に悩まされない分類のためのフィッシング検出エンジン６０２を構成するために使用された。１つの例示的なコンテンツページでは、８００個の有効なトークンが抽出され、別の例では、２Ｋ個の有効なトークンが認識され、第３の例では、およそ１Ｋ個のトークンが収集された。訓練を使用して、ＨＴＭＬトークンのどの順序パターンが特定のコンテンツページを生じるかを学習する。

【0059】

インライン実装を利用するリアルタイムフィッシング検出システムの場合、速度を考慮して、語彙のサイズを最小化するように注意が払われる。フィッシング検出エンジン６０２について、一実施形態では、ＨＴＭＬパーサ６３６は、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成されている。異なる実装態様では、異なる数のＨＴＭＬエンコーディングを利用することができる。別の実施形態では、ヘッドレスブラウザを、最大１２８、２５６、１０２４、又は４０９６個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成することができる。

【0060】

フィッシングパターンは、絶えず進化し、多くの場合、検出方法が低い偽陽性率（ＦＰＲ）を維持しながら高い真陽性率（ＴＰＲ）を達成することは困難である。精度再現率曲線は、可能なカットオフの精度（＝陽性予測値）と再現率（＝感度）との間の関係を示す。

【0061】

図７は、複数の開示されるフィッシング検出システムの精度再現率グラフを示す。偽陽性検出がほとんどないことが要求されることに起因して、精度が１．０００に近い、グラフの最上部付近の結果の精度が興味深い。ＨＴＭＬ＋ＵＲＬ＋ヘッダコンテンツを有する曲線は、点線７４６によって表されている。長いダッシュ７３６を有する曲線として表されるスナップショット（ＲｅｓＮｅｔ）＋ＢＥＲＴは、ＨＴＭＬ＋ＵＲＬ＋ヘッダコンテンツよりも精度が良く、実線曲線７２６として表されるスナップショットは、最も精度が良いフィッシング技法である。ＢＥＲＴは、計算費用が高く、グラフは、精度が良いフィッシング検出結果を取得するためにＢＥＲＴが必要とされないことを示す。

【0062】

図８は、上で説明されるフィッシングウェブサイト検出のための受信者動作特性曲線（ＲＯＣ）を例示している。ＲＯＣ曲線は、様々な閾値設定における偽陽性率（ＦＰＲ）の関数としての真陽性率（ＴＰＲ）のプロットである。関心の領域は、フィッシングウェブサイトとしてのコンテンツページの偽陽性識別が維持可能でないため、非常に低いＦＰＲを有する曲線の下の領域である。ＲＯＣ曲線は、上で説明されるフィッシングウェブサイトを検出するためにシステムを比較するのに有用である。フィッシング検出エンジン２０２について、＋スナップショット＋Ｂｅｒｔ８３６と標記され、かつ長いダッシュを有して例示されるＲＯＣ曲線は、ＵＲＬ特徴量ハッシュを有するＭＬ／ＤＬと、ＮＬ単語のエンコーディングと、キャプチャされたウェブサイト画像の埋め込みと、を利用するシステムの結果を示す。第２のシステムでは、フィッシング検出エンジン４０２は、ＵＲＬ特徴量ハッシュを有するＭＬ／ＤＬと、コンテンツページから抽出されたＨＴＭＬトークンのエンコーディングと、フィッシングサイトを検出するためにコンテンツページからキャプチャされた画像の埋め込みと、を利用する。＋スナップショット８２６と標記された曲線は、その曲線がドットで例示されるＨＴＭＬ－ＵＲＬ－ヘッダ８４６よりも少ない偽陽性で、より高いシステムの精度を示す。

【0063】

多言語Ｂｅｒｔ埋め込みを含む特徴量の異なる組み合わせを有する、図８のＲＯＣ曲線の説明を続けると、比較は、ＢＥＲＴなどのテキスト埋め込みが、場合によっては、ＨＴＭＬエンコーダがすでにテキストコンテンツを考慮に入れていることに起因して、モデルの有効性を損ない、その結果、より多くのテキストエンコーディングを含めることが、ＨＴＭＬページのテキストへの過剰適合につながり得ることを例示している。＋スナップショット８２６は、より高い精度を有し、本番におけるＦＰの最小数につながる。更に、画像埋め込みを伴わないモデルのバージョンは、スナップショットが利用可能でないランタイム環境などの環境でアクティブスキャナ／ヘッドレスブラウザ機能をバイパスすることができるシステムをもたらす。一例では、ヘッドレスブラウザを実行することは、本番環境で直面する膨大な数のＵＲＬにはあまりにも高価であり、スケーラブルではない場合がある。更に、攻撃者は、そのような環境での検出を回避することができる。

【0064】

図９は、ＵＲＬ埋め込み器及びＨＴＭＬエンコーダを用いるＭＬ／ＤＬを利用するフィッシング検出エンジン６０２のフィッシングウェブサイト検出のための受信者動作特性曲線（ＲＯＣ）を例示している。ＲＯＣ曲線９３６は、様々な閾値設定における偽陽性率（ＦＰＲ）の関数としての真陽性率（ＴＰＲ）のプロットである。ＲＯＣ曲線９３６は、フィッシング検出エンジン６０２が、ＲＯＣ曲線が図８に示されるフィッシング検出システムよりも高い真陽性率を有することを例示している。

【0065】

フィッシング検出エンジン６０２のＵＲＬ埋め込み器６５２及びｈｔｍｌエンコーダ６６４は、不規則なメモリアクセスパターン又はデータ依存フロー制御を有する高水準プログラムを備える。高水準プログラムは、Ｃ、Ｃ＋＋、Ｊａｖａ、Ｐｙｔｈｏｎ、及びＳｐａｔｉａｌのようなプログラミング言語で書かれたソースコードである。高水準プログラムは、ＡｌｅｘＮｅｔ、ＶＧＧＮｅｔ、ＧｏｏｇｌｅＮｅｔ、ＲｅｓＮｅｔ、ＲｅｓＮｅＸｔ、ＲＣＮＮ、ＹＯＬＯ、ＳｑｕｅｅｚｅＮｅｔ、ＳｅｇＮｅｔ、ＧＡＮ、ＢＥＲＴ、ＥＬＭｏ、ＵＳＥ、Ｔｒａｎｓｆｏｒｍｅｒ、及びＴｒａｎｓｆｏｒｍｅｒ－ＸＬのような機械学習モデルの計算構造及びアルゴリズムを実装することができる。一例では、高水準プログラムは、各処理層が１つ以上のネストされたループを含むことができるように、いくつかの処理層を有する畳み込みニューラルネットワークを実装することができる。高水準プログラムは、入力及び重みにアクセスすることと、入力と重みとの間の行列乗算を実行することと、を伴う不定期のメモリ演算を実行することができる。高水準プログラムは、後続の処理層の出力を生成するために、後続の処理層の重みを有する先行する処理層からの入力値をロード及び乗算する、高い反復回数を有するネストされたループと、ループボディと、を含むことができる。高水準プログラムは、最も外側のループボディのループレベルの並列性を有することができ、粗粒度のパイプライン化を使用してこれを利用することができる。高水準プログラムは、最も内側のループボディの命令レベルの並列性を有することができ、ループアンローリング、単一命令、複数データ（ＳＩＭＤ）ベクトル化、及びパイプライン化を使用してこれを利用することができる。

【0066】

図１０は、オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるＣ＋＋コードを用いて、ＵＲＬ埋め込み６５３を生成する一次元１Ｄ畳み込みニューラルネットワーク（Ｃｏｎｖ１Ｄ）ＵＲＬ埋め込み器６５２の機能性の計算データフローグラフを例示している。ＵＲＬは、ＵＲＬ１０１４の最初の１００文字を入力し、例示的な一実施形態では、ワンホットエンコーディングを使用し、重み２５６×５６×７を有する畳み込みブロック１０２４（スライドウィンドウのように、カーネルサイズ＝７）をもたらし、多次元特徴量の二値出力を生成する。次元１×３２×８（１×２５６）を有する出力１０６４は、フィッシング分類器層６７５への入力として生成された最終的なＵＲＬ埋め込み６５３を表す。

【0067】

図１１は、フィッシング分類器層６７５への入力としてのｈｔｍｌエンコーディング６６５を生成する、開示されるｈｔｍｌエンコーダ６６４のブロックの図を示す。ＨＴＭＬエンコーダアーキテクチャは、訓練データに見られる画像を再構築する畳み込みデコーダの助けを借りて事前訓練される。デコーダは、典型的には、畳み込みニューラルネットワーク（ＣＮＮである。訓練は、ＨＴＭＬコンテンツを、それらのレンダリングされた画像に関して表現するように学習することをＨＴＭＬエンコーダに強制し、したがって、ＨＴＭＬの無関係な部分をスキップする。この訓練は、フィッシング攻撃が開始される方法に合わせられており、レンダリングされたページが正当なページの外観を模倣し続ける限り、ユーザは、フィッシング攻撃の犠牲になる。次に、ブロックの機能性の概要を説明する。入力埋め込み１１１２は、先に説明されるように、ＨＴＭＬパーサ６３６によって抽出された６４個のＨＴＭＬトークンを取り込み、ＨＴＭＬトークンを語彙にマッピングする。位置エンコーディング１１２２は、ＨＴＭＬトークンのベクトルのコンテキスト情報を追加する。マルチヘッドアテンション１１３２は、入力のどの要素に焦点を当てるかを識別するための複数の自己アテンションベクトルを生成する。抽象ベクトルＱ、Ｋ、及びＶは、入力の異なる成分を抽出し、アテンションベクトルを計算するために使用される。複数のアテンションベクトルは、ＨＴＭＬベクトル間の関係を表す。マルチヘッドアテンション１１３２は、二次的なマルチヘッドアテンションを表す、以下の図１２Ａ～図１２Ｄに関して説明される例示される計算データフローグラフにおいて４回繰り返される。異なる実施形態では、ヘッドの数を２倍にするか、又は更に大きくすることができる。マルチヘッドアテンション１１３２は、アテンションベクトルを、一度に１つのベクトルで、フィードフォワードネットワーク１１６２に渡す。フィードフォワードネットワーク１１６２は、次のブロックのベクトルを変換する。各ブロックは、各特徴量にわたって層を平滑化及び正規化するための、加算及び正規化１１７２によって示される加算及び正規化演算で終了し、訓練データに見られる画像を再生成する２５６個の数値にＨＴＭＬ表現を圧縮する。出力は、フィッシング分類器層６７５への２５６個の数値の入力として生成された最終的なＨＴＭＬエンコーディング６６５を表す。

【0068】

図１２Ａは、フィッシング分類器層６７５に入力されるｈｔｍｌエンコーディング６６５をもたらす、開示されるｈｔｍｌエンコーダ６６４の概要ブロック図を示す。入力エンコーディング及び位置埋め込み１２０５が、上の図１１に関連して説明され、詳細なＯＮＮＸリストが、図１２Ｂに例示されている。マルチヘッドアテンション１２２５が、上の図１１に関連して説明され、図１２Ｃは、図１２Ｂからのブロックを実装するための演算子スキーマへの入力として示される入力エンコーディング及び位置埋め込みからの入力を伴う詳細なＯＮＮＸ画像を示す。加算及び正規化及びフィードフォワード１２４５も、図１２Ｄの詳細なＯＮＮＸリストを用いて、図１１に関して説明される。図１２Ａはまた、入力テンソルの次元を削減する削減平均値（ＲｅｄｕｃｅＭｅａｎ）１２６５演算子を含み、提供された軸に沿った入力テンソルの要素の平均値を計算する。ＨＴＭＬエンコーディング６６５出力は、生成されてフィッシング分類器層６７５への入力としてマッピングされる１×２５６ベクトル１２８５である。ＯＮＮＸ演算子についての入力、出力、及び実行される演算の詳細は、当業者に周知である。

【0069】

図１２Ｂ、図１２Ｃ、及び図１２Ｄは、オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表されるＣ＋＋コードを用いて、フィッシング分類器層６７５に入力されるｈｔｍｌエンコーディング６６５をもたらす、ｈｔｍｌエンコーダ６６４の機能性の計算データフローグラフを合わせて例示している。別の実施形態では、ＯＮＮＸコードは、異なるプログラミング言語を表現することができる。

【0070】

図１２Ｂは、点線で区切られた２つの列におけるデータフローグラフの１つのセクションを示し、左列の最下部にある結合子は、右列の最上部に流れ込む。図１２Ｂの右列の最下部にある結果は、図１２Ｃ及び図１２Ｄに流れ込む。図１２Ｂは、ギャザー演算子１２６４によって示されるように、入力エンコーディング及び位置埋め込みを例示している。入力埋め込み１１１２について、ギャザーブロックが、次元６４×２５６のデータを集取する１２６４。

【0071】

図１２Ｃは、データ接続に沿ってデータを非同期的に伝送する計算ノードを有するデータフローグラフの一例を示す、マルチヘッドアテンション１２２５の単一の反復を例示している。データフローグラフは、Ｔｒａｎｓｆｏｒｍｅｒモデルのいわゆるマルチヘッドアテンションモジュールを表す。一実施形態では、データフローグラフは、複数の処理パイプラインにわたって入力テンソルを処理するために別個の処理パイプラインとして並行に実行される複数のループを示し、第２のレベルのループが第１のレベルのループ内にあるように、ループがレベルの階層に配置されたループネストを伴い、ギャザー及び非圧縮及び連結演算を伴う。ギャザー演算（全体で３つ）は、マルチヘッドアテンション層におけるクエリ、キー、及びバリューベクトルの使用を指す。この開示されるモデルの例では、２つのヘッドが利用され、これらのベクトルの各々についての連結演算がもたらされた。例示される実施形態では、処理パイプラインの各々のそれぞれの出力が連結されて、連結された出力Ａ２、Ｂ２、Ｃ２、Ｄ２を生成する。図１２Ｃの下部、及び図１２Ｄの上部にあるＡ２、Ｂ２、Ｃ２、Ｄ２によって例示されるように、マルチヘッドアテンション機能性からの出力は、加算及び正規化及びフィードフォワードに流れ込む。

【0072】

図１２Ｄは、ＯＮＮＸ演算を使用する加算及び正規化及びフィードフォワード１２４５機能性を示す。図１２Ｄは、点線で区切られた３つの列を使用して例示されており、左列の最下部にある結合子は、中央列の最上部に流れ込み、中央列の最下部にある結合子は、右列の演算に流れ込む。マルチヘッドアテンション（図１２Ｃに示される）の出力は、加算及び正規化及びフィードフォワード演算に流れ込み、ソフトマックス演算１２３２は、入力ベクトルを変換し、行列乗算器ＭａｔＭｕｌ１２４２に流れ込ませる確率分布に正規化する。加算及び正規化及びフィードフォワード１２４５の出力Ａｘ、Ｂｘ、Ｃｘ、Ｄｘ（図１２Ｄの右下隅に示される）は、削減平均値１２６５演算子（図１２Ａ）に流れ込む。削減平均値１２６５演算子は、入力テンソル（Ａｘ、Ｂｘ、Ｃｘ、Ｄｘ）の次元を削減し、提供される軸に沿った入力テンソルの要素の平均値を計算する。ＨＴＭＬエンコーディング６６５の出力は、１ｘ２５６のベクトル１２８５である。

【0073】

図１３は、特定のウェブサイトがフィッシングウェブサイトである可能性がどのくらいあるかを表す尤度スコア（複数可）６８５を生成するフィッシング分類器層６７５の機能性の計算データフローグラフを例示しており、Ｃ＋＋コードは、オープンニューラルネットワーク交換（ＯＮＮＸ）形式で表現されている。サイズ１×５１２のフィッシング分類器層６７５への入力１３１４は、ＵＲＬ埋め込み及びＨＴＭＬエンコーディングを連結することによって形成される。２つの連結されたベクトルは、先に説明されるように、１×２５６ベクトルＨＴＭＬエンコーディング及び次元１×３２×８（１×２５６）を有するＵＲＬ埋め込みである。バッチ正規化１３２４は、前の層の活性化に適用されたように、入力を標準化し、訓練を加速する。演算子ＧＥｎｅｒａｌ行列乗算（ＧＥＭＭ）１３４６、１３６６は、ＤＬにおける基本演算子である線形代数ルーチンを表す。サイズ１×２である最終的な２層フィードフォワード分類器の出力１３７４は、サイトをフィッシングか、又はフィッシングでないとして分類するための、ウェブページがフィッシングサイトである尤度、及びウェブページがフィッシングサイトではない尤度である。

【0074】

コンピュータシステム
図１４は、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するために使用され得るコンピュータシステム１０００の簡略化されたブロック図である。コンピュータシステム１４００は、バスサブシステム１４５５を介して一部の周辺デバイスと通信する少なくとも１つの中央処理装置（ＣＰＵ）１４７２と、本明細書で説明されるネットワークセキュリティサービスを提供するためのネットワークセキュリティシステム１１２と、を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイルストレージサブシステム１４３６を含むストレージサブシステム１４１０と、ユーザインターフェース入力デバイス１４３８と、ユーザインターフェース出力デバイス１４７６と、ネットワークインターフェースサブシステム１４７４とを含むことができる。入力及び出力デバイスは、コンピュータシステム１４００とのユーザ対話を可能にする。ネットワークインターフェースサブシステム１４７４は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。

【0075】

一実装態様では、図１のクラウドベースのセキュリティシステム１５３は、ストレージサブシステム１４１０及びユーザインターフェース入力デバイス１４３８に通信可能にリンクされる。

【0076】

ユーザインターフェース入力デバイス１４３８は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。概して、「入力デバイス」という用語の使用は、コンピュータシステム１４００に情報を入力するための全ての可能なタイプのデバイス及び方法を含むことが意図される。

【0077】

ユーザインターフェース出力デバイス１４７６は、ディスプレイサブシステム、プリンタ、ファックス機、又は音声出力デバイスなどの非視覚的ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他のメカニズムを含むことができる。ディスプレイサブシステムは、音声出力デバイスなどの非視覚的ディスプレイを提供することもできる。概して、「出力デバイス」という用語の使用は、コンピュータシステム１４００からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための全ての可能なタイプのデバイス及び方法を含むことが意図される。

【0078】

ストレージサブシステム１４１０は、本明細書に記載のモジュール及び方法の一部又は全部の機能を提供するプログラミング及びデータ構造を記憶する。サブシステム１４７８は、グラフィックス処理ユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）であり得る。

【0079】

ストレージサブシステム１４１０内で使用されるメモリサブシステム１４２２は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）１４３２と、固定命令が記憶される読み取り専用メモリ（ＲＯＭ）１４３４とを含む、一部のメモリを含むことができる。ファイルストレージサブシステム１４３６は、プログラム及びデータファイルのための永続的なストレージを提供することができ、ハードディスクドライブ、関連するリムーバブルメディアを伴うフロッピーディスクドライブ、ＣＤ－ＲＯＭドライブ、光学ドライブ、又はリムーバブルメディアカートリッジを含むことができる。特定の実装態様の機能を実装するモジュールは、ファイルストレージサブシステム１４３６によって、ストレージサブシステム１４１０内に、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。

【0080】

バスサブシステム１４５５は、コンピュータシステム１４００の種々のコンポーネント及びサブシステムに、意図されるように互いに通信させるための機構を提供する。バスサブシステム１４５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実装態様は、複数のバスを使用することができる。

【0081】

コンピュータシステム１４００自体は、パーソナルコンピュータ、携帯型コンピュータ、ワークステーション、コンピュータターミナル、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、疎にネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む、種々のタイプのものであることができる。コンピュータ及びネットワークの絶えず変化する性質に起因して、図１４に示されるコンピュータシステム１４００の説明は、本発明の好ましい実施形態を例示するための特定の例としてのみ意図される。図１４に示すコンピュータシステムよりも多い又は少ないコンポーネントを有するコンピュータシステム１４００の多くの他の構成が可能である。

【0082】

特定の実装態様
ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するためのいくつかの特定の実装態様及び特徴量が、以下の議論で説明される。

【0083】

開示される一実装態様では、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するフィッシング分類器は、ＵＲＬを特徴量にパースし、かつ特徴量をハッシュ化してＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、レンダリングされたコンテンツページから単語を抽出し、かつレンダリングされたコンテンツページの少なくとも一部の画像をキャプチャするように構成された、ヘッドレスブラウザと、を含む。開示される実装態様はまた、抽出された単語の単語エンコーディングを生成する自然言語エンコーダと、キャプチャされた画像の画像埋め込みを生成する画像埋め込み器と、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みの連結された入力を処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、を含む。

【0084】

開示される別の実装態様では、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するフィッシング分類器は、ＵＲＬを特徴量にパースし、かつ特徴量をハッシュ化してＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、ＵＲＬのコンテンツにアクセスしてコンテンツページを内部的にレンダリングし、コンテンツページのレンダリングから単語を抽出し、かつコンテンツページのレンダリングの少なくとも一部の画像をキャプチャするように構成された、ヘッドレスブラウザと、を含む。開示される実装態様はまた、コンテンツページから抽出された単語の単語エンコーディングを生成する、自然言語に関して事前訓練された自然言語エンコーダと、画像に関して事前訓練されており、コンテンツページからキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器と、を含む。実装態様は、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みに関して訓練されており、ＵＲＬの、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みの連結された入力を処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層を更に含む。

【0085】

フィッシング分類器のいくつかの開示される実装態様では、自然言語エンコーダは、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）及びユニバーサルセンテンスエンコーダのうちの１つである。画像埋め込み器は、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）、Ｉｎｃｅｐｔｉｏｎ－ｖ３、ＶＧＧ－１６のうちの１つである。

【0086】

一実装態様では、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類する開示されるコンピュータ実装方法は、ＵＲＬ特徴量ハッシャを適用し、ＵＲＬから特徴量を抽出し、特徴量をハッシュ化してＵＲＬ特徴量ハッシュを生成することを含む。開示される方法はまた、コンテンツのレンダリングからパースされた単語の単語エンコーディングを生成する、自然言語に関して事前訓練された自然言語エンコーダを適用することと、レンダリングの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像に関して事前訓練された画像エンコーダを適用することと、を含む。開示される方法は、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込み、の連結に関して訓練されたフィッシング分類器層を適用することと、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みを処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を更に含む。

【0087】

開示される技術のこのセクション及び他のセクションで説明される方法は、以下の特徴及び／又は開示される追加の方法に関連して説明される特徴のうちの１つ以上を含むことができる。簡潔にするために、本出願に開示される特徴の組み合わせは、個々に列挙されず、特徴の各基本セットとともに繰り返されない。読者は、この方法で識別された特徴を、実装態様として識別された基本特徴のセットとどのように容易に組み合わせることができるかを理解するであろう。

【0088】

開示される一コンピュータ実装方法は、ＵＲＬを介してコンテンツにアクセスし、かつコンテンツを内部的にレンダリングするためのヘッドレスブラウザを適用することと、レンダリングされたコンテンツから単語をパースすることと、レンダリングされたコンテンツの少なくとも一部の画像をキャプチャすることと、を更に含む。

【0089】

開示されるコンピュータ実装方法の一実施形態は、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（ＢＥＲＴ）及びユニバーサルセンテンスエンコーダのうちの１つとしての自然言語エンコーダを含む。開示されるコンピュータ実装方法のいくつかの実施形態はまた、残差ニューラルネットワーク（ＲｅｓＮｅｔ）、Ｉｎｃｅｐｔｉｏｎ－ｖ３、及びＶＧＧ－１６のうちの１つとしての画像埋め込み器を含む。

【0090】

ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するようにフィッシング分類器層を訓練する開示される一コンピュータ実装方法は、例示的なＵＲＬについて、ＵＲＬ特徴量ハッシュと、コンテンツページから抽出された単語の単語エンコーディングと、コンテンツのレンダリングからキャプチャされた画像の画像埋め込みと、を受信及び処理して、各例示的なＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することを含む。この方法はまた、各例示的なＵＲＬについての尤度スコアと、例示的なＵＲＬ及びコンテンツページがフィッシングであるか、又はフィッシングでないという各対応するグラウンドトゥルースと、の間の差を計算することと、例示的なＵＲＬについての差を使用して、フィッシング分類器層の係数を訓練することと、を含む。この方法は、本番ＵＲＬと、本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する使用のために、訓練された係数を保存することを更に含む。

【0091】

開示されるコンピュータ実装方法は、差を、フィッシング分類器層を越えて、単語エンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートしないことと、差を、フィッシング分類器層を越えて、画像埋め込みを生成するために使用される埋め込み層にバックプロパゲートしないことと、を更に含む。

【0092】

開示されるコンピュータ実装方法はまた、例示的なＵＲＬの各々についてＵＲＬ特徴量ハッシュを生成することと、コンテンツページのレンダリングから抽出された単語の単語エンコーディングを生成することと、レンダリングからキャプチャされた画像の画像埋め込みを生成することと、を含む。

【0093】

多くの開示されるコンピュータ実装態様について、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するようにフィッシング分類器層を訓練する、開示される方法は、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（ＢＥＲＴ）エンコーダ又はＢＥＲＴエンコーダの変形を使用して、単語エンコーディングを生成することと、残差ニューラルネットワーク（ＲｅｓＮｅｔ）、Ｉｎｃｅｐｔｉｏｎ－ｖ３、及びＶＧＧ－１６のうちの１つを使用して画像埋め込みを生成することと、を含む。

【0094】

開示される一実装態様では、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するフィッシング分類器は、ＵＲＬを特徴量にパースし、かつ特徴量をハッシュ化してＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、レンダリングされたコンテンツページからＨＴＭＬトークンを抽出し、かつレンダリングされたコンテンツページの少なくとも一部の画像をキャプチャするように構成された、ヘッドレスブラウザと、を含む。開示される分類器はまた、抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダと、キャプチャされた画像の画像埋め込みを生成する画像埋め込み器と、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みを処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成するフィッシング分類器層と、を含む。いくつかの実装態様では、ＨＴＭＬトークンは、ＨＴＭＬトークンの認識された語彙に属する。

【0095】

一実装態様では、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類する、開示されるフィッシング分類器は、ＵＲＬを特徴量にパースし、かつ特徴量をハッシュ化してＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、ＵＲＬのコンテンツにアクセスしてコンテンツページを内部的にレンダリングし、コンテンツページからＨＴＭＬトークンを抽出し、かつコンテンツページのレンダリングの少なくとも一部の画像をキャプチャするように構成された、ヘッドレスブラウザと、を含む。開示されるフィッシング分類器はまた、例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンに関して訓練されており、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダを含む。また、画像に関して事前訓練されており、コンテンツページからキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器と、例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みを処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、が含まれる。

【0096】

開示される方法のいくつかの実装態様は、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツから抽出し、かつ所定のトークン語彙に属さないコンテンツの部分を無視するように構成されたヘッドレスブラウザを更に含む。いくつかの開示される実装態様は、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成されたヘッドレスブラウザを更に含む。

【0097】

ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、開示される方法の一実装態様は、ＵＲＬ特徴量ハッシャを適用し、ＵＲＬから特徴量を抽出し、特徴量をハッシュ化してＵＲＬ特徴量ハッシュを生成することを含む。本方法はまた、自然言語に関して訓練されており、レンダリングされたコンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダを適用することを含む。方法は、画像に関して事前訓練されており、レンダリングされたコンテンツページの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器と、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴って分類された例示的なＵＲＬに関して、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みに関して訓練されたフィッシング分類器層を適用することと、ＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みを処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を更に含む。開示される一実装態様では、方法は、ヘッドレスブラウザを適用することと、ＵＲＬを介してコンテンツページにアクセスしてコンテンツページを内部的にレンダリングすることと、レンダリングされたコンテンツからＨＴＭＬトークンをパースすることと、レンダリングされたコンテンツの少なくとも一部の画像をキャプチャすることと、を更に含む。

【0098】

いくつかの開示される実装態様は、ヘッドレスブラウザが、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツからパースし、かつ所定のトークン語彙に属さないコンテンツの部分を無視することを更に含む。いくつかの実装態様はまた、ヘッドレスブラウザが、ＨＴＭＬエンコーディングの生成のために、最大６４個のＨＴＭＬトークンをパースすることを含む。

【0099】

ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するようにフィッシング分類器層を訓練する開示される一コンピュータ実装方法の一実装態様は、例示的なＵＲＬについて、ＵＲＬ特徴量ハッシュと、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングと、コンテンツページのレンダリングからキャプチャされた画像の画像埋め込みと、を受信及び処理して、各例示的なＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することを含む。方法は、各例示的なＵＲＬについての尤度スコアと、例示的なＵＲＬ及びコンテンツページがフィッシングであるか、又はフィッシングでないかについての各対応するグラウンドトゥルースと、の間の差を計算することと、例示的なＵＲＬについての計算された差を使用して、フィッシング分類器層の係数を訓練することと、本番ＵＲＬと、本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングであるか、又はフィッシングでないとして分類する使用のために、訓練された係数を保存することと、を含む。

【0100】

開示される方法のいくつかの実装態様は、差を、フィッシング分類器層を越えて、ＨＴＭＬエンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートすることを含む。いくつかの実装態様は、差を、フィッシング分類器層を越えて、画像埋め込みを生成するために使用される埋め込み層にバックプロパゲートしないことを更に含む。

【0101】

いくつかの実装態様はまた、例示的なＵＲＬの各々についてＵＲＬ特徴量ハッシュを生成することと、コンテンツページのレンダリングから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することと、レンダリングからキャプチャされた画像の画像埋め込みを生成することと、を含む。いくつかの実装態様は、第２の例示的なＵＲＬについて、第２の例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、第２の例示的なＵＲＬのコンテンツページからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンを使用して、ＨＴＭＬエンコーディングを生成するようにＨＴＭＬエンコーダ－デコーダを訓練することを更に含む。開示される方法のいくつかの実装態様はまた、埋め込み空間に画像を埋め込むように事前訓練されたＲｅｓＮｅｔ埋め込み器又はＲｅｓＮｅｔ埋め込み器の変形を使用して画像埋め込みを生成することを含む。

【0102】

ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、開示されるフィッシング分類器の一実装態様は、分類のためのＵＲＬを受け入れる入力プロセッサと、ＵＲＬのＵＲＬ埋め込みを生成するＵＲＬ埋め込み器と、ＵＲＬを介してアクセスされたコンテンツページからＨＴＭＬトークンを抽出するＨＴＭＬパーサと、ＨＴＭＬトークンからＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダと、ＵＲＬ埋め込み及びＨＴＭＬエンコーディングに対して動作して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類するフィッシング分類器層と、を含む。

【0103】

開示されるフィッシング分類器のいくつかの実装態様はまた、ＵＲＬから所定の文字セット内の文字を抽出して文字列を生成し、かつフィッシングか、又はフィッシングでないとしてのＵＲＬのグラウンドトゥルース分類を使用して訓練されており、ＵＲＬ埋め込みを生成する、ＵＲＬ埋め込み器を含む。分類器は、ＵＲＬのコンテンツにアクセスし、かつコンテンツページからＨＴＭＬトークンを抽出するように構成されたＨＴＭＬパーサを更に含む。また、各例示的なＵＲＬが、例示的なＵＲＬを介してアクセスされたコンテンツページからキャプチャされたグラウンドトゥルースイメージを伴う例示的なＵＲＬのコンテンツページから抽出されたＨＴＭＬトークンに関して訓練されており、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成する、開示されるＨＴＭＬエンコーダと、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬのＵＲＬ埋め込み及びＨＴＭＬエンコーディングに関して訓練されており、ＵＲＬ埋め込み及びＨＴＭＬエンコーディングの連結された入力を処理して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、が含まれる。

【0104】

開示されるフィッシング分類器のいくつかの実装態様について、入力プロセッサは、ＵＲＬをリアルタイムでの分類のために受け入れる。開示されるフィッシング分類器の多くの実装態様では、フィッシング分類器層は、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をリアルタイムでフィッシングか、又はフィッシングでないとして分類するように動作する。いくつかの実装態様では、開示されるフィッシング分類器は、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、かつ所定のトークン語彙に属さないコンテンツページの部分を無視するように構成されたＨＴＭＬパーサを更に含み、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコードの生成のために抽出するように構成されたＨＴＭＬパーサを更に含むことができる。

【0105】

ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類する、開示されるコンピュータ実装方法の一実装態様は、ＵＲＬから所定の文字セット内の文字を抽出して文字列を生成してＵＲＬ埋め込みを生成し、フィッシングか、又はフィッシングでないとしてのＵＲＬのグラウンドトゥルース分類を訓練及び使用する、ＵＲＬ埋め込みを生成する、ＵＲＬ埋め込み器を適用することを含む。方法はまた、ＨＴＭＬパーサを適用して、ＵＲＬのコンテンツにアクセスし、コンテンツページからＨＴＭＬトークンを抽出し、ＨＴＭＬエンコーダを適用して、抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することと、フィッシング分類器層をＵＲＬ埋め込み及びＨＴＭＬエンコーディングの連結された入力に適用して、ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を含む。いくつかの実装態様はまた、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、所定のトークン語彙に属さないコンテンツページの部分を無視するＨＴＭＬパーサを含み、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコードの生成のために抽出するＨＴＭＬパーサを更に含むことができる。開示される方法はまた、リアルタイムで、ＵＲＬ埋め込み器、ＨＴＭＬパーサ、ＨＴＭＬエンコーダ、及びフィッシング分類器層を適用することを含むことができる。いくつかの場合には、フィッシング分類器層は、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がリアルタイムでフィッシングリスクを提示する少なくとも１つの尤度スコアを生成するように動作する。

【0106】

ＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するようにフィッシング分類器層を訓練する、開示されるコンピュータ実装方法の一実装態様は、例示的なＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、について、ＵＲＬから抽出された文字のＵＲＬ埋め込みと、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングと、を受信及び処理して、各例示的なＵＲＬと、このＵＲＬを介してアクセスされたコンテンツページと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することを含む。開示される方法はまた、各例示的なＵＲＬについての尤度スコアと、例示的なＵＲＬ及びコンテンツページがフィッシングであるか、又はフィッシングでないかという各対応するグラウンドトゥルースと、の間の差を計算することと、例示的なＵＲＬについての差を使用して、フィッシング分類器層の係数を訓練することと、本番ＵＲＬと、本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングであるか、又はフィッシングでないとして分類する使用のために、訓練された係数を保存することと、を含む。

【0107】

開示される方法のいくつかの実装態様は、ヘッドレスブラウザを適用することと、ＵＲＬのコンテンツにアクセスしてコンテンツページを内部的にレンダリングすることと、コンテンツページの少なくとも一部の画像をキャプチャすることと、を更に含む。開示される方法は、差を、フィッシング分類器層を越えて、ＨＴＭＬエンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートすることを更に含むことができ、差を、フィッシング分類器層を越えて、ＵＲＬ埋め込みを生成するために使用される埋め込み層にバックプロパゲートすることを更に含むことができる。

【0108】

開示される方法のいくつかの実装態様は、例示的なＵＲＬから抽出された文字のＵＲＬ埋め込みを生成することと、例示的なＵＲＬを介してアクセスされたコンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することと、レンダリングからキャプチャされた画像の画像埋め込みを生成することと、を更に含む。

【0109】

開示される方法のいくつかの実装態様は、第２の例示的なＵＲＬについて、第２の例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、第２の例示的なＵＲＬのコンテンツページからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンを使用して、ＨＴＭＬエンコーディングを生成するようにＨＴＭＬエンコーダ－デコーダを訓練することを更に含む。開示される方法は、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、所定のトークン語彙に属さないコンテンツページの部分を無視することを更に含むことができる。方法はまた、抽出を所定の数のＨＴＭＬトークンに制限することを含むことができ、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することを更に含むことができる。

【0110】

このセクションで説明される方法の他の実装態様は、プロセッサ上で実行されるときに、プロセッサに上で説明された方法のいずれかを実行させるコンピュータプログラム命令で特徴付けられた有形の非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明する方法の更に別の実装態様は、メモリと、上記で説明した方法のいずれかを実施するためにメモリに記憶されたコンピュータ命令を実行するように動作可能な１つ以上のプロセッサとを含むデバイスを含み得る。

【0111】

上記で説明又は参照された任意のデータ構造及びコードは、多くの実装態様によれば、コンピュータシステムによって使用するためのコード及び／又はデータを記憶することができる任意のデバイス又は媒体であり得るコンピュータ可読記憶媒体上に記憶される。これには、揮発性メモリ、非揮発性メモリ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクドライブ、磁気テープ、ＣＤ（コンパクトディスク）、ＤＶＤ（ディジタルバーサタイルディスク又はディジタルビデオディスク）などの磁気及び光記憶デバイス、あるいは現在知られている又は今後開発されるコンピュータ可読媒体を格納することができる他の媒体が含まれるが、これらに限定されるものではない。

【0112】

前述の説明は、開示される技術の作製及び使用を可能にするために提示される。開示される実装態様に対する種々の修正が明らかになり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実装態様及び適用例に適用され得る。したがって、開示される技術は、示される実装態様に限定されるように意図されておらず、本明細書で開示される原理及び特徴と一致する最も広い範囲を与えられるべきである。開示される技術の範囲は、添付の特許請求の範囲によって定義される。

【0113】

条項
以下の条項を開示する。

【0114】

条項セット１
１．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類器であって、
ＵＲＬを特徴量にパースして、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、
ＵＲＬのコンテンツページにアクセスし、コンテンツページを内部的にレンダリングし、
コンテンツページのレンダリングから単語を抽出し、
コンテンツページのレンダリングの少なくとも一部の画像をキャプチャするように構成されたヘッドレスブラウザと、
自然言語に関して事前訓練されており、コンテンツページから抽出された単語の単語エンコーディングを生成する、自然言語エンコーダと、
画像に関して事前訓練されており、コンテンツページからキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器と、
例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴い、
ＵＲＬの、ＵＲＬ特徴量ハッシュ、単語エンコーディング、及び画像埋め込みの連結された入力を処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、を含む、フィッシング分類器。
２．自然言語エンコーダが、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）と、ユニバーサルセンテンスエンコーダと、のうちの１つである、条項１に記載のフィッシング分類器。
３．画像埋め込み器が、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つである、条項１に記載のフィッシング分類器。
４．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータ実装方法であって、
ＵＲＬ特徴量ハッシャを適用し、ＵＲＬから特徴量を抽出し、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
自然言語に関して事前訓練されており、コンテンツページのレンダリングからパースされた単語の単語エンコーディングを生成する、自然言語エンコーダを適用することと、
画像に関して事前訓練されており、レンダリングの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像エンコーダを適用することと、
フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬについての、ＵＲＬ特徴量ハッシュと、単語エンコーディングと、画像埋め込みと、の連結に関して訓練されたフィッシング分類器層を適用することと、
ＵＲＬ特徴量ハッシュと、単語エンコーディングと、画像埋め込みと、を処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を含む、コンピュータ実装方法。
５．ヘッドレスブラウザを適用することと、
ＵＲＬを介してコンテンツページにアクセスし、コンテンツページを内部的にレンダリングすることと、
レンダリングされたコンテンツページから単語をパースすることと、
レンダリングされたコンテンツページの少なくとも一部の画像をキャプチャすることと、を更に含む、条項４に記載のコンピュータ実装方法。
６．自然言語エンコーダが、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）と、ユニバーサルセンテンスエンコーダと、のうちの１つである、条項４に記載のコンピュータ実装方法。
７．画像埋め込み器が、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つである、条項４に記載のコンピュータ実装方法。
８．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータプログラム命令で特徴付けられた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されるときに、
ＵＲＬ特徴量ハッシャを適用し、ＵＲＬから特徴量を抽出し、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
自然言語に関して事前訓練されており、コンテンツページのレンダリングからパースされた単語の単語エンコーディングを生成する、自然言語エンコーダを適用することと、
画像に関して事前訓練されており、レンダリングの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像エンコーダを適用することと、
フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬについての、ＵＲＬ特徴量ハッシュと、単語エンコーディングと、画像埋め込みと、の連結に関して訓練されたフィッシング分類器層を適用することと、
ＵＲＬ特徴量ハッシュと、単語エンコーディングと、画像埋め込みと、を処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
９．ヘッドレスブラウザを適用することと、
ＵＲＬを介してコンテンツページにアクセスし、コンテンツページを内部的にレンダリングすることと、
レンダリングされたコンテンツページから単語をパースすることと、
レンダリングされたコンテンツページの少なくとも一部の画像をキャプチャすることと、を更に含む、条項８に記載の非一時的コンピュータ可読記憶媒体。
１０．自然言語エンコーダが、Ｔｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）と、ユニバーサルセンテンスエンコーダと、のうちの１つである、条項８に記載の非一時的コンピュータ可読記憶媒体。
１１．画像埋め込み器が、残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つである、条項８に記載の非一時的コンピュータ可読記憶媒体。
１２．フィッシング分類器層を訓練して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するためのコンピュータ実装方法であって、
例示的なＵＲＬについて、
ＵＲＬ特徴量ハッシュと、コンテンツページから抽出された単語の単語エンコーディングと、コンテンツページのレンダリングからキャプチャされた画像の画像埋め込みと、を受信及び処理して、
各例示的なＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、
各例示的なＵＲＬについての尤度スコアと、例示的なＵＲＬ及びコンテンツページがフィッシングか、又はフィッシングでないという各対応するグラウンドトゥルースと、の間の差を計算することと、
例示的なＵＲＬについての差を使用して、フィッシング分類器層の係数を訓練することと、
本番ＵＲＬと、本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する使用のために、訓練された係数を保存することと、を含む、コンピュータ実装方法。
１３．差を、フィッシング分類器層を越えて、単語エンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートしないことを更に含む、条項１２に記載のコンピュータ実装方法。
１４．差を、フィッシング分類器層を越えて、画像埋め込みを生成するために使用される埋め込み層にバックプロパゲートしないことを更に含む、条項１２に記載のコンピュータ実装方法。
１５．例示的なＵＲＬの各々についてＵＲＬ特徴量ハッシュを生成することと、コンテンツページのレンダリングから抽出された単語の単語エンコーディングを生成することと、レンダリングからキャプチャされた画像の画像埋め込みを生成することと、を更に含む、条項１２に記載のコンピュータ実装方法。
１６．ｒａｎｓｆｏｒｍｅｒからの双方向エンコーダ表現（略してＢＥＲＴ）エンコーダ又はＢＥＲＴエンコーダの変形を使用して、単語エンコーディングを生成することを更に含む、条項１５に記載のコンピュータ実装方法。
１７．残差ニューラルネットワーク（略してＲｅｓＮｅｔ）と、Ｉｎｃｅｐｔｉｏｎ－ｖ３と、ＶＧＧ－１６と、のうちの１つを使用して画像埋め込みを生成することを更に含む、条項１５に記載のコンピュータ実装方法。

【0115】

条項セット２
１．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類器であって、
ＵＲＬを特徴量にパースして、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、
ＵＲＬのコンテンツページにアクセスし、コンテンツページを内部的にレンダリングし、
コンテンツページからＨＴＭＬトークンを抽出し、
コンテンツページのレンダリングの少なくとも一部の画像をキャプチャするように構成されたヘッドレスブラウザと、
例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンに関して訓練されており、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダと、
画像に関して事前訓練されており、コンテンツページからキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器と、
例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴い、
ＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みを処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、を含む、フィッシング分類器。
２．所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、かつ所定のトークン語彙に属さないコンテンツページの部分を無視するように構成されたヘッドレスブラウザを更に含む、条項１に記載のフィッシング分類器。
３．最大６４個のＨＴＭＬトークンのＨＴＭＬエンコードの生成のために抽出するように構成されたヘッドレスブラウザを更に含む、条項１に記載のフィッシング分類器。
４．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータ実装方法であって、
ＵＲＬ特徴量ハッシャを適用し、ＵＲＬから特徴量を抽出し、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
自然言語に関して訓練されており、レンダリングされたコンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダを適用することと、
画像に関して事前訓練されており、レンダリングされたコンテンツページの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する、画像埋め込み器、
フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴って分類された例示的なＵＲＬについての、ＵＲＬ特徴量ハッシュと、ＨＴＭＬエンコーディングと、画像埋め込みと、に関して訓練された、フィッシング分類器層を適用することと、
ＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みを処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページがフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を含む、コンピュータ実装方法。
５．ヘッドレスブラウザを適用することと、
ＵＲＬを介してコンテンツページにアクセスし、コンテンツページを内部的にレンダリングすることと、
レンダリングされたコンテンツからのＨＴＭＬトークンをパースすることと、
レンダリングされたコンテンツの少なくとも一部の画像をキャプチャすることと、を更に含む、条項４に記載のコンピュータ実装方法。
６．ヘッドレスブラウザが、コンテンツからの、所定のトークン語彙に属するＨＴＭＬトークンをパースし、所定のトークン語彙に属さないコンテンツの部分を無視することを更に含む、条項５に記載のコンピュータ実装方法。
７．ヘッドレスブラウザが、ＨＴＭＬエンコーディングの生成のために最大６４個のＨＴＭＬトークンをパースすることを更に含む、条項５に記載のコンピュータ実装方法。
８．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータプログラム命令で特徴付けられた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されるときに、
ＵＲＬ特徴量ハッシャを適用し、ＵＲＬから特徴量を抽出し、特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
自然言語に関して訓練されており、レンダリングされたコンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダを適用することと、
レンダリングされたコンテンツの少なくとも一部からキャプチャされた画像の画像埋め込みを生成する画像埋め込み器を適用することと、
ＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みを処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページがフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層を適用することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
９．命令が、プロセッサ上で実行されるときに、
フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴って分類された例示的なＵＲＬについての、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みに関して、フィッシング分類器層を訓練することを更に含む、条項８に記載の非一時的コンピュータ可読記憶媒体。
１０．命令が、プロセッサ上で実行されるときに、
ＨＴＭＬエンコーダを、例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンに関して、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダを訓練することを更に含む、条項８に記載の非一時的コンピュータ可読記憶媒体。
１１．命令が、プロセッサ上で実行されるときに、
画像埋め込み器が、埋め込み空間に画像を埋め込むように事前訓練された、ＲｅｓＮｅｔ埋め込み器又はＲｅｓＮｅｔ埋め込み器の変形である、方法を実装する、条項８に記載の非一時的コンピュータ可読記憶媒体。
１２．命令が、プロセッサ上で実行されるときに、
ヘッドレスブラウザを適用することと、
ＵＲＬを介してコンテンツにアクセスし、コンテンツを内部的にレンダリングすることと、
レンダリングされたコンテンツからＨＴＭＬトークンをパースすることと、
レンダリングされたコンテンツの少なくとも一部の画像をキャプチャすることと、を更に含む方法を実装する、条項８に記載の非一時的コンピュータ可読記憶媒体。
１３．命令が、プロセッサ上で実行されるときに、ヘッドレスブラウザが、コンテンツからの、所定のトークン語彙に属するＨＴＭＬトークンをパースし、所定のトークン語彙に属さないコンテンツの部分を無視することを更に含む方法を実装する、条項１２に記載の非一時的コンピュータ可読記憶媒体。
１４．命令が、プロセッサ上で実行されるときに、ヘッドレスブラウザが、ＨＴＭＬエンコーディングの生成のために最大６４個のＨＴＭＬトークンをパースすることを更に含む方法を実装する、条項１２に記載の非一時的コンピュータ可読記憶媒体。
１５．フィッシング分類器層を訓練して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するためのコンピュータ実装方法であって、
例示的なＵＲＬについて、
ＵＲＬ特徴量ハッシュと、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングと、コンテンツページのレンダリングからキャプチャされた画像の画像埋め込みと、を受信及び処理して、
各例示的なＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、
各例示的なＵＲＬと、例示的なＵＲＬ及びコンテンツページがフィッシングであるか、又はフィッシングでないかに関する各対応するグラウンドトゥルースとの間の差を計算することと、
例示的なＵＲＬについての計算された差を使用して、フィッシング分類器層の係数を訓練することと、
本番ＵＲＬと、本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する使用のために、訓練された係数を保存することと、を含む、コンピュータ実装方法。
１６．差を、フィッシング分類器層を越えて、ＨＴＭＬエンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートすることを更に含む、条項１５に記載のコンピュータ実装方法。
１７．差を、フィッシング分類器層を越えて、画像埋め込みを生成するために使用される埋め込み層にバックプロパゲートしないことを更に含む、条項１５に記載のコンピュータ実装方法。
１８．例示的なＵＲＬの各々についてＵＲＬ特徴量ハッシュを生成することと、コンテンツページのレンダリングから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することと、レンダリングからキャプチャされた画像の画像埋め込みを生成することと、を更に含む、条項１５に記載のコンピュータ実装方法。
１９．第２の例示的なＵＲＬについて、第２の例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、第２の例示的なＵＲＬのコンテンツページからキャプチャされた画像を生成するようにデコードされるＨＴＭＬトークンを使用して、ＨＴＭＬエンコーディングを生成するようにＨＴＭＬエンコーダ－デコーダを訓練することを更に含む、条項１８に記載のコンピュータ実装方法。
２０．ＲｅｓＮｅｔ埋め込み器又はＲｅｓＮｅｔ埋め込み器の変形を使用して画像埋め込みを生成することを更に含む、条項１９に記載のコンピュータ実装方法。

【0116】

条項セット３
１．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類器であって、
分類のためのＵＲＬを受け入れる入力プロセッサと、
ＵＲＬのＵＲＬ埋め込みを生成するＵＲＬ埋め込み器と、
ＵＲＬを介してアクセスされたコンテンツページからＨＴＭＬトークンを抽出するＨＴＭＬパーサと、
ＨＴＭＬトークンからＨＴＭＬエンコーディングを生成するＨＴＭＬエンコーダと、
ＵＲＬ埋め込み及びＨＴＭＬエンコーディングに対して動作して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類層と、を含む、フィッシング分類器。
２．ＵＲＬから所定の文字セット内の文字を抽出して文字列を生成し、かつフィッシングか、又はフィッシングでないとしてのＵＲＬのグラウンドトゥルース分類を使用して訓練されており、ＵＲＬ埋め込みを生成するＵＲＬ埋め込み器と、
ＵＲＬのコンテンツにアクセスし、
コンテンツページからＨＴＭＬトークンを抽出するように構成されたＨＴＭＬパーサと、
各例示的なＵＲＬが、例示的なＵＲＬを介してアクセスされたコンテンツページからキャプチャされたグラウンドトゥルースイメージを伴う例示的なＵＲＬのコンテンツページから抽出されたＨＴＭＬトークンに関して訓練されており、
コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成する、ＨＴＭＬエンコーダと、
各例示的なＵＲＬがフィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬのＵＲＬ埋め込みとＨＴＭＬエンコーディングに関して訓練されており、
ＵＲＬ埋め込み及びＨＴＭＬエンコーディングの連結された入力を処理して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、を更に含む、条項１に記載のフィッシング分類器。
３．入力プロセッサが、ＵＲＬをリアルタイムでの分類のために受け入れる、条項１に記載のフィッシング分類器。
４．フィッシング分類器層が、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、をリアルタイムでフィッシングか、又はフィッシングでないとして分類するように動作する、条項１に記載のフィッシング分類器。
５．所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、かつ所定のトークン語彙に属さないコンテンツページの部分を無視するように構成されたＨＴＭＬパーサを更に含む、条項１に記載のフィッシング分類器。
６．最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成されたＨＴＭＬパーサを更に含む、条項１に記載のフィッシング分類器。
７．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータ実装方法であって、
ＵＲＬから所定の文字セット内の文字を抽出して文字列を生成してＵＲＬ埋め込みを生成し、フィッシングか、又はフィッシングでないとしてのＵＲＬのグラウンドトゥルース分類を訓練及び使用する、ＵＲＬ埋め込みを生成するＵＲＬ埋め込み器を適用することと、
ＨＴＭＬパーサを適用して、ＵＲＬのコンテンツにアクセスし、コンテンツページからＨＴＭＬトークンを抽出することと、
ＨＴＭＬエンコーダを適用して、抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することと、
ＵＲＬ埋め込み及びＨＴＭＬエンコーディングの連結された入力にフィッシング分類器層を適用して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を含む、コンピュータ実装方法。
８．所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、所定のトークン語彙に属さないコンテンツページの部分を無視するＨＴＭＬパーサを更に含む、条項７に記載のコンピュータ実装方法。
９．ＨＴＭＬパーサが、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出することを更に含む、条項７に記載のコンピュータ実装方法。
１０．リアルタイムで、ＵＲＬ埋め込み器、ＨＴＭＬパーサ、ＨＴＭＬエンコーダ、及びフィッシング分類器層を適用することを更に含む、条項７に記載のコンピュータ実装方法。
１１．フィッシング分類器層が、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がリアルタイムでフィッシングリスクを提示する少なくとも１つの尤度スコアを生成するように動作する、条項７に記載のコンピュータ実装方法。
１２．ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータプログラム命令で特徴付けられた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されるときに、
ＵＲＬ埋め込み器を適用し、ＵＲＬから所定の文字セット内の文字を抽出して文字列を生成し、ＵＲＬ埋め込みを生成することと、
ＨＴＭＬパーサを適用して、コンテンツページからＨＴＭＬトークンを抽出することと、
ＨＴＭＬエンコーダを適用して、抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することと、
ＵＲＬ埋め込み及びＨＴＭＬエンコーディングの連結された入力にフィッシング分類器層を適用して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、を含む方法を実装する、非一時的コンピュータ可読記憶媒体。
１３．命令が、プロセッサ上で実行されるときに、所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、所定のトークン語彙に属さないコンテンツページの部分を無視するＨＴＭＬパーサを更に含む方法を実装する、条項１２に記載の非一時的コンピュータ可読記憶媒体。
１４．命令が、プロセッサ上で実行されるときに、ＨＴＭＬパーサが、最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出することを更に含む方法を実装する、条項１２に記載の非一時的コンピュータ可読記憶媒体。
１５．命令が、プロセッサ上で実行されるときに、各例示的なＵＲＬが、例示的なＵＲＬを介してアクセスされたコンテンツページからキャプチャされたグラウンドトゥルース画像を伴う例示的なＵＲＬのコンテンツページから抽出されたＨＴＭＬトークンに関してＨＴＭＬエンコーダを訓練することを更に含む方法を実装する、条項１２に記載の非一時的コンピュータ可読記憶媒体。
１６．命令が、プロセッサ上で実行されるときに、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてのグラウンドトゥルース分類を伴う例示的なＵＲＬのＵＲＬ埋め込み及びＨＴＭＬエンコーディングに関してフィッシング分類器層を訓練することを更に含む方法を実装する、条項１２に記載の非一時的コンピュータ可読記憶媒体。
１７．フィッシング分類器層を訓練して、ＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するためのコンピュータ実装方法であって、
例示的なＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、について、
ＵＲＬと、コンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングと、から抽出された文字のＵＲＬ埋め込みを受信及び処理して、
各例示的なＵＲＬと、ＵＲＬを介してアクセスされたコンテンツページと、がフィッシングリスクを提示する少なくとも１つの尤度スコアを生成することと、
各例示的なＵＲＬについての尤度スコアと、例示的なＵＲＬ及びコンテンツページがフィッシングか、又はフィッシングでないという各対応するグラウンドトゥルースと、の間の差を計算することと、
例示的なＵＲＬについての差を使用して、フィッシング分類器層の係数を訓練することと、
本番ＵＲＬと、本番ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する使用のために、訓練された係数を保存することと、を含む、コンピュータ実装方法。
１８．ヘッドレスブラウザを適用することと、
ＵＲＬのコンテンツにアクセスし、コンテンツページを内部的にレンダリングすることと、
コンテンツページの少なくとも一部の画像をキャプチャすることと、を更に含む、条項１７に記載のコンピュータ実装方法。
１９．差を、フィッシング分類器層を越えて、ＨＴＭＬエンコーディングを生成するために使用されるエンコーディング層にバックプロパゲートすることを更に含む、条項１７に記載のコンピュータ実装方法。
２０．差を、フィッシング分類器層を越えて、ＵＲＬ埋め込みを生成するために使用される埋め込み層にバックプロパゲートすることを更に含む、条項１７に記載のコンピュータ実装方法。
２１．例示的なＵＲＬから抽出された文字のＵＲＬ埋め込みを生成することと、
例示的なＵＲＬを介してアクセスされたコンテンツページから抽出されたＨＴＭＬトークンのＨＴＭＬエンコーディングを生成し、レンダリングからキャプチャされた画像の画像埋め込みを生成することと、を更に含む、条項１８に記載のコンピュータ実装方法。
２２．第２の例示的なＵＲＬについて、第２の例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次いで、第２の例示的なＵＲＬのコンテンツページからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンを使用して、ＨＴＭＬエンコーディングを生成するようにＨＴＭＬエンコーダ－デコーダを訓練することを更に含む、条項１８に記載のコンピュータ実装方法。
２３．所定のトークン語彙に属するＨＴＭＬトークンをコンテンツページから抽出し、所定のトークン語彙に属さないコンテンツページの部分を無視することを更に含む、条項１７に記載のコンピュータ実装方法。
２４．抽出を所定の数のＨＴＭＬトークンに制限することを更に含む、条項２３に記載のコンピュータ実装方法。
２５．最大６４個のＨＴＭＬトークンのＨＴＭＬエンコーディングを生成することを更に含む、条項２３に記載のコンピュータ実装方法。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12A】

【図12B】

【図12C】

【図12D】

【図13】

【図14】

【手続補正書】

【提出日】2024-05-16

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ユニバーサルリソースロケータ（ＵＲＬ）と、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類器であって、
前記ＵＲＬを特徴量にパースし、前記特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成する、ＵＲＬ特徴量ハッシャと、
前記ＵＲＬのコンテンツにアクセスし、コンテンツページを内部的にレンダリングし、
前記コンテンツページからハイパーテキストマークアップ言語（ＨＴＭＬ）トークンを抽出し、
前記コンテンツページの前記レンダリングの少なくとも一部の画像をキャプチャするように構成されたヘッドレスブラウザと、
例示的なＵＲＬのコンテンツページから抽出され、埋め込み空間にエンコードされ、次に、前記コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンに関して訓練されており、
前記コンテンツページから抽出された前記ＨＴＭＬトークンのＨＴＭＬエンコーディングを生成する、ＨＴＭＬエンコーダと、
画像に関して事前訓練されており、前記コンテンツページからキャプチャされた前記画像の画像埋め込みを生成する、画像埋め込み器と、
前記例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてグラウンドトゥルース分類を伴い、
前記ＵＲＬの、前記ＵＲＬ特徴量ハッシュ、前記ＨＴＭＬエンコーディング、及び前記画像埋め込みを処理して、前記ＵＲＬ及び前記ＵＲＬを介してアクセスされた前記コンテンツページがフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、
を含む、フィッシング分類器。

【請求項2】

所定のトークン語彙に属する前記ＨＴＭＬトークンを前記コンテンツページから抽出し、前記所定のトークン語彙に属さない前記コンテンツページの部分を無視するように構成された前記ヘッドレスブラウザを更に含む、請求項１に記載のフィッシング分類器。

【請求項3】

最大６４個の前記ＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成された前記ヘッドレスブラウザを更に含む、請求項１に記載のフィッシング分類器。

【請求項4】

ユニバーサルリソースロケータ（ＵＲＬ）と、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサ上で実行されたときに、
ＵＲＬ特徴量ハッシャを適用し、前記ＵＲＬを特徴量にパースし、前記特徴量をハッシュ化して、ＵＲＬ特徴量ハッシュを生成することと、
ヘッドレスブラウザを適用し、前記ＵＲＬのコンテンツにアクセスし、コンテンツページを内部的にレンダリングし、
前記コンテンツページからハイパーテキストマークアップ言語（ＨＴＭＬ）トークンを抽出し、
前記コンテンツページの前記レンダリングの少なくとも一部の画像をキャプチャすることと、
例示的なＵＲＬのコンテンツページから抽出され、埋め込み空間にエンコードされ、次に、前記コンテンツページのレンダリングからキャプチャされた画像を再生するようにデコードされるＨＴＭＬトークンに関して訓練されており、
前記コンテンツページから抽出された前記ＨＴＭＬトークンのＨＴＭＬエンコーディングを生成する、ＨＴＭＬエンコーダを適用することと、
画像に関して事前訓練されており、前記コンテンツページからキャプチャされた前記画像の画像埋め込みを生成する、画像埋め込み器を適用することと、
前記例示的なＵＲＬの、ＵＲＬ特徴量ハッシュ、ＨＴＭＬエンコーディング、及び画像埋め込みに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてグラウンドトゥルース分類を伴う、フィッシング分類器層を適用し、
前記ＵＲＬの、前記ＵＲＬ特徴量ハッシュ、前記ＨＴＭＬエンコーディング、及び前記画像埋め込みを処理して、それにより、前記ＵＲＬ及び前記ＵＲＬを介してアクセスされた前記コンテンツページがフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層を適用することと、
を含むアクションを実施する、非一時的コンピュータ可読記憶媒体。

【請求項5】

前記アクションが、第２の例示的なＵＲＬについて、前記第２の例示的なＵＲＬのコンテンツページから抽出され、エンコードされ、次に前記第２の例示的なＵＲＬの前記コンテンツページからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンを使用して、前記ＨＴＭＬエンコーディングを生成するように、前記ＨＴＭＬエンコーダを訓練することを更に含む、請求項４に記載の非一時的コンピュータ可読記憶媒体。

【請求項6】

前記アクションが、ＲｅｓＮｅｔ埋め込み器又はＲｅｓＮｅｔ埋め込み器の変形を使用して、前記画像埋め込みを生成することを更に含む、請求項４に記載の非一時的コンピュータ可読記憶媒体。

【請求項7】

ユニバーサルリソースロケータ（ＵＲＬ）と、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類する、フィッシング分類器であって、
前記ＵＲＬから所定の文字セット内の文字を抽出して、ＵＲＬ文字シーケンスを生成する、ＵＲＬリンクシーケンス抽出器と、
前記ＵＲＬ文字シーケンスのＵＲＬ埋め込みを生成する、ＵＲＬ埋め込み器と、
前記ＵＲＬのコンテンツページにアクセスし、前記コンテンツページからハイパーテキストマークアップ言語（ＨＴＭＬ）トークンを抽出するように構成されたヘッドレスブラウザと、
例示的なＵＲＬのコンテンツページから抽出され、埋め込み空間にエンコードされ、次に、前記コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンに関して事前訓練されており、前記コンテンツページから抽出された前記ＨＴＭＬトークンのＨＴＭＬエンコーディングを生成する、ＨＴＭＬエンコーダと、
前記例示的なＵＲＬのＵＲＬ埋め込み及びＨＴＭＬエンコーディングに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてグラウンドトゥルース分類を伴い、
前記ＵＲＬの、前記ＵＲＬ埋め込み及び前記ＨＴＭＬエンコーディングを処理して、前記ＵＲＬ及び前記ＵＲＬを介してアクセスされた前記コンテンツページがフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層と、
を含む、フィッシング分類器。

【請求項8】

所定のトークン語彙に属する前記ＨＴＭＬトークンを前記コンテンツページから抽出し、前記所定のトークン語彙に属さない前記コンテンツページの部分を無視するように構成された前記ヘッドレスブラウザを更に含む、請求項７に記載のフィッシング分類器。

【請求項9】

最大６４個の前記ＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成された前記ヘッドレスブラウザを更に含む、請求項７に記載のフィッシング分類器。

【請求項10】

ユニバーサルリソースロケータ（ＵＲＬ）と、前記ＵＲＬを介してアクセスされたコンテンツページと、をフィッシングか、又はフィッシングでないとして分類するコンピュータプログラム命令が記録された非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサ上で実行されたときに、
前記ＵＲＬから所定の文字セット内の文字を抽出して、ＵＲＬ文字シーケンスを生成する、ＵＲＬリンクシーケンス抽出器を適用することと、
前記ＵＲＬ文字シーケンスのＵＲＬ埋め込みを生成する、ＵＲＬ埋め込み器を適用することと、
前記ＵＲＬのコンテンツページにアクセスし、前記コンテンツページからハイパーテキストマークアップ言語（ＨＴＭＬ）トークンを抽出するように構成されたヘッドレスブラウザを適用することと、
例示的なＵＲＬのコンテンツページから抽出され、埋め込み空間にエンコードされ、次に、前記コンテンツページのレンダリングからキャプチャされた画像を再現するようにデコードされるＨＴＭＬトークンに関して事前訓練されており、前記コンテンツページから抽出された前記ＨＴＭＬトークンのＨＴＭＬエンコーディングを生成する、ＨＴＭＬエンコーダを適用することと、
前記例示的なＵＲＬのＵＲＬ埋め込み、及びＨＴＭＬエンコーディングに関して訓練されており、各例示的なＵＲＬが、フィッシングか、又はフィッシングでないとしてグラウンドトゥルース分類を伴い、
前記ＵＲＬの、前記ＵＲＬ埋め込み及び前記ＨＴＭＬエンコーディングを処理して、前記ＵＲＬ及び前記ＵＲＬを介してアクセスされた前記コンテンツページがフィッシングリスクを提示する少なくとも１つの尤度スコアを生成する、フィッシング分類器層を適用することと、
を含むアクションを実施する、非一時的コンピュータ可読記憶媒体。

【請求項11】

前記アクションが、所定のトークン語彙に属する前記ＨＴＭＬトークンを前記コンテンツページから抽出し、前記所定のトークン語彙に属さない前記コンテンツページの部分を無視するように構成された前記ヘッドレスブラウザを実装することを更に含む、請求項１０に記載の非一時的コンピュータ可読記憶媒体。

【請求項12】

前記アクションが、最大６４個の前記ＨＴＭＬトークンのＨＴＭＬエンコーディングの生成のために抽出するように構成された前記ヘッドレスブラウザを実装することを更に含む、請求項１０に記載の非一時的コンピュータ可読記憶媒体。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版