特表2024-507893 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネットスコープ，　インク．の特許一覧

特表2024-507893悪意のあるＭＳＯＦＦＩＣＥ文書の署名なし検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-02-21

(54)【発明の名称】悪意のあるＭＳＯＦＦＩＣＥ文書の署名なし検出

(51)【国際特許分類】

G06F 21/56 20130101AFI20240214BHJP

G06N 5/01 20230101ALI20240214BHJP

【ＦＩ】

G06F21/56

G06N5/01

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023551122

(86)(22)【出願日】2022-02-24

(85)【翻訳文提出日】2023-09-27

(86)【国際出願番号】 US2022017778

(87)【国際公開番号】W WO2022182919

(87)【国際公開日】2022-09-01

(31)【優先権主張番号】17/184,478

(32)【優先日】2021-02-24

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/184,502

(32)【優先日】2021-02-24

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/572,548

(32)【優先日】2022-01-10

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＶＩＳＵＡＬＢＡＳＩＣ

２．ＷＩＮＤＯＷＳ

３．ＪＡＶＡＳＣＲＩＰＴ

４．ＪＡＶＡ

５．ＮＥＴＳＫＯＰＥ

６．ＶＩＲＵＳＴＯＴＡＬ

(71)【出願人】

【識別番号】517325652

【氏名又は名称】ネットスコープ，インク．

【氏名又は名称原語表記】ＮＥＴＳＫＯＰＥ，ＩＮＣ．

(74)【代理人】

【識別番号】100114476

【弁理士】

【氏名又は名称】政木良文

(72)【発明者】

【氏名】チャン，ベンジャミン

(72)【発明者】

【氏名】サッパシー，ガナシャム

(57)【要約】

開示される技術は、サイバーセキュリティ攻撃及びクラウドベースのセキュリティに関し、具体的には、文書ファイル内で難読化されている悪意のあるコードの検出に関する。そのような悪意のあるコードは、文書ファイル内に記憶された悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトの形態で配信される可能性がある。開示される技術は、訓練済み機械学習モデルを使用して、難読化された悪意のあるコードを検出し、既知の署名を有しないそのような悪意のあるものでも、どの文書が悪意のあるコードを含むかを予測する。したがって、開示される技術は、どの文書が既知の署名を欠く悪意のあるコードを含むかを予測することができる。安全な文書は、ネットワーク内に許可される。疑わしい文書は、隔離又はサンドボックス化方法を含む追加の処理の対象となる。悪意のある書類は、ネットワークから拒否される。更なる態様では、開示される技術は、悪意のあるマクロ及び悪意のあるＯＬＥファイルを検出するネットワークセキュリティシステムの能力を更に増加させるために、機械学習を他のネットワークセキュリティ方法と組み合わせる。
【選択図】図１

【特許請求の範囲】

【請求項1】

ネットワーク化されたシステムにおける入力文書を分類して、前記文書のうちの少なくとも１つが悪意のあるコードを有するＯｂｊｅｃｔＬｉｎｋｉｎｇ＆Ｅｍｂｅｄｄｉｎｇ（オブジェクトリンク及び埋め込み、ＯＬＥ）を含み得るかどうかを判定するための方法であって、
文書ファイルをネットワークセキュリティシステムに受信するアクション、
前記文書ファイルを解析して、入力文書における悪意のあるペイロードデータからメタデータを分離するアクション、
ヒューリスティックエンジンを使用して、既知の難読化方法を使用してＯＬＥオブジェクトに埋め込まれているマルウェアの過去のインスタンスを示すデータを提供するアクション、
前記文書ファイルが悪意のあるＯＬＥオブジェクトを含むかどうかを予測するために深層学習（ＤＬ）方法を使用することによって、機械学習アルゴリズムモデルを訓練するために前記ヒューリスティックエンジンによって提供された前記データから特徴セットを導出するアクション、
訓練済み機械学習モデルを使用して、前記文書ファイルを処理して、前記文書ファイルが悪意のあるＯＬＥオブジェクトを含む可能性を判定するアクション、
結果として生じる文書を、安全、疑わしい、又は悪意のあるものとして分類するアクション、及び、
前記分類するアクションに基づいて、安全な文書を前記ネットワーク化されたシステムに受け入れ、悪意のある文書を悪意のあるものとしてブロックし、脅威分析のために疑わしい文書を隔離することと、のアクションを含む、方法。

【請求項2】

ＯＬＥファイルから抽出された前記特徴セットは、以下の、
ｅｍｂｅｄ＿ｎｏｎｅ
ｅｍｂｅｄ＿ｈａｓ＿ｃｏｒｒｕｐｔ
ｅｍｂｅｄ＿ｈａｓ＿ｐａｓｓｗｏｒｄ＿ｐｒｏｔｅｃｔｅｄ
ｅｍｂｅｄ＿ｈａｓ＿ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎ
ｅｍｂｅｄ＿ｈａｓ＿ｓｅｍｉ＿ｓｕｓｐｉｃｉｏｕｓ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｎｏｒｍａｌ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｏｔｈｅｒ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｃｏｍｐｒｅｓｓｅｄ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｎｏｎ＿ｅｘｔ
ｅｍｂｅｄ＿ｒｕｌｅ１－＃ｅｍｂｅｄ＿ｒｕｌｅ１
ｅｍｂｅｄ＿ｈａｓ＿ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎ＝真、及び
ｅｍｂｅｄ＿ｈａｓ＿ｏｔｈｅｒ＿ｆｉｌｅ＝真、のうちの少なくとも１つを含む、請求項１に記載の方法。

【請求項3】

前記悪意のあるＯＬＥオブジェクトは、既知の悪意のあるデータ署名を含まない、請求項１に記載の方法。

【請求項4】

前記文書ファイルは、ワードプロセッシング文書である、請求項１に記載の方法。

【請求項5】

前記文書ファイルは、ワードプロセッシング文書、スプレッドシート文書、又はプレゼンテーション文書のうちの１つである、請求項４に記載の方法。

【請求項6】

前記特徴セットは、以下のＶｉｓｕａｌＢａｓｉｃＦｏｒＡｐｐｌｉｃａｔｉｏｎｓ（ビジュアルベーシック・フォー・アプリケーションズ、ＶＢＡ）ＯＬＥオブジェクト特徴、
ｃｒｅａｔｅｏｂｊｅｃｔ、
ｓｈｅｌｌ、
ｆｉｌｅｓｙｓｔｅｍ、
ｕｒｌｄｏｗｎｌｏａｄｔｏｆｉｌｅ、
ｃａｌｌｂｙｎａｍｅ、及び
ｄｅｔｅｃｔｓａｎｄｂｏｘ、のうちの少なくとも１つを含むＯＬＥオブジェクト関連特徴である、請求項４に記載の方法。

【請求項7】

前記特徴セットは、以下の特徴、
ｄｏｃ＿ｎｕｍ＿ｐａｇｅｓ
ｄｏｃ＿ｎｕｍ＿ｗｏｒｄｓ
ｄｏｃ＿ｎｕｍ＿ｌｉｎｅｓ
ｄｏｃ＿ｎｕｍ＿ｃｈａｒｓ
ｄｏｃ＿ｎｕｍ＿ｐａｒａｇｒａｐｈ
ｄｏｃ＿ｌａｓｔｍｏｄ＿ｔｉｍｅ
ｄｏｃ＿ａｕｔｈｏｒ＿ｉｎｆｏ
ｄｏｃ＿ｒｅｖｉｓｉｏｎ＿ｎｕｍｂｅｒ
ｄｏｃ＿ｌａｓｔｐｒｉｎｔ＿ｔｉｍｅ
ｄｏｃ＿ｌｉｎｋ－ｉｓｄｉｒｔｙ
ｄｏｃ＿ｌａｎｇｕａｇｅ
ｄｏｃ＿ｓｉｚｅのうちの１つ以上を含む、請求項４に記載の方法。

【請求項8】

前記特徴セットは、文書タイプを含む、請求項１に記載の方法。

【請求項9】

前記脅威分析は、サンドボックスにおけるネットワークシステムから前記文書ファイルを隔離することを含む、請求項１に記載の方法。

【請求項10】

前記隔離された文書ファイルは、悪意のあるコードについてテストされる、請求項９に記載の方法。

【請求項11】

前記機械学習モデルは、特徴量エンジニアリングを通じた機械学習によって訓練された教師あり機械学習モデルであり、前記特徴セットは、１つ以上の悪意のあるＯＬＥオブジェクトを有するいくつかの文書ファイル及び１つ以上の悪意のないＯＬＥオブジェクトを有するいくつかの文書ファイルを含む、文書ファイルの大規模なサンプリングから導出される、請求項１に記載の方法。

【請求項12】

文書ファイルの前記サンプリングは、ワードプロセッシング文書、スプレッドシート文書、及びプレゼンテーション文書である、請求項１１に記載の方法。

【請求項13】

悪意のあるＯＬＥオブジェクトの検出動作の精度を高くし、誤検出を排除するために並行して動作する二次マルウェア検出エンジンを使用するアクションを更に含む、請求項１に記載の方法。

【請求項14】

ネットワークアナリストは、前記脅威分析の精度を高くするために前記分類するアクションをレビューする、請求項１に記載の方法。

【請求項15】

ネットワークセキュリティシステムであって、
ネットワークに結合されたネットワークインターフェースと、
複数のシステムコンポーネントであって、
前記ネットワークインターフェースを介して、ＯｂｊｅｃｔＬｉｎｋｉｎｇａｎｄＥｍｂｅｄｄｅｄ（ＯＬＥ）オブジェクトを含む文書ファイルを受信することと、
前記文書ファイルを解析して、前記ＯＬＥオブジェクト内に含まれる埋め込みデータを前記文書ファイル内に含まれる他のペイロードデータから分離することと、
前記文書ファイルを処理して、前記文書ファイルが前記ＯＬＥオブジェクト内で難読化されている悪意のあるコードを含むかどうかの可能性を判定することと、のアクションのために構成されている、複数のシステムコンポーネントと、を含み、
前記処理することは、前記文書ファイルから、前記ＯＬＥオブジェクト内で難読化される悪意のあるコードのインスタンスを示す難読化スコアリング特徴を抽出することを含み、
前記処理することは、前記難読化スコアリング特徴を訓練済み機械学習モデルに入力して、前記文書ファイルが前記ＯＬＥオブジェクト内で難読化されている悪意のあるコードを含むかどうかの前記可能性を判定することを更に含む、システム。

【請求項16】

前記難読化スコアリング特徴は、データベースに記憶される、請求項１５に記載のシステム。

【請求項17】

ネットワーク化されたシステムにおける入力文書を分類して、前記文書のうちの少なくとも１つが悪意のあるコードを有するＯｂｊｅｃｔＬｉｎｋｉｎｇ＆Ｅｍｂｅｄｄｉｎｇ（ＯＬＥ）を含み得るかどうかを判定するためのシステムであって、
ネットワークと、
前記ネットワークに結合されたネットワークインターフェースと、
前記ネットワークと動作可能に通信するネットワークセキュリティシステムと、
前記ネットワークセキュリティシステムと動作可能に通信するｏｆｆｉｃｅ分類子と、を備え、
前記ｏｆｆｉｃｅ分類子は、
ワードプロセッシング文書、スプレッドシート文書、及びプレゼンテーション文書を受信及び処理するための入力手段と、
ヒューリスティック特徴生成エンジンと、
難読化された悪意のあるＯＬＥオブジェクトを有する入力文書を検出するために選択された特徴を使用して、深層学習方法によって訓練された教師あり機械学習モデルと、を備える、システム。

【請求項18】

前記ｏｆｆｉｃｅ分類子は、文書ファイルを悪意のあるものとして分類する、請求項１７に記載のシステム。

【請求項19】

ファイルは、安全、悪意のある、又は疑わしいものとして分類される、請求項１８に記載のシステム。

【請求項20】

安全と分類された文書ファイルは、前記ネットワークに許可され、悪意のあるものとして分類された文書は、恒久的にブロックされ、疑わしいものとして分類されたファイルは、脅威分析される、請求項１９に記載のシステム。

【請求項21】

疑わしいと分類されたファイルは、悪意のあるコードが安全に分析され得るサンドボックス内に前記ファイルを隔離及び転送することによって脅威分析される、請求項２０に記載のシステム。

【発明の詳細な説明】

【相互参照と組み込み】

【0001】

本特許出願は、米国特許出願第１７／１８４，４７８号の継続であり、優先権を主張する、２０２２年１月１０日に出願された「ＤｅｔｅｃｔｉｏｎＯｆＭａｌｉｃｉｏｕｓＣｏｄｅｔｈａｔｉｓＯｂｆｕｓｃａｔｅｄＷｉｔｈｉｎＡＤｏｃｕｍｅｎｔＦｉｌｅ」と題された米国非仮特許出願第１７／５７２，５４８号（代理人整理番号ＮＳＫＯ－１０３８－２）の優先権を主張する。

【0002】

本特許出願はまた、２０２１年２月２４日に出願され、２０２２年１月１１日に米国特許第１１，２２２，１１２号として発行された「ＳｉｇｎａｔｕｒｅｌｅｓｓＤｅｔｅｃｔｉｏｎｏｆＭａｌｉｃｉｏｕｓＭＳＯｆｆｉｃｅＤｏｃｕｍｅｎｔｓＣｏｎｔａｉｎｉｎｇＡｄｖａｎｃｅｄＴｈｒｅａｔｓｉｎＭａｃｒｏｓ」と題された上で参照された米国非仮特許出願第１７／１８４，４７８号（代理人整理番号ＮＳＫＯ１０３８－１）の優先権を主張する。

【0003】

本特許出願はまた、２０２１年２月２４日に出願された「ＳｉｇｎａｔｕｒｅｌｅｓｓＤｅｔｅｃｔｉｏｎＯｆＭａｌｉｃｉｏｕｓＭＳＯｆｆｉｃｅＤｏｃｕｍｅｎｔｓＣｏｎｔａｉｎｉｎｇＥｍｂｅｄｄｅｄＯｌｅＯｂｊｅｃｔｓ」と題された米国非仮特許出願第１７／１８４，５０２号（代理人整理番号ＮＳＫＯ－１０４０－１）の優先権を主張する。

【0004】

本特許出願は、その中に含まれる全ての特許出願、特許公開、及び特許を含む、前述の文書の全ての優先権を主張する。前述の文書の全てはまた、任意の及び全ての目的のために、参照によりそれらの全体が本明細書に組み込まれる。

【技術分野】

【0005】

開示される技術は、サイバーセキュリティ攻撃及びクラウドベースのセキュリティに関し、より具体的には、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ文書がマクロ及びＯＬＥオブジェクトの形態で悪意のあるコードを配信するための主要なベクトル（方式）として機能するマルウェア攻撃を防止するためのシステム及び方法に関する。加えて、開示される技術は、既知の署名を含まない悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトを含む文書の検出に関する。開示される技術の文脈では、署名なしは、以前に確立された署名を有しない悪意のあるマクロ及び悪意のあるＯＬＥオブジェクトを検出することを指す。更に、開示される技術は、機械学習及び特徴量エンジニアリングを使用して、（悪意のあるコードが以前に既知であった）ことを必要とせずに、ＭＳＯｆｆｉｃｅ文書及び他の文書タイプにおける悪意のあるマクロ及び（必要とせずに）悪意のあるＯＬＥオブジェクトの存在を予測する。

【背景技術】

【0006】

このセクションで考察される主題は、単にこのセクションにおけるその言及の結果として先行技術であると想定されるべきではない。同様に、このセクションで言及される問題、又は背景として提供される主題と関連する問題は、先行技術において以前に認識されていたと仮定されるべきではない。このセクションの主題は、異なるアプローチを表すにすぎず、それ自体、特許請求される技術の実装形態に対応することもできる。

【0007】

新型コロナウイルス感染症（ＣＯＶＩＤ－１９）のパンデミックに先立つ６ヶ月間、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅのファイルは、Ｎｅｔｓｋｏｐｅセキュリティクラウドプラットフォームで検出されたトロイの木馬及びダウンローダーのわずか５％を占めた。ＣＯＶＩＤ後、特にＥＭＯＴＥＴが再びアクティブになったとき、その割合は、４５％近くに増加したが、移植可能な実行可能（ｐｏｒｔａｂｌｅｅｘｅｃｕｔａｂｌｅ）ファイル及び他のタイプは、減少した。典型的には、悪意のあるリンク、ＶＢＡスクリプト、又はＰｏｗｅｒＳｈｅｌｌスクリプトを含むＭｉｃｒｏｓｏｆｔＥｘｃｅｌファイルは、検出された悪意のあるＯｆｆｉｃｅ文書のほぼ４分の３を占め、しばしば、悪意のあるマクロが組み込まれている。悪意のあるＯｆｆｉｃｅ文書の９０％超は、クラウドアプリケーションを通じて配布されており、比較すると他の全ての悪意のあるファイルタイプは５０％である。

【0008】

マルウェアコードの作成者は、ＭＳＯｆｆｉｃｅを使用してマルウェアペイロードを安全なネットワークに配信する方式を見つけることにおいて、ますます賢くなっている。マルウェアを有する文書は、悪意のあるコードを隠すために難読化の高度な技法を使用し、そのため、ネットワークに深刻な損害を与えるまで簡単に検出されることができず、しばしば、気づかれないことがある。

【0009】

悪意のあるコンテンツのＭＳＯｆｆｉｃｅファイルを予測するために、機械学習と組み合わせた特徴量エンジニアリングを使用して、ＶＢＡ文書オブジェクトモデルに従うＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ文書ファイルを通じて配信された難読化されたマクロ及びＯＬＥオブジェクトを検出する必要がある。この問題は、教師あり機械学習アルゴリズムを訓練して、合法又は安全な文書、マルウェアを含む可能性のある疑わしい文書、並びに間違いなく悪意のあるコードを含む悪意のある文書を予測及び区別するために使用される、Ｎｅｔｓｋｏｐｅなどのネットワークセキュリティシステムによって判定されている特徴量エンジニアリングによって特徴が解決されている。

【0010】

このようにして、ネットワークデバイスは、未知のマルウェアに対する既知の署名を使用することなく、文書ファイルにおけるマルウェアの存在を予測し得る。追加的に、悪意のあるｏｆｆｉｃｅファイルの検出は、ほぼリアルタイムで発生し得、ネットワークセキュリティ処理時間における遅延を低減することによって、システムスループットへの負の影響を低減しながら、ネットワークセキュリティを大幅に改善する。

【図面の簡単な説明】

【0011】

図面において、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は、必ずしも縮尺通りではなく、代わりに、概して、開示される技術の原理を図示することに重点が置かれている。以下の説明では、開示される技術の種々の実装形態が、以下の図面を参照して説明される。

【0012】

【図1】ＭＳＯｆｆｉｃｅマクロ及びＭＳＯｆｆｉｃｅ埋め込みＯＬＥオブジェクトファイルにおける悪意のあるコンテンツを検出するためのシステムのアーキテクチャレベルの概略図を例示する。開示されるシステムは、機械学習及び特徴量エンジニアリングを使用して、署名なしの悪意のあるデータにおける悪意のあるコンテンツを検出するための教師あり訓練モデルを開発する。

【図2】Ｎｅｔｓｋｏｐｅネットワークセキュリティシステム内で動作するＭＳＯｆｆｉｃｅ文書及びＯＬＥオブジェクトにおけるマクロに含まれるマルウェアを検出するためのｏｆｆｉｃｅ分類子のマルウェア検出態様を例示し、特に、ネットワークセキュリティシステム内のＭＬベースのｏｆｆｉｃｅ分類子の配置を示す。

【図3】本技術の一態様による、教師あり機械学習モデルを訓練するための例示的なワークフローを例示する。

【図4】潜在的に悪意のあるファイルがどのように分類され、後処理されるかを例示する、ｏｆｆｉｃｅ分類子のフロー図である。

【図5】埋め込みマクロを検出するステップ（アクション）を例示するフローチャートである。

【図6】埋め込まれた悪意のあるＯＬＥオブジェクトファイルを検出するステップ（アクション）を例示するフローチャートである。

【図7】ＭＳＯｆｆｉｃｅ文書に埋め込まれた悪意のあるマクロ及び埋め込みＯＬＥコンテンツを有するＭＳＯｆｆｉｃｅ文書を検出するために使用されることができるコンピュータシステムの簡略化されたブロック図である。

【発明を実施するための形態】

【0013】

以下の詳細な説明は、図面を参照して行われる。特許請求の範囲によって定義されるその範囲を限定するためではなく、開示される技術を例示するために、サンプルの実装形態が説明される。当業者であれば、以下の説明に基づいて種々の同等の変形例を認識するであろう。

【0014】

[序論]
開示される技術は、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ文書のための機械学習ベースの分類のための特徴量エンジニアリングアプローチに関し、これは、悪意のあるファイル検出効率又はマクロ及びＯＬＥオブジェクトを含む文書を大幅に改善する。

【0015】

開示される技術は、サイバーセキュリティ攻撃及びクラウドベースのセキュリティに関する。開示される技術は、悪意のあるマクロ及び悪意のあるＯＬＥオブジェクトの形態で埋め込まれた脅威を有する文書を検出するための方法及び装置である。開示される技術は、訓練済み機械学習モデルを使用して、難読化された悪意のあるコードを検出し、署名なしと呼ばれる既知の署名のない悪意のあるコードを有する文書を予測する。したがって、開示される技術は、どの文書が署名なしの悪意のあるコードを含むかを予測することができる。特徴量エンジニアリングは、歴史的に悪意のあるコンテンツを示したファイルが有する既知の特性及び属性のリストから選択された特徴に基づいて、悪意のあるマクロ及び悪意のあるＯＬＥオブジェクトを検出するための特徴のセットを定義するために使用されている。一態様では、マクロマルウェア及びＯＬＥマルウェアの特徴並びに属性は、難読化されたマルウェアコードの分析によって判定され、ヒューリスティックデータベースに記憶される。データベースからの特徴は、選択され、教師あり機械学習モデルを訓練するために使用されている。

【0016】

別の態様では、ｏｆｆｉｃｅ分類子は、ネットワークを介して着信文書を受信し、それらの文書を解析し解析するように構成され、機械学習アルゴリズムを適用して、文書を脅威レベルとして、安全、疑わしい、又は悪意のあるものとして分類する。安全な文書は、ネットワーク内に許可される。疑わしい文書は、隔離又はサンドボックス化方法を含む追加の処理の対象となる。悪意のある書類は、拒否されているか、又はネットワークからブラックリストに登録される。

【0017】

更なる態様では、開示される技術は、悪意のあるマクロ及び悪意のあるＯＬＥファイルを検出するネットワークセキュリティシステムの能力を更に増加させるために、機械学習を他のネットワークセキュリティ方法と連続的又は並行して組み合わせる。

【0018】

現在使用されているほとんどのマルウェア検出システムは、署名ベースの検出方法に依存する。署名ベースの検出方法では、マルウェア又はウイルスは、特定のマルウェア又はウイルスの存在を検出及び識別するために使用されることができる一意のコードパターンを有する（含む）。ウイルス対策ソフトウェアは、ファイル署名をスキャンし、既知の悪意のあるコードのデータベースとそれらを比較する。それらが一致する場合、ファイルは、フラグが立てられ、脅威として扱われる。署名ベースの検出の主な制限は、特定のマルウェアと関連付けられていることが既知であるコードパターンを含むマルウェアである既知のマルウェアにのみフラグを付けることができるため、署名ベースの検出であること、効果が低く、新しいマルウェア又はゼロデイ攻撃に対して完全に役に立たない場合があることである。

【0019】

本発明の方法及び装置は、少なくともＭＳＯｆｆｉｃｅ文書について以下のファイルフォーマット、Ｗｏｒｄ９７～２００３（．ｄｏｃ、．ｄｏｔ）、Ｗｏｒｄ２００７＋（．ｄｏｃｘ、．ｄｏｃｍ、．ｄｏｔｍ）、Ｗｏｒｄ２００３ＸＭＬ（．ｘｍｌ）、Ｅｘｃｅｌ９７～２００３（．ｘｌｓ）、Ｅｘｃｅｌ２００７＋（．ｘｌｓｘ、．ｘｌｓｍ、．ｘｌｓｂ）、及びＰｏｗｅｒＰｏｉｎｔ２００７＋（．ｐｐｔｘ、．ｐｐｔｍ、．ｐｐｓｍ）で有利に使用されている。

【0020】

ＭＳＯｆｆｉｃｅ文書は、ＶＢＡ（ＶｉｓｕａｌＢａｓｉｃｆｏｒＡｐｐｌｉｃａｔｉｏｎｓ）、ＤＤＥ（ＤｙｎａｍｉｃＤａｔａＥｘｃｈａｎｇｅ）、及び他のファイル（ｊｐｇ、ｍｐｅｇ、ｅｘｅ／ｐｅファイルなど）のような埋め込みコードを含むことができる。一態様では、開示される技術の全体的な目的は、コードの機能に基づいて、ファイル内のあらゆる悪意のあるコードを検出するためにＭＳＯｆｆｉｃｅファイルの埋め込みコンテンツをスキャンすることである。

【0021】

[マクロマルウェア]
マクロは、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅにおける一般的なタスクを自動化する強力な方式であり、ユーザの生産性を高めることができる。しかしながら、マクロマルウェアは、この機能を使用してユーザのエンドポイントデバイスを感染させる。マクロマルウェアは、しばしば、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅファイル内に偽装され、電子メールの添付ファイル、ＺＩＰファイル、又はクラウドベースのソースからダウンロードされたものを介して配信されている。

【0022】

過去においては、マクロマルウェアは、文書が開かれるたびにマクロが自動的に実行されるため、一般的であった。ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅの最新バージョンでは、マクロは、デフォルトで無効になっている。ここで、マルウェア作成者は、マルウェアを実行することができるように、ユーザを誘導してマクロをオンにする必要がある。これらのファイルは、ユーザがそれらを開くように誘導又は「怖がらせる」ことを目的とした名前を使用する。いくつかのファイルは、請求書、領収書、法的文書のような公式文書のように偽装されている。他のファイルは、しばしば、悪意のある文書が開かれてユーザが悪意のあるコンテンツにアクセスするよう誘い込まれるとき、偽の警告が表示されることがある。

【0023】

ＥＭＯＴＥＴ、ＩＣＥＤＩＤ、ＤＲＩＤＥＸなどのマルウェアの多くのファミリーは、特にＷｉｎｄｏｗｓとＭａｃコンピュータの両方の大規模なユーザベースにわたるＭＳＯｆｆｉｃｅアプリケーションの人気のため、ＭＳＯｆｆｉｃｅ文書を配布するための伝達手段として使用する。マルウェアファミリーＥＭＰＹＲＥは、Ｍａｃコンピュータを悪用する文書マクロの例である。

【0024】

マクロは、ＭＳＯｆｆｉｃｅ文書に埋め込まれているプログラムである。全てのタイプのＭＳＯｆｆｉｃｅフォーマット（文書、スプレッドシート、プレゼンテーションなど）は、これらのマクロを含む機能を有する。ＶＢＡ（ＶｉｓｕａｌＢａｓｉｃｆｏｒＡｐｐｌｉｃａｔｉｏｎｓ）において記述されたマクロは、ユーザがユーザ定義関数（ＵＤＦ）を構築するために使用することを可能にし、プロセスを自動化し、動的リンクライブラリ（ＤＬＬ）を通じてＷｉｎｄｏｗｓＡＰＩ及び他の低レベルの機能にアクセスする。マルウェア作成者は、この機能を利用して、ユーザのコンピュータ上で悪意のある活動を実行する。マクロは、ファイルフォルダに記憶される。ＶＢＡコンポーネントは、次に、サブフォルダに記憶される。ＶＢＡコンポーネントは、ＶＢＡプロジェクト、ディレクトリ、及び文書への参照を含むストリームとみなされることができる。

【0025】

[Ｊａｖａｓｃｒｉｐｔ／ＪＳｃｒｉｐｔマクロ]
Ｖｉｓｕａｌｂａｓｉｃは、埋め込みＪａｖａＳｃｒｉｐｔ（ＪＳｃｒｉｐｔ）コードを起動するために使用されることができる。Ｗｉｎｄｏｗｓでは、コマンドラインでのｃｓｃｒｉｐｔ．ｅｘｅ及びＧＵＩにおいて実行されるｗｓｃｒｉｐｔ．ｅｘｅは、インストールされたアクティブスクリプト言語の実装形態の主な手段である。Ｗｉｎｄｏｗｓスクリプトファイル（．ｗｓｆ）は、他の要素に加えて、複数の言語における複数のスクリプトを含むことができ、Ｗｉｎｄｏｗｓスクリプトホストによって実行されるｘｍｌファイルである。

【0026】

[サンプル（マルウェアではない）ＪＳｃｒｉｐｔＭＳＥｘｃｅｌマクロ]
ＶＢＡは、コンポーネントオブジェクトモデルライブラリ、．ｎｅｔライブラリ、又は任意のＷｉｎｄｏｗｓインターフェースを呼び出すことができるため、ネイティブ構文を超える非常に強力な言語である。外部プログラムモジュールを呼び出すことによって、ＶＢＡは、あらゆるＷｉｎｄｏｗｓプログラミング言語の完全な機能を実現することができる。

【0027】

次のサンプルｘｌｓｍファイル及びマクロは、Ｏｆｆｉｃｅ文書内用にＶＢＡにおけるＪＳｃｒｉｐｔマクロを作成することを示している。この特徴は、実行時に実行可能なＶＢＡを構築するために使用することができ、これは、悪意のあるものをスキャンすることが困難である。コアスニピットは、以下のように現れる。

【0028】

ＪＳｃｒｉｐｔは、変数で指定される。ＳｃｒｉｐｔＣｏｎｔｒｏｌは、インスタンス化され、ＪＳｃｒｉｐｔに設定される。ＶＢＳｃｒｉｐｔは、ＶＢＳｃｒｉｐｔコードにＪＳｃｒｉｐｔを埋め込むことを可能にする言語である。これは、ＪＳｃｒｉｐｔコードが構築されることができ、ＶＢＳｃｒｉｐｔコードによって実行される方法である。結果として生じるＪＳｃｒｉｐｔは、現在のＭｉｃｒｏｓｏｆｔの悪意のあるコードの検出及び軽減メカニズムの能力の外側である。

【0029】

[ＭＳＯｆｆｉｃｅＤＯＣＳにおける悪意のある埋め込みマクロにおいて悪用されるメカニズム]
悪意のあるマクロは、ＭＳＯｆｆｉｃｅファイルが開かれ、又は閉じられるとき、自動的にトリガされる可能性がある。ＶＢＡＡＰＩによって提供されるトリガ関数は、Ｄｏｃｕｍｅｎｔ＿Ｏｐｅｎ、Ａｕｔｏ＿Ｏｐｅｎ、Ｗｏｒｋｂｏｏｋ＿Ｏｐｅｎ、Ｄｏｃｕｍｅｎｔ＿Ｃｌｏｓｅ、Ｗｏｒｋｂｏｏｋ＿Ｃｌｏｓｅ、及びいくつかの同様の条件呼び出しＡＰＩを含む。例えば、キーワード又はＡＰＩＤｏｃｕｍｅｎｔ＿Ｏｐｅｎは、このマクロを含む文書を最初に開いたときにＶＢＡコードを実行させる。このＡＰＩは、有用な目的のためにＭｉｃｒｏｓｏｆｔによって設計されたが、悪意のあるハイジャックされた文書において悪用される可能性がある。

【0030】

全ての悪意のあるマクロは、基礎となるシステムに作用する必要がある。これを達成するために、悪意のあるペイロードをファイルとして、又は別のプロセスに注入されたシェルコードとしてのいずれかでドロップすることができる。次いで、何らかの方式でそのペイロードの実行をトリガする。ほとんどのマクロは、両方を行うが、いくつかのサンプルは、書き込み動作又は実行動作のみでペイロードを配信することができる。

【0031】

２０１４年以降に観察されたかなりの数のマクロは、ＨＴＴＰを使用してペイロードをダウンロードする。しかし、これは、必ずしもそうではなく、いくつかのマクロは、ＶＢＡコード又は文書でエンコードされたペイロードを含む。ダウンロードアクションは、検出について使用されるのに十分である識別力はない。正当なマクロのいくつかは、悪意のあるマクロと同じ特徴を使用するものがあるが、そのようなマクロが上記の全ての方法を組み合わせる可能性は低い。

【0032】

[難読化]
ほとんどの悪意のあるマクロは、難読化されている。悪意のある作成者は、マクロの挙動を隠したり、分析及び検出に役立つコード文字列、すなわちＩＰアドレス、ＵＲＬなどの侵害指標（ＩＯＣ）を回避したりするために、種々の技法を使用する。幸いなことに、マルウェアによって使用される多くのＶＢＡキーワードは、平文で現されなければならないが、パラメータは、文字列であることができる。自動トリガ、ペイロードドロップ、及びペイロード実行のための平文メカニズムは、文字列から実行することができないため、難読化することができない。ＶＢＡは、ｅｖａｌ（）を有するＪａｖａＳｃｒｉｐｔ及びＥｘｅｃｕｔｅを有するＶＢＳｃｒｉｐｔとは対照的に、文字列に記憶されたコードを実行する機能を提供しない。

【0033】

より効果的な検出のために、悪意のあるＶＢＡコードの研究に基づいて、難読化方法は、以下に説明される４つのタイプに分類され得る。
１）ランダム難読化
２）分割難読化
３）エンコード難読化
４）論理難読化

【0034】

各難読化タイプは、異なる構文構造を有し、関数及び演算子の異なる使用を有する。後に更に説明されるように、ＶＢＡマクロからの特徴抽出は、４つのタイプの難読化に向けられる。これらの４つのカテゴリにおける難読化を特徴付ける特徴は、以下の分析に基づいて構築される。これらの難読化技法を使用する基本的な目的は、分析の時間を遅らせることであり、それが次に検出後の対策を遅らせる。各難読化方法は、非常に単純であるが、組み合わせて使用するときに、コードを視覚的に解読不可にする。

【0035】

加えて、マルウェア作成者は、難読化ツールを使用して、異なるハッシュ値を有するマルウェアの多くの変種を作成し、これは、ファイルが暗号化アルゴリズムを通して処理され、そのファイルに対して一意の数値が得られる、ファイルのデジタルフットプリントとして機能することができる。

【0036】

[ランダム難読化]
ランダム難読化は、無意味な、又は誤解を招くトークン名を使用することによって、ＶＢＡコードを読み取れなくする。このランダム難読化は、ＶＢＡコードのシャノンエントロピー（ＳｈａｎｎｏｎＥｎｔｒｏｐｙ）測度を使用する特徴によって特徴付けられることができる。
[ランダム難読化の例：関数名及び変数名は、ランダムな文字にすぎない。]

【0037】

[分割難読化]
分割難読化は、ファイル名文字列又はＵＲＬなど、最初に現れるものとは異なる文字列をつなぎ合わせるために使用される。分割難読化は、「＋」、「＝」、「＆」などの文字列演算子の出現回数をカウントすることによって特徴付けられ得る。これらの演算子は、悪意のあるコードを不明瞭にするために使用され得る。
[分割難読化の例：データを複数の変数／定数に分割する]

[組み込み関数 Replace()/split() を使用した難読化: データの難読化に Replace/split などのＶＢＡ組み込み関数を使用する]

【0038】

[エンコード難読化]
エンコード難読化は、最初に現れるものとは大きく異なる悪意のあるコードを生成するためにパラメータで動作する。エンコード難読化を生成する関数の例は、カテゴリ別に、以下を含む：
・（テキスト関数）：Asc()、 Chr()、 Mid()、 Join()、 InStr()、 Replace()、Right()、 StrConv()など。
・（算術関数）：Abs()、 Atn()、 Cos()、 Exp()、 Log()、 Randomize()、 Round()、Tan()、 Sqr()など。
・（型変換関数）：CBool()、 CByte()、 CChar()、 CStr()、 CDec()、 CUInt()、CShort()など。
・（財務関数）：DDB()、 FV()、 IPmt()、 PV()、 Pmt()、 Rate()、 SLN()、 SYD()など。

【0039】

[論理難読化]
論理難読化は、コードを複雑にし、分析をより困難にする。この技法は、使用されていない変数を宣言するか、又は冗長な関数呼び出し及びループを使用することによって実行される。サンプルについて抽出された次のスニペットは、ＯＬＥオブジェクトの作成のために関与するコードは１行のみで、残りは、動作しないことを示す。

【0040】

論理難読化は、長い符号系列又はコメントを使用して、悪意のある動作を伴う１行又は２行のコードの発見を不明瞭にすることを指す。論理難読化を特徴付けるために生成され得る特徴は、コメントを除くＶＢＡコードの長さと、ＶＢＡコードにおけるコメントの長さ又はサイズを含む。ＭＳＯｆｆｉｃｅファイルは、暗号化されることができ、復号化して開くにはパスワードが必要であるが、ＶＢＡマクロは、文書の残りの部分とともに暗号化されない。したがって、悪意のあるマクロは、暗号化によって不明瞭にされることはできない。ＶＢＡプロジェクトは、パスワードで保護されることができる。しかしながら、ＭＳＯｆｆｉｃｅは、これを論理的保護として実施している。ＶＢＡコードは、ファイルにおいて暗号化されていないため、ＯＬＥＴＯＯＬＳなどのツールを使用して平文において抽出されることができる。

【0041】

[システムの概要]
以下は、オフサイトクラウドベースのストアを含むクラウドベースのシステムにおけるマクロ及びＯＬＥオブジェクトマルウェア攻撃を防止するためのシステム及び種々の実装形態をアーキテクチャ形態で説明する。システム１００のアーキテクチャ図は、説明における明確さを改善するために意図的に簡略化されている、図１に示される。図１は、種々の主要要素の相互接続を示す。これらの要素の使用は、それらの要素の構造及び使用の考察に関連して、更により詳細に説明される。

【0042】

図１は、エンドポイント１４２を含むシステム１００を含む。ユーザエンドポイント１４２は、クラウドベースのストア１３６及びクラウドベースのサービス１３８上に記憶されたデータへのアクセス及び対話を提供する、コンピュータ１４４、スマートフォン１４６、及びコンピュータタブレット１４８などのデバイスを含み得る。インラインプロキシ１３２は、ネットワーク１４０を通じて、特に、ネットワーク管理者１２２、ネットワークポリシー１２４、評価エンジン１２６、ｏｆｆｉｃｅ分類子１２７、脅威スキャンサブシステム１２８、サンドボックス１３０、及びメタデータストア１３４を含むネットワークセキュリティシステムを通じて、ユーザエンドポイント１４２とクラウドベースのサービス１３８との間に介在され、これらは、より詳細に説明される。インラインプロキシ１３２は、ネットワーク１４０を通じてアクセス可能であり得、又はネットワークセキュリティシステム１２０の一部として常駐し得る。インラインプロキシ１３２は、ユーザエンドポイント１４２と、クラウドベースのストア１３６と、他のクラウドベースのサービス１３８との間のトラフィックの監視及び制御を提供する。

【0043】

インラインプロキシ１３２は、特に、データ損失防止（ＤＬＰ）ポリシー及びプロトコルを含むネットワークセキュリティポリシーを実施するために、ユーザエンドポイント１４２とクラウドベースのサービス１３８との間のネットワークトラフィックを監視する。

【0044】

ここで、システム１００の要素の相互接続について説明する。ネットワーク１４０は、コンピュータ１４４、スマートフォン１４６、及びコンピュータタブレット１４８とメタデータストア１３４とを結合し、インラインプロキシ１３２において互いに結合する。通信経路は、パブリック及び／又はプライベートネットワーク上のポイントツーポイントであり得る。通信は、プライベートネットワーク、ＶＰＮ、ＭＰＬＳ回路、又はインターネットを含む種々のネットワークを経由して発生することができ、適切なアプリケーションプログラムインターフェース（ＡＰＩ）、並びに

【0045】

ＲｅｐｒｅｓｅｎｔａｔｉｏｎａｌＳｔａｔｅＴｒａｎｓｆｅｒ（ＲＥＳＴ）、ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ（ＪＳＯＮ）、ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＭＬ）、ＳｉｍｐｌｅＯｂｊｅｃｔＡｃｃｅｓｓＰｒｏｔｏｃｏｌ（ＳＯＡＰ）、ＪａｖａＭｅｓｓａｇｅＳｅｒｖｉｃｅ（ＪＭＳ）、及び／又はＪａｖａＰｌａｔｆｏｒｍＭｏｄｕｌｅＳｙｓｔｅｍなどのデータ交換フォーマットを使用することができる。

【0046】

通信は、暗号化され得る。通信は、概して、ＥＤＧＥ、３Ｇ、４ＧＬＴＥ、Ｗｉ－Ｆｉ、及びＷｉＭＡＸなどのプロトコルを介して、ＬＡＮ（ローカルエリアネットワーク）、ＷＡＮ（広域通信網）、電話ネットワーク（パブリック交換電話網（ＰＳＴＮ））、セッション開始プロトコル（ＳＩＰ）、無線ネットワーク、ポイントツーポイントネットワーク、スター型ネットワーク、トークンリングネットワーク、ハブネットワーク、モバイルインターネットを含むインターネットなどのネットワークを介する。

【0047】

図１のエンジン又はシステムコンポーネントは、種々のタイプのコンピューティングデバイス上で実行されるソフトウェアによって実装される。例えば、ワークステーション、サーバ、コンピュータクラスタ、ブレードサーバ、又はサーバファームである。追加的に、ユーザ名／パスワード、ＯｐｅｎＡｕｔｈｏｒｉｚａｔｉｏｎ（ＯＡｕｔｈ）、Ｋｅｒｂｅｒｏｓ、ＳｅｃｕｒｅＩＤ、デジタル証明書などの種々の認可及び認証技法は、通信をセキュアにするために使用されることができる。

【0048】

クラウドベースのサービス１３８は、クラウドにおいて、又はインターネット上に実装される機能をユーザに提供する。クラウドベースのサービス１３８は、ニュースウェブサイト、ブログ、ビデオストリーミングウェブサイト、ソーシャルメディアウェブサイト、ホストサービス、クラウドアプリケーション、クラウドストア、クラウドコラボレーション及びメッセージングプラットフォーム、並びに／又はクラウド顧客関係管理（ＣＲＭ）プラットフォームなどのインターネットホストサービスを含むことができる。クラウドベースのサービス１３８は、ブラウザ（ＵＲＬを介して）又はネイティブアプリケーション（同期クライアント）を使用してアクセスされることができる。

【0049】

クラウドベースのサービス１３８のカテゴリは、サービスとしてのソフトウェア（ＳａａＳ）提供物、サービスとしてのプラットフォーム（ＰａａＳ）提供物、及びサービスとしてのインフラストラクチャ（ＩａａＳ）提供物を含む。
今日の一般的なウェブサービスの例には、ＹｏｕＴｕｂｅ（登録商標）、Ｆａｃｅｂｏｏｋ（商標）、Ｔｗｉｔｔｅｒ（商標）、Ｇｏｏｇｌｅ（商標）、ＬｉｎｋｅｄＩｎ（商標）、Ｗｉｋｉｐｅｄｉａ（商標），Ｙａｈｏｏ（商標）、Ｂａｉｄｕ（商標）、Ａｍａｚｏｎ（商標）、ＭＳＮ（商標）、Ｐｉｎｔｅｒｅｓｔ（商標）、Ｔａｏｂａｏ（商標）、Ｉｎｓｔａｇｒａｍ（商標）、Ｔｕｍｂｌｒ（商標）、ｅＢａｙ（商標）、Ｈｏｔｍａｉｌ（商標）、Ｒｅｄｄｉｔ（商標）、ＩＭＤｂ（商標）、Ｎｅｔｆｌｉｘ（商標）、ＰａｙＰａＩ（商標）、Ｉｍｇｕｒ（商標）、Ｓｎａｐｃｈａｔ（商標）、Ｙａｍｍｅｒ（商標）、Ｓｋｙｐｅ（商標）、Ｓｌａｃｋ（商標）、ＨｉｐＣｈａｔ（商標）、Ｃｏｎｆｌｕｅｎｃｅ（商標）、ＴｅａｍＤｒｉｖｅ（商標）、Ｔａｓｋｗｏｒｌｄ（商標）、Ｃｈａｔｔｅｒ（商標）、Ｚｏｈｏ（商標）、ＰｒｏｓｐｅｒＷｏｒｋｓ（商標）、Ｇｏｏｇｌｅ’ｓＧｍａｉｌ（商標）、Ｓａｌｅｓｆｏｒｃｅ．ｃｏｍ（商標）、Ｂｏｘ（商標）、Ｄｒｏｐｂｏｘ（商標）、ＧｏｏｇｌｅＡｐｐｓ（商標）、ＡｍａｚｏｎＡＷＳ（商標）、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ３６５（商標）、Ｗｏｒｋｄａｙ（商標）、ＯｒａｃｌｅｏｎＤｅｍａｎｄ（商標）、Ｔａｌｅｏ（商標）、Ｊｉｖｅ（商標）、及びＣｏｎｃｕｒ（商標）が挙げられる。

【0050】

法人組織に属するユーザは、クラウドベースのサービスの何百ものプロバイダーにアクセスして、組織内外の他のユーザとデータを生成、記憶、コラボレーション、及び共有する。これは、マルウェア攻撃を招く可能性がある。クラウドベースのサービス１３８は、セキュリティポリシーを実装している組織のユーザに機能を提供する。ユーザがエンドポイント１４２を介してクラウドベースのサービスに要求を送信するとき、インラインプロキシ１３２は、要求メッセージを代行受信する。インラインプロキシ１３２は、データベースにアクセスすることによって、アクセスされているクラウドベースのサービス１３８を識別しようとする。一実装形態では、本発明によれば、インラインプロキシは、アクセスされているクラウドベースのサービス１３８を識別するために、ユーザからメタデータストア１３４への要求メッセージにおけるメタデータを蓄積する。文書インスタンスが、ネットワークを通じてクラウドベースのストア１３６とユーザエンドポイント１４２との間で共有又はリンクされるとき、マルウェア攻撃の危険がある。

【0051】

[ｏｆｆｉｃｅ分類子]
ｏｆｆｉｃｅ分類子１２７は、図２において詳細に示される。ｏｆｆｉｃｅ分類子フレームワーク２０２は、悪意のあるコードを含む場合又は含まない場合があるｏｆｆｉｃｅ文書のｉｎｔｈｅｗｉｌｄ２０４を受信する。「ｉｎｔｈｅｗｉｌｄ」２０４という用語は、概して、すでに世間に出回っており、種々の種類の損害を与える悪意のあるプログラムを指す。ｏｆｆｉｃｅ分類子１２７は、図１に示されるネットワークセキュリティシステム１２０の不可欠な部分であり、ネットワークセキュリティシステム１２０の他の要素と協働して動作する。

【0052】

ｏｆｆｉｃｅ分類子フレームワーク２０２は、機械学習モデル２０８の教師あり訓練を使用して、文書ファイルにおける悪意のあるコンテンツを予測する。機械学習モデルは、図３に関連して説明される、ラベル付けされた訓練データ及び機械学習アルゴリズムを使用して訓練される。機械学習モデルを訓練するために使用される特徴は、更に後で考察される。これらの特徴の判定は、難読化及び他の既知の技法を使用して悪意のあるマクロ及び悪意のあるＯＬＥオブジェクトを埋め込み、悪意のあるコンテンツを見つけるのを困難にするために、マルウェア作成者により使用される方法の分析に基づいている。

【0053】

一態様では、ｏｆｆｉｃｅ分類子１２７は、ヒューリスティック特徴ジェネレータ２０６を使用して、悪意のあるマクロ及び悪意のあるＯＬＥオブジェクトの特性及び属性から導出された特徴のリストを生成することができ、これは、高度なブースティング木ベースの機械学習アルゴリズム２０８を訓練するために使用されることができる。次いで、ｏｆｆｉｃｅ分類子１２７は、それらの特徴に基づいて、脅威レベルとして新しいＯｆｆｉｃｅ文書を分類することができる。別の態様では、ヒューリスティック特徴ジェネレータ２０６は、悪意のあるマクロ及び悪意のあるＯＬＥオブジェクトの特徴をキーワードのセットと相関させることができ、Ｏｆｆｉｃｅ文書から抽出された特徴のセットを一意に定義し、機械アルゴリズムに分散を提供し、非常に正確な検出結果をもたらす。

【0054】

ｏｆｆｉｃｅ分類子１２７は、ＭＳＯｆｆｉｃｅ文書から、以下の埋め込まれたアーティファクトから抽出された特徴を使用する。これらの特徴は、機械学習（ＭＬ）モデル２０８を訓練するために使用される。
１）マクロ（ＶＢＡコード）
２）ＤＤＥ
３）埋め込みＯＬＥオブジェクト

【0055】

ほとんどの従来のＭＬ及びヒューリスティックベースのソリューションとは異なり、Ｏｆｆｉｃｅ分類子１２７は、次のような静的特徴にのみ依存するわけではない。
１）ＶＢＡコードにおけるＡＰＩ。
２）マクロが接続するＵＲＬ。
３）自動実行。
４）埋め込みＰＥ／文書ファイル。

【0056】

代わりに、ｏｆｆｉｃｅ分類子１２７は、メタデータ（文書サイズ、ページ、段落など）、コードエントロピーなどの他のアーティファクトとともに、マクロコードが使用する難読化の量を検出するのに役立つこれらの特徴を収集する。難読化されたマクロコードの多くのインスタンスの分析を通して、マルウェア作成者によって使用される難読化タイプは、前述のように、１）論理的、２）エンコード、３）分割、及び４）ランダム難読化にカテゴリ化され得ることが観察されている。

【0057】

前述のように、マルウェア作成者は、しばしば、これらの難読化タイプを使用して分析の時間を膨らませ、それが次に検出後の対策を遅らせる。各難読化方法は、非常に単純であるが、組み合わせて使用するときに、コードを視覚的に解読不可にする。加えて、マルウェア作成者は、難読化ツールを使用して、異なるハッシュ値を有するマルウェアの多くの変種を作成する。

【0058】

マルウェア作成者は、ＥＭＯＴＥＴによる最近のものを含め、マルウェアキャンペーンの多くでこのような難読化技法を使用しているようである。上で説明したように、難読化は、主に、文字列演算子、関数などのＶＢＡ言語特徴を使用して達成される。ｏｆｆｉｃｅ分類子１２７は、機械学習及びヒューリスティックエンジンを通じて成功した分類において、ＶＢＡコードからそのような一意の指標を収集する。

【0059】

本開示の技術は、Ｗｏｒｄ、Ｅｘｃｅｌ及びＰＰＴをカバーするＭＳＯｆｆｉｃｅのＯＬＥ２及びＯＸＭＬタイプの文書の両方を検出することを対象とする。特徴抽出活動は、基本的には、ＶＢＡコード、ＤＤＥ、及び本明細書では文書、ファイル、又は文書ファイルとも称されるＯｆｆｉｃｅ文書からの埋め込みアイテムのような必要なアイテムの抽出及び解析である。絶対マーカーを特徴とするものは、１つもない。むしろ、抽出された特徴のグループは、分類に寄与する。

【0060】

図２を続けると、潜在的な誤検出２１２及び新たな脅威２１４は、マルウェア検出のレベルを改善するためにアナリストレビュー２１６を必要とし得、これは、ｏｆｆｉｃｅ分類子フレームワーク２０２内のいくつかの調整を必要とし得る。加えて、他の脅威検出エンジン２１８は、機械学習及びヒューリスティックエンジン２０８と並行して動作して、マルウェア検出の全体的な性能を改善し、最終的検出結果２１０を大幅に改善し得る。

【0061】

[機械学習及び特徴量エンジニアリング]
機械学習及び特徴量エンジニアリングのために開示される技術は、図３により詳細に示される。

【0062】

文書ファイルは、複数のマクロ及び埋め込みファイルを含み得る。特徴抽出の目的のために、全てのマクロは、単一のエンティティとして考慮及び結合される。ＣＦＢＦ（複合ファイルバイナリフォーマット）とＯｐｅｎＸＭＬの両方を含む文書（全てのフォーマット）からマクロコード及び埋め込みファイル情報を抽出する。マクロ及び埋め込みＯＬＥオブジェクトからの特徴は、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ文書における悪意のあるコードを検出する機械学習アルゴリズムによって処理のために抽出される。特徴ベクトルの構築と関連付けられる特徴のリストは、更に後述される。

【0063】

図３は、教師あり機械学習モデル３１２の訓練を例示する。訓練は、ランダムフォレスト、決定木、線形回帰などの好適な機械学習アルゴリズム３１０を使用する。代替的に、機械学習アルゴリズムは、Ｉｎｃｅｐｔｉｏｎなどの深層学習構造を含む畳み込みニューラルネットワーク、ＣＮＮを使用することができる。教師あり機械学習では、訓練データは、分類ラベル３１６を含む。訓練テキスト、文書、画像３１４は、特徴を抽出するために使用される。理想的には、このサンプリングは、データサイエンティストによる更なる機械学習（ＭＬ）処理のために、抽出され、．ｃｓｖファイルに保持されるように、大規模で１００万個ほどのサンプルであるべきである。

【0064】

サンプル収集は、重複を避けるべきであり、レベル化されなければならない。サンプル収集は、理想的には、Ｎｅｔｓｋｏｐｅなどのネットワークセキュリティ環境内で誤検出（ＦＰ）であることが示された文書を含む、ラベル付けされた悪意のあるファイルとクリーンな文書ファイルの組み合わせを含む。

【0065】

特徴ベクトル３１８が識別及びラベル付けされるとき、それらは、機械学習アルゴリズム３１０によって組み合わされて、予測モデル３１２を作成する。

【0066】

新しいテキスト、文書、画像など３２０の形態における新しいラベル付けされていないデータは、選択された特徴ベクトル３２２を通して分類され、予測モデル３１２に入力される。予測モデルは、新しいデータ３２０を処理３１２し、最終結果として予想されるラベル３２４を提供する。

【0067】

ここで図４に目を向けると、開示される技術に従って潜在的に悪意のあるファイルがどのように処理され分類されるかを例示する、ｏｆｆｉｃｅ分類子１２７のフロー図が示されている。

【0068】

ｏｆｆｉｃｅ分類子１２７は、ネットワークを介して着信文書４００を受信し、その文書を解析するために、及び解析し、特徴を抽出し、機械学習アルゴリズムを適用して、文書を脅威レベル、安全レベル４８０、疑わしいレベル５００、又は悪意のあるレベル４９０として分類するように構成される。安全な文書４８０は、ネットワーク内に許可される。疑わしい文書５００は、隔離又はサンドボックス化方法５１０を含む追加の処理の対象となる。悪意のある文書４９０は、警告を発し、最終的に拒否されるか、又はネットワークからブラックリストに登録される。検出された悪意のあるファイル４９０は、更なる研究分析のために隔離され得る。一態様では、文書は、セキュリティ管理者による詳細な脅威スキャンを受け得、これはまた、サンドボックス１３０における分離を含み得、任意の実行可能な埋め込みコードは、任意の埋め込みリンクが悪意のある活動を引き起こすかどうかを判定するために、分離された環境で実行される。

【0069】

更なる態様では、開示される技術は、悪意のあるマクロ及び悪意のあるＯＬＥ文書を検出するネットワークセキュリティシステムの能力を更に増加させるために、機械学習を他のネットワークセキュリティ方法４１０、４２０と組み合わせる。

【0070】

[以前に検出されたマルウェアのインスタンスを使用した特徴量エンジニアリング]
一態様では、開示される技術は、機械学習アルゴリズムを使用する。本技術は、導出するように構成されており、特徴のリストは、導出を支援するヒューリスティックを伴って、又は伴わずに、以前のマルウェア攻撃から導出されることができる。特徴は、機械学習アルゴリズムを訓練するために使用される。

【0071】

別の態様では、開示される技術はまた、Ｏｆｆｉｃｅ文書内の悪意のある埋め込みＯＬＥオブジェクトを検出する。レベル化されたサンプルから抽出されたこれらの特徴は、ブースティング木アルゴリズムを使用して教師ありモデルを訓練するために使用される。異なるカテゴリから組み合わされた特徴は、機械学習アルゴリズムに非常に良好な分散を提供する。ヒューリスティクスは、機械学習アルゴリズムを訓練するための特徴ベクトルのセットを導出するのを助けるために、使用されることができる。

【0072】

ゼロデイ及び繰り返される悪意のあるパターンについて機械学習、並びに認識された悪意のあるパターンの検出のためのヒューリスティック、これら２つのアプローチの組み合わせは、埋め込みマクロ及びＯＬＥオブジェクトの形態における悪意のある文書ファイルを検出する際に優れた結果を提供する。開示される技術は、ヒューリスティックエンジンからの特徴量エンジニアリングを使用して、機械学習アルゴリズムを訓練する。

【0073】

図５は、悪意のある埋め込みマクロを検出するステップ（アクション）を例示するフローチャートである。ステップ（アクション）（アクション）５００では、文書ファイルは、ネットワークセキュリティシステムに受信される。ネットワークセキュリティシステムは、解析のために構成され、文書ファイルは、悪意のあるペイロードデータからメタデータを分離するために解析される。ステップ（アクション）５１０では、ｏｆｆｉｃｅ分類子１２７内のヒューリスティックエンジンは、既知の難読化方法を使用して、マクロに埋め込まれたマルウェアの過去のインスタンスを示すデータを使用する。ステップ（アクション）５２０では、特徴セットは、ヒューリスティクスによって提供されたデータから導出されることができる。特徴セットは、部分的に、文書ファイルが悪意のあるマクロコードを含む可能性を予測するために、機械学習方法を使用して機械学習アルゴリズムモデルを訓練するために使用される。ステップ（アクション）５３０では、訓練済み機械学習モデルは、入力文書が悪意のあるマクロを含み得る可能性を予測するために使用される。ステップ（アクション）５４０では、悪意のあるマクロのインスタンスから導出されたヒューリスティックルールは、文書ファイルにおける悪意のあるマクロを検出する成功率を増加させるために適用される。ステップ（アクション）５５０では、ｏｆｆｉｃｅ分類子１２７は、結果として生じる文書ファイルを、安全、疑わしい、又は悪意のあるものとして分類する。ステップ（アクション）５６０では、安全な文書は、ネットワークシステムに受け入れられ、悪意のある文書は、ブロックされ、疑わしい文書は、サンドボックス化を含む更なる脅威分析のために隔離される。

【0074】

図６は、悪意のある埋め込みＯＬＥオブジェクトを検出するステップ（アクション）を例示するフローチャートである。ステップ（アクション）６００では、文書ファイルは、ネットワークセキュリティシステムに受信される。ネットワークセキュリティシステムは、解析のために構成され、文書ファイルは、悪意のあるペイロードデータからメタデータを分離するために解析される。ステップ（アクション）６１０では、ｏｆｆｉｃｅ分類子１２７内のヒューリスティックエンジンは、既知の難読化方法を使用して、悪意のある埋め込みＯＬＥオブジェクトの過去のインスタンスを示すデータを使用する。ステップ（アクション）６２０では、ヒューリスティックエンジンは、特徴セットを導出するように構成されており、特徴セットは、ヒューリスティックによって提供されたデータから導出されることができる。データは、部分的に、文書ファイルが悪意のある埋め込みＯＬＥオブジェクトコードを含む可能性を予測するために、機械学習方法を使用して機械学習アルゴリズムモデルを訓練するために使用される。ステップ（アクション）６３０では、訓練済み機械学習モデルは、入力文書が悪意のある埋め込みＯＬＥオブジェクトを含み得る可能性を予測するために使用される。ステップ（アクション）６４０では、悪意のある埋め込みＯＬＥオブジェクトのインスタンスから導出されたヒューリスティックルールは、文書ファイルにおける悪意のある埋め込みＯＬＥオブジェクトを検出する成功率を増加させるために適用される。ステップ（アクション）６５０では、ｏｆｆｉｃｅ分類子１２７は、結果として生じる文書ファイルを、安全、疑わしい、又は悪意のあるものとして分類する。ステップ（アクション）５６０では、安全な文書は、ネットワークシステムに受け入れられ、悪意のある文書は、ブロックされ、疑わしい文書は、サンドボックス化を含む更なる脅威分析のために隔離される。
[ＭＳＯｆｆｉｃｅ文書から抽出された特徴の広範なカテゴリ]
[マクロ]
１）ＣｒｅａｔｅＯｂｊｅｃｔ、Ｓｈｅｌｌ、ＦｉｌｅＳｙｓｔｅｍ、ＵＲＬＤｏｗｎｌｏａｄＴｏＦｉｌｅ、ＣａｌｌＢｙＮａｍｅ、ＤｅｔｅｃｔＳａｎｄｂｏｘ、Ｖｉｒｔｕａｌｉｚａｔｉｏｎ、Ａｎｔｉ－Ｄｅｂｕｇｇｉｎｇなど、ＶＢＡ及びＷｉｎｄｏｗｓＡＰＩの使用のカウントを示す特徴。カウントの収集は、クリーンな文書に対する特徴と比較するとき、ＭＬ及びューリスティックアプローチの両方について分散を与える。
２）ＶＢＡマクロにおける自動実行のカウント（文書の開閉時、ＶＢＡコントロールのイベントをクリック）を示す特徴。
３）＋、＆、＝などのＶＢＡ文字列演算子（連結）を使用する、文字列演算子のカウントを示す特徴。
４）ＶＢＡマクロにおけるＡｓｃ（）、Ｃｈｒ（）、ＣｈｒＷなど、ＣＢｏｏｌ（）、ＣＳｔｒ（）、ＣＬｎｇ（）など、Ａｂｓ（）、Ａｔｎ（）、ＲＮＤ（）など、ＤＤＢ（）、ＦＶ（）、ＩＰｍｔ（）などのＶＢＡ関数を使用する、テキスト、型変換、算術及び財務関数のカウントを示す特徴。
５）ＯＬＥストリームの数、有効なパスコードなど、ＯＬＥストリームプロファイルを示す特徴。
６）コードライン、コメント、変数、関数、ループ、イベント、１６進文字列、エントロピーなどのカウントのようなＶＢＡコードプロファイルを示す特徴。
[静的：文書の静的特定を構成する。]
１）文書サイズ、文書のタイプ（Ｗｏｒｄ／Ｅｘｃｅｌ／ＰＰＴ）、作成／変更時間、及び改訂番号。
２）ページ数、段落数、行数、文字数
３）文書は、テンプレートであり、文書メタデータにおいてＶＢＡコードが存在する
[ＤＤＥ：利用可能な場合は、動的データ実行コード／文字列の特徴を構成する。]
１）ＤＤＥが自動実行可能である場合。
２）ＤＤＥが、ｃｍｄ．ｅｘｅ、ｐｏｗｅｒｓｈｅｌｌ、ｗｍｉ、ｗｓｃｒｉｐｔ、及びｃｓｃｒｉｐｔユーティリティのような信頼できるＷｉｎｄｏｗｓユーティリティを使用している場合。
３）ＤＤＥにＵＲＬがある場合は、ハイパーリンクでアクセスする。
４）ＤＤＥが実行可能ファイル、ファイルダウンロード、レジストリスクリプト、アドイン、マクロボタンを使用している場合。
[埋め込み：Ｏｆｆｉｃｅ文書内に埋め込みオブジェクトからの特徴を構成する]
１）ｅｘｅ、ｄｌｌ、７ｚ、ｄｍｇ、ｄｅｂ、ｒａｒなどのような疑わしいファイルを有する埋め込みオブジェクト。
２）ｓｑｌ、ｃｅｒ、ｃｆｍなどのような半疑わしいファイルを有する埋め込みオブジェクト。
３）ｅｘｔｎなしのような他のファイルを有する埋め込みオブジェクト。
４）ＵＲＬへの外部ハイパーリンクを有する埋め込みオブジェクト。

【0075】

[テスト結果]
ＶｉｒｕｓＴｏｔａｌからのマクロを有する２０００の悪意のあるＭＳＯｆｆｉｃｅサンプル及びＶｉｒｕｓＴｏｔａｌからの２０００のクリーンなサンプルのランダムに選択されたセットのテストコーパスを使用すると、開示される技術は、誤検出なしにマルウェアサンプルの８７．４％を検出することができ、Ｎｅｔｓｋｏｐｅ社によって提供されるものなどの他のマルウェア検出エンジンと組み合わせた場合、９８．９％の精度が誤検出なしで達成されたことを示す。このアーキテクチャは、以前に分析されたサンプルで使用された類似の難読化及び他の戦術を使用するマルウェアサンプルに対して、積極的で汎用的な検出を提供する。

【0076】

[ＶＢＡ由来のマクロ特徴：]
ＭＡＣＲＯ＿ＩＳ＿ＰＲＥＳＥＮＴ－この特徴は、スキャンされている文書にマクロが存在するかどうかを示す。これは、カウント又はブール値のいずれかであることができる。

【0077】

ＭＡＣＲＯ＿ＡＵＴＯＥＸＥＣ－この特徴は、スキャンされている文書を開いたときに、マクロが自動的に実行されるかどうかを示す。これは、ブール値であることができる。イベント又は動作状態に基づいてマクロをトリガするＡｕｔｏＥｘｅｃと同様の関数は、Ｄｏｃｕｍｅｎｔ＿Ｏｐｅｎ及びＤｏｃｕｍｅｎｔ＿Ｃｌｏｓｅを含む。この関数群は、集合的にカウントされることができる。イベントトリガされたマクロ実行の単一のインスタンスは、悪意のあるコーディングを示唆する可能性がある。イベントトリガされたマクロ実行の複数のインスタンスは、正当なコードを示唆する可能性がある。ＭＬは、この特徴及び他のために、そのような区別をするのが得意である。

【0078】

ＭＡＣＲＯ＿ＥＸＥＣＵＴＥ－この特徴は、マクロが外部コードを含むコードを起動するかどうかを示す。これは、カウント又はブール値のいずれかであることができる。

【0079】

ＭＡＣＲＯ＿ＥＸＥＣＵＴＥ＿ＰＯＷＥＲＳＨＥＬＬ－この機能は、マクロがスクリプトを実行するＷｉｎｄｏｗｓＰｏｗｅｒＳｈｅｌｌの起動を引き起こすかどうかを示す。これは、カウント又はブール値のいずれかであることができる。

【0080】

ＭＡＣＲＯ＿ＷＲＩＴＥ－この機能は、マクロが同じコンピュータのディスクにデータを送信するか、又はネットワークの場所に送信するかを示す。多くのプログラムは、この関数を使用して正当にログファイルを書き込む。この特徴に入ることができる１つの考慮事項は、書き込まれたファイルがバイナリファイルであるか、それともテキストログファイルであるかである。

【0081】

ＭＡＣＲＯ＿ＨＡＳ＿ＩＮＴＥＲＮＥＴＤＯＷＮＬＯＡＤ－ダウンロードは、単にインターネットに接続するよりも特徴として重要である。

【0082】

ＭＡＣＲＯ＿ＨＡＳ＿ＲＥＧＩＳＴＲＹ＿ＡＣＣＥＳＳ－レジストリの書き込み又は編集は、悪意のある意図を示すことができる。

【0083】

ＭＡＣＲＯ＿ＣＯＭＭＥＮＴ＿ＬＩＮＥＳ－維持する必要があるＶＢＡコードよりも、悪意のあるコードのコメント行が少ないことが観察されている。

【0084】

ＭＡＣＲＯ＿ＣＯＤＥ＿ＬＩＮＥＳ－悪意のあるマクロファミリーには典型的な数の行がある。

【0085】

ＭＡＣＲＯ＿ＨＡＳ＿ＨＥＸ＿ＳＴＲ－Ｈｅｘエンコードの使用は、正規のＶＢＡマクロコードにおいて稀である。いくつかの合成特徴は、他の抽出された特徴から構築される。ここでは、工学的判断に基づく３つの例が与えられる。

【0086】

ＭＡＣＲＯ＿ＲＵＬＥ１＃ＭＡＣＲＯ＿ＲＵＬＥ１－
ＭＡＣＲＯ＿ＡＵＴＯＥＸＥＣ＝真、及びＭＡＣＲＯ＿ＷＲＩＴＥ＝真、及びＭＡＣＲＯ＿ＨＡＳ＿ＨＥＸ＿ＳＴＲ＝偽

【0087】

ＭＡＣＲＯ＿ＲＵＬＥ２＃ＭＡＣＲＯ＿ＲＵＬＥ２－
ＭＡＣＲＯ＿ＡＵＴＯＥＸＥＣ＝真、及びＭＡＣＲＯ＿ＷＲＩＴＥ＝真、及びＭＡＣＲＯ＿ＨＡＳ＿ＨＥＸ＿ＳＴＲ＝真

【0088】

ＭＡＣＲＯ＿ＲＵＬＥ３＃ＭＡＣＲＯ＿ＲＵＬＥ３－
ＭＡＣＲＯ＿ＡＵＴＯＥＸＥＣ＝真、及びＭＡＣＲＯ＿ＷＲＩＴＥ＝真、及びＭＡＣＲＯ＿ＨＡＳ＿ＨＥＸ＿ＳＴＲ＝偽

【0089】

ＭＡＣＲＯ＿ＯＬＥＳＴＲＥＡＭ＿ＣＯＵＮＴ－悪意のあるマクロは、ＯＬＥストリームを有しない。対照的に、多くのＯＬＥストリームは、しばしば、繰り返し更新される正当な文書に現れることがある。
ＭＡＣＲＯ＿ＯＬＥ＿ＰＡＳＳＣＯＤＥ－＃は、ＯＬＥ／ＶＢＡパスコード化されたプロジェクトストリームのプロジェクト保護状態である。

【0090】

ＭＡＣＲＯ＿ＤＥＴＥＣＴ＿ＳＡＮＤＢＯＸ－この特徴は、Ａｎｕｂｉｓ、Ｓａｎｄｂｏｘｉｅ、Ｎｏｒｍａｎ、ＣＷ、Ｗｉｎｊａｉｌ、又は他のタイプのサンドボックスの検出など、マクロがサンドボックスの実行を検出しようとするかどうかを示す。悪意のないアプリケーションは、サンドボックスにおいて実行されているかどうかを検出する理由がない。Ｍａｒｃｏｓは、徹底的に解析されているため、サンドボックスにおいて実行する必要はない。

【0091】

ＭＡＣＲＯ＿ＤＥＴＥＣＴ＿ＶＩＲＴＵＡＬＩＺＡＴＩＯＮ－仮想化又はデバッグモードの検出はまた、より一般的である。仮想化は、特定のサンドボックスを探すよりも、より一般的な特徴である。

【0092】

ＭＡＣＲＯ＿ＲＵＮ＿ＳＨＥＬＬＣＯＤＥＩＮＭＥＭＯＲＹ－ＶＢＡマクロは、メモリにおいてシェルコードを実行することができる。現在、これは、広くは利用されていないが、悪用される可能性がある。

【0093】

ＭＡＣＲＯ＿ＤＩＳＡＢＬＥ＿ＳＥＣＵＲＩＴＹ－正当なコードがＶＢＡマクロセキュリティを無効にする、又は保護されたビューを無効にする理由はほとんどない。これは、悪意を強く示唆している。

【0094】

以下の一連の特徴は、上記の難読化の考察に関連する。

【0095】

ＭＡＣＲＯ＿ＳＥＬＦ＿ＭＯＤＩＦＩＣＡＴＩＯＮ－上述したように、マクロは、ＶＢＡ以外の言語で実行可能なコードのパラメータを構築することを含む、ＶＢＡコードの修正（自己修正）を試み得る。分割及びエンコード難読化は、自己修正の顕著な手段である。

【0096】

ＭＡＣＲＯ＿ＮＵＭ＿ＳＴＲＩＮＧＯＰＳ－「＋」、「＝」、又は「＆」などの文字列演算子を使用することのカウントは、分割難読化を示すことができる。エンコード難読化特徴は、種々の関数タイプの複数のカウントを含むことができる。

【0097】

ＭＡＣＲＯ＿ＮＵＭ＿ＴＥＸＴＦＵＮＣは、Ａｓｃ（）、Ｃｈｒ（）、Ｍｉｄ（）、Ｊｏｉｎ（）、ＩｎＳｔｒ（）、Ｒｅｐｌａｃｅ（）、Ｒｉｇｈｔ（）、ＳｔｒＣｏｎｖ（）などを含むテキスト関数のカウントである。

【0098】

ＭＡＣＲＯ＿ＮＵＭ＿ＡＲＩＴＨＦＵＮＣは、Ａｂｓ（）、Ａｔｎ（）、Ｃｏｓ（）、Ｅｘｐ（）、Ｌｏｇ（）、Ｒａｎｄｏｍｉｚｅ（）、Ｒｏｕｎｄ（）、Ｔａｎ（）、Ｓｑｒ（）などを含む算術関数のカウントである。

【0099】

ＭＡＣＲＯ＿ＮＵＭ＿ＴＹＰＥＣＯＮＶＦＵＮＣは、ＣＢｏｏｌ（）、ＣＢｙｔｅ（）、ＣＣｈａｒ（）、ＣＳｔｒ（）、ＣＤｅｃ（）、ＣＵＩｎｔ（）、ＣＳｈｏｒｔ（）などを含む型変換関数のカウントである。

【0100】

ＭＡＣＲＯ＿ＮＵＭ＿ＦＩＮＣＦＵＮＣは、ＤＤＢ（）、ＦＶ（）、ＩＰｍｔ（）、ＰＶ（）、Ｐｍｔ（）、Ｒａｔｅ（）、ＳＬＮ（）、ＳＹＤ（）などを含む財務関数のカウントである。

【0101】

論理難読化特徴は、ランダム難読化特徴と重複しており、両方ともエントロピー測度によって対処されることができる。

【0102】

ＭＡＣＲＯ＿ＳＨＡＮＮＯＮ＿ＥＮＴＲＯＰＹは、ＶＢＡマクロコードのシャノンエントロピースコアである。

【0103】

[埋め込みファイル及び特徴：]
[ＯＬＥストリーム]
ＭＳＯｆｆｉｃｅ文書ファイルは、その中に埋め込みファイルがないかについてスキャンされる。以下のＯＬＥストリーム（ｘ０１Ｏｌｅ１０Ｎａｔｉｖｅ，￥ｘ０１ＣｏｍｐＯｂｊ及びＯｂｊｅｃｔＰｏｏｌ）は、埋め込みファイル情報を収集するために、デコードされる。以下は、埋め込みファイルから抽出された特徴である。
ＥＭＢＥＤ＿ＮＯＮＥ
ＥＭＢＥＤ＿ＨＡＳ＿ＣＯＲＲＵＰＴ
ＥＭＢＥＤ＿ＨＡＳ＿ＰＡＳＳＷＯＲＤ＿ＰＲＯＴＥＣＴＥＤ
ＥＭＢＥＤ＿ＨＡＳ＿ＳＵＳＰＩＣＩＯＵＳ＿ＢＩＮ－ファイルは、
疑わしいビンにリストされているファイル／ｅｘｔｎのいずれかからのものである。
ＥＭＢＥＤ＿ＨＡＳ＿ＳＥＭＩ＿ＳＵＳＰＩＣＩＯＵＳ＿ＦＩＬＥ－ファイルは、ｓｅｍｉ＿ｓｕｓｐｉｃｉｏｕｓ＿ｆｉｌｅｓにリストされているファイル／ｅｘｔｎのいずれかからのものである
ＥＭＢＥＤ＿ＨＡＳ＿ＮＯＲＭＡＬ＿ＦＩＬＥ－ファイルは、ｎｏｒｍａｌ＿ｆｉｌｅｓにリストされているファイル／ｅｘｔｎのいずれかからのものである
ＥＭＢＥＤ＿ＨＡＳ＿ＯＴＨＥＲ＿ＦＩＬＥ－ファイルは、上記のカテゴリのいずれにも属さず、ｃｏｍｐｒｅｓｓｅｄ＿ｆｉｌｅｓではない。
ＥＭＢＥＤ＿ＨＡＳ＿ＣＯＭＰＲＥＳＳＥＤ＿ＦＩＬＥ－ファイルは、ｃｏｍｐｒｅｓｓｅｄ＿ｆｉｌｅｓにリストされているファイル／ｅｘｔｎのいずれかからのものである。
ＥＭＢＥＤ＿ＨＡＳ＿ＮＯＮ＿ＥＸＴ
ＥＭＢＥＤ＿ＲＵＬＥ１－これは、ＥＭＢＥＤ＿ＲＵＬＥ１である。
ＥＭＢＥＤ＿ＨＡＳ＿ＳＵＳＰＩＣＩＯＵＳ＿ＢＩＮ＝真、又は
ＥＭＢＥＤ＿ＨＡＳ＿ＯＴＨＥＲ＿ＦＩＬＥ＝真

【0104】

[ヒューリスティックルール：]
ＭＳＯｆｆｉｃｅファイルにカテゴリ（Ａ）の疑わしいビン又はカテゴリ（Ｅ）の不明な拡張子における埋め込みファイルが含まれている場合は、マルウェアの可能性がある。
セット：
疑わしいビン（Ａ）＝「７ｚ」、「ａｐｋ」、「ａｐｐ」、「ａｓｐ」、「ａｓｐｘ」、「ｂａｔ」、「ｂｉｎ」、「ｃａｂ」、「ｃｇｉ」、「ｃｏｍ」、「ｃｐｌ」、「ｃｒｘ」、「ｄｅｂ」、「ｄｌｌ」、「ｄｍｇ」、「ｄｍｐ」、「ｄｒｖ」、「ｅｘｅ」、「ｇａｄｇｅｔ」、「ｊａｒ」、「ｊｓ」、「ｊｓｅ」、「ｊｓｐ」、「ｌｎｋ」、「ｍｓｉ」、「ｐｈｐ」、「ｐｋｇ」、「ｐｌ」、「ｐｌｕｇｉｎ」、「ｐｙ」、「ｒａｒ」、「ｒｐｍ」、「ｓｈ」、「ｓｙｓ」、「ｔｏｒｒｅｎｔ」、「ｖｂｓ」、「ｗｓｆ」、「ｚｉｐ」、「ｚｉｐｘ」
半疑わしい（Ｂ）＝「ｃｅｒ」、「ｃｆｍ」、「ｃｓｒ」、「ｄｅｂ」、「ｄｃｒ」、「ｄｂ」、「ｄｂｆ」、「ｄｏｃｍ」、「ｍｄｂ」、「ｐｄｂ」、「ｓｑｌ」、「ｓｗｆ」、「ｘｌｓｍ」
正常（Ｃ）＝「３ｄｓ」、「３ｄｍ」、「ａｉ」、「ａｉｆ」、「ｂｍｐ」、「ｃｓｓ」、「ｃｓｖ」、「ｄｏｃ」、「ｄｏｃｘ」、「ｄｗｇ」、「ｄｘｆ」、「ｅｐｓ」、「ｆｌｖ」、「ｆｎｔ」、「ｆｏｎ」、「ｇｉｆ」、「ｈｔｍ」、「ｈｔｍｌ」、「ｉｎｄｄ」、「ｊｐｇ」、「ｋｅｙ」、「ｌｏｇ」、「ｍ３ｕ」、「ｍ４ａ」、「ｍａｘ」、「ｍｉｄ」、「ｍｏｖ」、「ｍｐ３」、「ｍｐ４」、「ｍｐｇ」、「ｏｂｊ」、「ｏｔｆ」、「ｐａｇｅｓ」、「ｐｃｔ」、「ｐｄｆ」、「ｐｎｇ」、「ｐｐｔ」、「ｐｐｔｘ」、「ｐｓ」、
「ｐｓｄ」、「ｐｓｐｉｍａｇｅ」、「ｒｍ」、「ｒｔｆ」、「ｓｖｇ」、「ｔｅｘ」、「ｔｇａ」、「ｔｈｍ」、「ｔｉｆ」、「ｔｉｆｆ」、「ｔｔｆ」、「ｔｘｔ」、「ｖｏｂ」、「ｗａｖ」、「ｗｍａ」、「ｗｍｖ」、「ｗｐｄ」、「ｗｐｓ」、「ｙｕｖ」、「ｘｌｒ」、「ｘｌｓ」、「ｘｌｓｘ」
拡張子なし（Ｄ）＝ファイル名に「．」が含まれない
圧縮ファイル（Ｆ）＝「７ｚ」、「ｃｂｒ」、「ｇｚ」、「ｒａｒ」、「ｓｉｔｘ」、「ｔａｒ」、「ｚｉｐ」、「ｚｉｐｘ」

【0105】

不明な拡張子（Ｅ）＝セットＡ、Ｂ、Ｃ、Ｄ、又はＦにないファイル名。これは、拡張子を有するが、他のセットにおいて定義されているものではないことを意味する。

【0106】

[静的属性及び特徴：]
以下は、ＭＳＯｆｆｉｃｅ文書ファイルからの特徴抽出の一部として抽出される静的属性である。機械学習（ＭＬ）モデルは、悪意のある文書を検出する能力を高めるために、これらの特徴で訓練される。
ＤＯＣ＿ＮＵＭ＿ＰＡＧＥＳ
ＤＯＣ＿ＮＵＭ＿ＷＯＲＤＳ
ＤＯＣ＿ＮＵＭ＿ＬＩＮＥＳ
ＤＯＣ＿ＮＵＭ＿ＣＨＡＲＳ
ＤＯＣ＿ＮＵＭ＿ＰＡＲＡＧＲＡＰＨ
ＤＯＣ＿ＬＡＳＴＭＯＤ＿ＴＩＭＥ
ＤＯＣ＿ＡＵＴＨＯＲ＿ＩＮＦＯ
ＤＯＣ＿ＲＥＶＩＳＩＯＮ＿ＮＵＭＢＥＲ
ＤＯＣ＿ＬＡＳＴＰＲＩＮＴ＿ＴＩＭＥ
ＤＯＣ＿ＬＩＮＫ－ＩＳＤＩＲＴＹ
ＤＯＣ＿ＬＡＮＧＵＡＧＥ
ＤＯＣ＿ＳＩＺＥ

【0107】

[他の検出方法との比較]
ハッシュベースの検出：開示される技術は、より一般的で積極的であり、ハッシュベースの検出は、１つのサンプルのみをカバーする。

【0108】

ウイルス対策署名：開示される技術は、より一般的かつ積極的である。これは、単純な／文字列パターンの一致ではない。

【0109】

ファジィハッシュ：開示される技術は、はるかに一般的である。ファジィハッシュはまた、単なるファジィバイト／文字列パターンの一致である。

【0110】

純粋な機械学習モデル：開示される技術は、ハイブリッドモデルを使用して、より低い誤検出（ＦＰ）率を達成しながら、新しい攻撃により迅速に応答することができる。

【0111】

サンドボックスベースの検出：開示される技術は、静的検出を使用するものであり、はるかに拡張性が低い。また、はるかに低い誤検出（ＦＰ）率を達成することができる。

【0112】

[コンピュータシステム]
ここで図７に目を向けると、クラウドベースのサービスを配信するためのクラウドベースのネットワーク内のネットワークにおけるセキュリティを提供するために使用され得るコンピュータシステム７００の簡略化されたブロック図が示されている。コンピュータシステム７００は、バスサブシステム７２６を介して一部の周辺デバイスと通信する少なくとも１つの中央処理装置（ＣＰＵ）７０４と、本明細書で説明されるネットワークセキュリティサービスを提供するためのネットワークセキュリティシステム１２０と、を含む。これらの周辺デバイスは、例えば、メモリデバイス７２２、７２４及びファイルストレージサブシステム７１２を含むストレージサブシステム７０８と、ユーザインターフェース入力デバイス７１４と、ユーザインターフェース出力デバイス７１６と、ネットワークインターフェースサブシステム７１８と、を含むことができる。入力及び出力デバイスは、コンピュータシステム７００とのユーザ対話を可能にする。ネットワークインターフェースサブシステム７１８は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む、外部ネットワークへのインターフェースを提供する。
一実装形態では、図１のネットワークセキュリティシステム１２０は、ストレージサブシステム７０８及びユーザインターフェース入力デバイス７１４に通信可能にリンクされる。ユーザインターフェース入力デバイス７１４は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。概して、「入力デバイス」という用語の使用は、コンピュータシステム７００に情報を入力するための全ての可能なタイプのデバイス及び方法を含むことが意図される。

【0113】

ユーザインターフェース出力デバイス７１６は、ディスプレイサブシステム、プリンタ、ファックス機、又は音声出力デバイスなどの非視覚的ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他のメカニズムを含むことができる。ディスプレイサブシステムは、音声出力デバイスなどの非視覚的ディスプレイを提供することもできる。概して、「出力デバイス」という用語の使用は、コンピュータシステム７００からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための全ての可能なタイプのデバイス及び方法を含むことが意図される。

【0114】

ストレージサブシステム７０８は、本明細書に記載のモジュール及び方法の一部又は全部の機能を提供するプログラミング及びデータ構造を記憶する。追加のサブシステム７２０は、グラフィックス処理ユニット（ＧＰＵ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）であることができる。

【0115】

ストレージサブシステム７０８内で使用されるメモリサブシステム７１０は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）７２２と、固定命令が記憶される読み取り専用メモリ（ＲＯＭ）７２４と、を含む、一部のメモリを含むことができる。ファイルストレージサブシステム７１２は、プログラム及びデータファイルのための永続的なストレージを提供することができ、ハードディスクドライブ、関連するリムーバブルメディアを伴うフロッピーディスクドライブ、ＣＤ－ＲＯＭドライブ、光学ドライブ、又はリムーバブルメディアカートリッジを含むことができる。特定の実装形態の機能を実装するモジュールは、ファイルストレージサブシステム７１２によって、ストレージサブシステム７０８内に、又はプロセッサ７０４によってアクセス可能な他のマシン内に記憶され得る。

【0116】

バスサブシステム７２６は、コンピュータシステム７００の種々のコンポーネント及びサブシステムに、意図されるように互いに通信させるためのメカニズムを提供する。バスサブシステム７２６は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実装形態は、複数のバスを使用することができる。

【0117】

コンピュータシステム７００自体は、パーソナルコンピュータ、携帯型コンピュータ、ワークステーション、コンピュータターミナル、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、疎にネットワーク化されたコンピュータの広く分散されたセット、又は任意の他のデータ処理システム若しくはユーザデバイスを含む、種々のタイプのものであることができる。コンピュータ及びネットワークの絶えず変化する性質に起因して、図７に示されるコンピュータシステム７００の説明は、本発明の好ましい実施形態を例示するための特定の例としてのみ意図される。図７に示すコンピュータシステム７００よりも多いコンポーネント又は少ないコンポーネントを有するコンピュータシステム７００の多くの他の構成が可能である。

【0118】

[特定の実装形態]
開示される技術は、システム、方法、デバイス、製品、コンピュータ可読媒体、又は製造品として実践されることができる。実装形態の１つ以上の特徴は、ベースの実装形態と組み合わせられることができる。相互に排他的ではない実装形態は、組み合わせ可能であると教えられる。実装形態の１つ以上の特徴は、他の実装形態と組み合わせられることができる。本開示は、ユーザにこれらの選択肢を定期的に思い出させる。これらの選択肢を繰り返す列挙のいくつかの実装形態からの省略は、前のセクションで教示された組み合わせを制限するものと解釈されるべきではない。これらの列挙は、以下の実施形態の各々に、参照によって本明細書に組み込まれる。

【0119】

開示される技術は、サイバーセキュリティ攻撃及びクラウドベースのセキュリティに関する。開示される技術は、本明細書では悪意のあるコード及び／又はマルウェアとも称される悪意のあるコンテンツ、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトを含む、そのような悪意のあるコンテンツ（マルウェア）の形態における埋め込まれた脅威を有する文書を検出するための方法及び装置である。マクロは、マクロデータ内に記憶され、本明細書ではマクロデータとも称される。同様に、ＯＬＥオブジェクトは、ＯＬＥオブジェクトデータ内に記憶され、本明細書では、ＩＬＥオブジェクトデータ、又は埋め込みＯＬＥオブジェクトデータとも称される。

【0120】

一態様では、開示される技術は、ネットワーク化されたシステムにおける入力文書を分類して、該文書のうちの少なくとも１つがマクロを含み得るか、及び／又は悪意のあるコード（マルウェア）を含む埋め込みＯＬＥオブジェクトを含み得るかを判定するための方法である。本方法は、文書ファイルをネットワークセキュリティシステムに繰り返し受信することを含む。各文書ファイルは、マクロデータ及び／又は埋め込みＯＬＥデータを文書ペイロードデータから分離するために解析される。本方法は、文書ファイルについて、既知の難読化方法を使用して埋め込まれたマルウェアの過去のインスタンスを示す少なくとも難読化スコアリング特徴を生成するように構成され、次に生成する。次に、プロセスは、難読化スコアリング特徴を訓練済み機械学習モデルに入力し、訓練済み機械学習モデルを適用して文書ファイルを処理し、文書ファイルが悪意のあるマクロデータ及び／又は悪意のあるＯＬＥデータの形態で悪意のあるコンテンツ（マルウェア）を含む可能性を判定する。結果として生じる文書は、安全、疑わしい、又は悪意のあるものとして分類される。分類のステップ（アクション）に基づいて、安全な文書ファイルは、ネットワークシステムに受け入れられる。悪意のある文書は、悪意のあるものとしてブロックされる。疑わしい文書は、脅威分析を受けるために隔離される。

【0121】

開示される技術の別の態様では、難読化スコアリング特徴は、埋め込みＶＢＡマクロ特徴を説明する以下の特徴のうちの１つ以上、及び少なくともいくつかの実施形態では、少なくとも５つを含む：
ｍａｃｒｏ＿ｉｓ＿ｐｒｅｓｅｎｔ、
ｍａｃｒｏ＿ａｕｔｏｅｘｅｃ、
ｍａｃｒｏ＿ｅｘｅｃｕｔｅ、
ｍａｃｒｏ＿ｅｘｅｃｕｔｅ＿ｐｏｗｅｒｓｈｅｌｌ、
ｍａｃｒｏ＿ｗｒｉｔｅ、
ｍａｃｒｏ＿ｈａｓ＿ｉｎｔｅｒｎｅｔ＿ｄｏｗｎｌｏａｄ、
ｍａｃｒｏ＿ｈａｓ＿ｒｅｇｉｓｔｒｙ＿ａｃｃｅｓｓ、
ｍａｃｒｏ＿ｃｏｍｍｅｎｔ＿ｌｉｎｅｓ、
ｍａｃｒｏ＿ｃｏｄｅ＿ｌｉｎｅｓ、
ｍａｃｒｏ＿ｈａｓ＿ｈｅｘ＿ｓｔｒ、
ｍａｃｒｏ＿ｏｌｅｓｔｒｅａｍ＿ｃｏｕｎｔ、
ｍａｃｒｏ＿ｏｌｅ＿ｐａｓｓｃｏｄｅ、
ｍａｃｒｏ＿ｄｅｔｅｃｔ＿ｓａｎｄｂｏｘ、
ｍａｃｒｏ＿ｄｅｔｅｃｔ＿ｖｉｒｔｕａｌｉｚａｔｉｏｎ、
ｍａｃｒｏ＿ｒｕｎ＿ｓｈｅｌｌ＿ｃｏｄｅ＿ｉｎ＿ｍｅｍｏｒｙ、
ｍａｃｒｏ＿ｄｉｓａｂｌｅ＿ｓｅｃｕｒｉｔｙ、
ｍａｃｒｏ＿ｓｅｌｆ＿ｍｏｄｉｆｉｃａｔｉｏｎ、
ｍａｃｒｏ＿ｎｕｍ＿ｓｔｒｉｎｇｏｐｓ、
ｍａｃｒｏ＿ｎｕｍ＿ｔｅｘｔｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ａｒｉｔｈｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ｔｙｐｅｃｏｎｖｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ｆｉｎｃｆｕｎｃ、及び
ｍａｃｒｏ＿ｓｈａｎｎｏｎ＿ｅｎｔｒｏｐｙ。

【0122】

開示される技術の別の態様では、難読化スコアリング特徴は、埋め込みＶＢＡＯＬＥオブジェクト特徴を説明する以下の特徴のうちの１つ以上、及び少なくともいくつかの実施形態では、少なくとも５つを含む：
ｅｍｂｅｄ＿ｎｏｎｅ
ｅｍｂｅｄ＿ｈａｓ＿ｃｏｒｒｕｐｔ
ｅｍｂｅｄ＿ｈａｓ＿ｐａｓｓｗｏｒｄ＿ｐｒｏｔｅｃｔｅｄ
ｅｍｂｅｄ＿ｈａｓ＿ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎ－＃ファイルは、ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎｓにリストされているファイル／ｅｘｔｎのいずれかからのものである
ｅｍｂｅｄ＿ｈａｓ＿ｓｅｍｉ＿ｓｕｓｐｉｃｉｏｕｓ＿ｆｉｌｅ－＃ファイルは、ｓｅｍｉ＿ｓｕｓｐｉｃｉｏｕｓ＿ｆｉｌｅｓにリストされているファイル／ｅｘｔｎのいずれかからのものである
ｅｍｂｅｄ＿ｈａｓ＿ｎｏｒｍａｌ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｏｔｈｅｒ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｃｏｍｐｒｅｓｓｅｄ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｎｏｎ＿ｅｘｔ
ｅｍｂｅｄ＿ｒｕｌｅ１－＃ｅｍｂｅｄ＿ｒｕｌｅ１
ｅｍｂｅｄ＿ｈａｓ＿ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎ＝真、及び
ｅｍｂｅｄ＿ｈａｓ＿ｏｔｈｅｒ＿ｆｉｌｅ＝真。

【0123】

開示される技術の更なる態様では、文書ファイルは、ＭＳＯｆｆｉｃｅ文書である。また、ＭＳＯｆｆｉｃｅ文書は、ワードプロセッシング文書であるＷｏｒｄ文書、スプレッドシート文書であるＥｘｃｅｌ文書、又はグラフィカル描画文書であり、本明細書ではプレゼンテーション文書とも称されるＰｏｗｅｒＰｏｉｎｔ文書であり得る。

【0124】

開示される技術は、難読化スコアリングステップ（アクション）では、ＶＢＡマクロ特徴の１つ以上、いくつかの実施形態では、少なくとも２つを含む、マクロ関連及び／又はＯＬＥオブジェクト関連特徴をスコアリングする：
ｃｒｅａｔｅｏｂｊｅｃｔ、
ｓｈｅｌｌ、
ｆｉｌｅｓｙｓｔｅｍ、
ｕｒｌｄｏｗｎｌｏａｄｔｏｆｉｌｅ、
ｃａｌｌｂｙｎａｍｅ、及び
ｄｅｔｅｃｔｓａｎｄｂｏｘ。

【0125】

開示される技術は、難読化スコアリングステップ（アクション）では、以下のＶＢＡＯＬＥオブジェクト特徴のうちの少なくとも２つを含むＯＬＥオブジェクト関連特徴を検出する：
ｃｒｅａｔｅｏｂｊｅｃｔ、
ｓｈｅｌｌ、
ｆｉｌｅｓｙｓｔｅｍ、
ｕｒｌｄｏｗｎｌｏａｄｔｏｆｉｌｅ、
ｃａｌｌｂｙｎａｍｅ、及び
ｄｅｔｅｃｔｓａｎｄｂｏｘ。

【0126】

開示される技術の別の態様では、訓練済み機械学習モデルに、以下の文書特徴から導出された１つ以上、いくつかの実施形態では、少なくとも２つの特徴を入力するステップ（アクション）：
文書サイズ、
作成者情報、
文書のタイプ（Ｗｏｒｄ／Ｅｘｃｅｌ／ＰＰＴ）、
作成又は変更時刻及び改訂番号、
ページ数、
段落の数、
行数、及び
文字数。

【0127】

開示される技術は、方法の別の態様では、マルウェア検出の精度を高くし、誤検出を排除するために並行して動作する二次マルウェア検出エンジンを含む。

【0128】

開示される技術の別の態様では、訓練済み機械学習モデルに、以下の静的文書特徴から導出された１つ以上の特徴、いくつかの実施形態では、少なくとも２つの特徴で入力するステップ（アクション）：
ｄｏｃ＿ｎｕｍ＿ｐａｇｅｓ
ｄｏｃ＿ｎｕｍ＿ｗｏｒｄｓ
ｄｏｃ＿ｎｕｍ＿ｌｉｎｅｓ
ｄｏｃ＿ｎｕｍ＿ｃｈａｒｓ
ｄｏｃ＿ｎｕｍ＿ｐａｒａｇｒａｐｈ
ｄｏｃ＿ｌａｓｔｍｏｄ＿ｔｉｍｅ
ｄｏｃ＿ａｕｔｈｏｒ＿ｉｎｆｏ
ｄｏｃ＿ｒｅｖｉｓｉｏｎ＿ｎｕｍｂｅｒ
ｄｏｃ＿ｌａｓｔｐｒｉｎｔ＿ｔｉｍｅ
ｄｏｃ＿ｌｉｎｋ－ｉｓｄｉｒｔｙ
ｄｏｃ＿ｌａｎｇｕａｇｅ
ｄｏｃ＿ｓｉｚｅ

【0129】

上記の静的文書特徴に関して、ｄｏｃ＿ｎｕｍ＿ｐａｇｅｓは、本明細書ではページ数とも称され、ｄｏｃ＿ｎｕｍ＿ｗｏｒｄｓは、本明細書では単語数とも称され、ｄｏｃ＿ｎｕｍ＿ｌｉｎｅｓは、本明細書では行数とも称され、ｄｏｃ＿ｎｕｍ＿ｃｈａｒｓは、本明細書では文字数とも称され、ｄｏｃ＿ｎｕｍ＿ｐａｒａｇｒａｐｈは、本明細書では段落数とも称され、ｄｏｃ＿ｌａｓｔｍｏｄ＿時間は、本明細書では最後修正時間又は修正時間とも称され、ｄｏｃ＿ａｕｔｈｏｒ＿ｉｎｆｏは、本明細書では作成者情報とも称され、ｄｏｃ＿ｒｅｖｉｓｉｏｎｎｕｍｂｅｒは、本明細書では文書改訂番号又は改訂番号とも称され、ｄｏｃ＿ｌａｓｔｐｒｉｎｔ＿ｔｉｍｅは、本明細書では文書最終印刷時間又は最終印刷時間とも称され、ｄｏｃ＿ｌｉｎｋ－ｉｓｄｉｒｔｙは、本明細書では汚れた文書リンクとも称され、ｄｏｃ＿ｌａｎｇｕａｇｅは、本明細書では文書言語又は文書の言語とも称され、ｄｏｃ＿ｓｉｚｅは、本明細書では文書サイズ又は文書のサイズとも称される。

【0130】

【0131】

方法の脅威分析ステップ（アクション）では、文書ファイルは、疑わしい文書ファイルにおける１つ以上のマクロ及び／又は１つ以上の埋め込みＯＬＥオブジェクトをテストするためのサンドボックステスト環境において分離され得る。

【0132】

本発明は、既知の悪意のあるデータ署名を含まない、悪意のあるマクロ及び／又は埋め込みＯＬＥオブジェクトを検出する能力を有する。開示される方法では、機械学習モデルは、特徴量エンジニアリングを通じて機械学習アルゴリズムによって訓練された教師あり機械学習モデルである。選択された特徴のセットは、文書ファイルの大規模なサンプリングからこの選択された特徴のセットを導出することから導出される。いくつかのサンプリングされた文書ファイルは、１つ以上の悪意のあるマクロ及び／又は埋め込みＯＬＥオブジェクトを含み、いくつかのサンプリングされた文書ファイルは、少なくとも１つの悪意のないマクロ及び／又は少なくとも１つの悪意のない埋め込みＯＬＥオブジェクトを含む。文書ファイルのサンプリングは、ＭＳＯｆｆｉｃｅファイルを含む。本方法の一態様では、ネットワークアナリストは、脅威分析の精度を高くするために分類のステップ（アクション）をレビューする。

【0133】

開示される技術は、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトを含む文書ファイルを検出するためのシステムである。本システムは、一意のコードパターン及びデータ属性を記憶するヒューリスティックエンジンを含み、本明細書では、過去に分析された悪意のあるマクロ及び／又はＯＬＥオブジェクトで見つかった、過去の（既知の）悪意のあるコード、悪意のあるコンテンツ、悪意のあるソフトウェア及び／又はマルウェアを示すデータとも称される。一態様では、ヒューリスティックエンジンを使用して、特徴セットは、それらのマルウェア属性（特徴）を含むマクロ及び／又はＯＬＥオブジェクトを含む文書ファイルを検出するための機械学習モデルを訓練するために使用されるマルウェア属性から導出される。

【0134】

ヒューリスティックエンジンは、過去に分析された悪意のあるマクロ及び／又はＯＬＥオブジェクトのマルウェア属性を使用して、データモデルを作成するために機械学習エンジンを訓練するために、マクロ及び／又は埋め込みＯＬＥオブジェクトマルウェアを示す特徴を導出するように構成され、導出する。ヒューリスティックエンジンは、過去の悪意のあるマクロ及び／又はＯＬＥオブジェクトのコード及び挙動に基づいて、悪意のあるマクロ及び／又はＯＬＥオブジェクトから導出された指標を記憶する。本技術は、機械学習モデルを訓練するための既知の属性のリストから１つ以上、いくつかの実施形態では、少なくとも５つの特徴を使用する。これらの１つ以上の特徴のリストは、マクロマルウェア、特に難読化されたマルウェアを示す属性のリストから抽出される。開示される技術では、一態様では、システムは、悪意のあるマクロ及び／又は埋め込みＯＬＥオブジェクトを含む文書ファイル、過去に分析された悪意のあるマクロ及び／又はＯＬＥオブジェクトからのデータ及び属性を記憶するヒューリスティックエンジン、訓練された悪意のあるマクロ及び／又はＯＬＥオブジェクト検出モデルを含む機械学習エンジンを検出する。モデルは、ラベル付けされたデータを有する教師あり機械学習方法を使用して訓練されている。訓練データは、悪意のある又は悪意のないとラベル付けされた文書、ファイル、及び他のデータを含む。機械学習エンジンは、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクト並びに悪意のないマクロ及び／又は悪意のないＯＬＥオブジェクトの特性から導出された特徴によって訓練された教師あり機械学習モデルを含む。前述の悪意のあるＯＬＥオブジェクト及び／又は悪意のあるマクロは、本明細書では、悪意のあるコード、悪意のあるコンテンツ、悪意のあるソフトウェア及び／又はマルウェアとも総称される。

【0135】

別の実装形態では、ヒューリスティックエンジンを含む開示されるシステムは、訓練済み機械学習モデルと並行して動作する。複数の検出方法を連続して、又は並行して適用することによって、悪意のあるコードを含む文書を検出する可能性は増加される。ｏｆｆｉｃｅ分類子は、入力文書を脅威レベルとしてより正確に分類する可能性がより高くなり、悪意のあるコードを含む文書におけるマクロ及び／又はＯＬＥオブジェクトを検出する可能性を増加させる。

【0136】

開示される技術の別の態様では、ネットワークシステムにおける入力文書を分類して、該文書のうちの少なくとも１つが悪意のあるコードを有するマクロ及び／又はＯＬＥオブジェクトを含み得るかどうかを判定するためのシステムが提供される。本システムは、ネットワークと、ネットワークへの動作可能な通信におけるネットワークインターフェースと、を含む。開示される技術は、ネットワークセキュリティシステムと動作可能な通信を行うｏｆｆｉｃｅ分類子を含む。Ｏｆｆｉｃｅ分類子は、文書ファイル、特にＭＳＯｆｆｉｃｅ文書ファイルである文書ファイルを受信及び処理するための入力手段を有する。開示されるシステムは、ヒューリスティック特徴生成エンジンを更に含む。ヒューリスティック特徴生成エンジンは、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトの存在を予測するために選択された、悪意のあるマクロコード属性及び／又は悪意のあるＯＬＥオブジェクトコード属性のリストを使用する。ヒューリスティックエンジンは、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトの存在を予測するために、教師あり機械学習モデルを訓練するために使用される特徴リストを導出するように構成され、かつそれを導出する。

【0137】

開示される技術の更なる態様では、ｏｆｆｉｃｅ分類子は、機械学習モデルを各入力文書に適用して、入力文書が悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトコードを含み得るレベル確率を判定する。この分析に基づいて、各入力文書は、安全、悪意のある、又は疑わしいものとして分類される。安全と分類された文書ファイルは、ネットワークに許可され、悪意のあると分類された文書ファイルは、恒久的にブロックされ、疑わしいと分類された文書ファイルは、脅威分析される。疑わしいファイルの脅威の分析は、悪意のあるコードが安全に分析され得る、サンドボックスなどの仮想環境への隔離及び転送を含み得る。

【0138】

一態様では、開示される技術は、訓練済み機械学習モデルを使用して、難読化された悪意のあるコードを検出し、既知の署名のない、埋め込まれた悪意のあるコードを有する文書を予測する。別の態様では、開示される技術は、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトの署名なしベースの分析と組み合わされることができる。

【0139】

別の態様では、ネットワークシステムへの入力文書を分類して、該文書のうちの少なくとも１つが悪意のあるコードを有するマクロ及び／又はＯＬＥオブジェクトを含むかどうかを判定するための方法が開示される。別の態様では、入力文書をネットワークシステムに分類して、該文書のうちの少なくとも１つが悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトを含むかどうかを判定するための方法が開示される。マクロ及び／又はＯＬＥオブジェクトは、通常、ユーザによって観察されることはなく、ＭＳＯｆｆｉｃｅ文書を含む文書を感染させるための魅力的な伝達手段となる。開示される技術は、付属された企業ネットワークのネットワークセキュリティシステム内にｏｆｆｉｃｅ文書を受信するステップ（アクション）を含む、ネットワークシステムにおいて入力文書を分類するために使用され得る。文書ファイルは、それが分析され得るように、悪意のあるペイロードデータからメタデータを分離するために解析される。特徴量エンジニアリングは、歴史的に悪意のあるコンテンツを示したファイルが有する既知の特性及び属性のリストから選択された特徴に基づいて、悪意のあるマクロ及び／又は悪意のあるＯＬＥオブジェクトを検出するための特徴のセットを定義するために使用されている。選択された特徴は、ラベル付けされたデータに基づいたモデルである教師あり機械学習モデルを訓練するために使用される。

【0140】

別の態様では、ｏｆｆｉｃｅ分類子は、ネットワークを介して着信文書を受信し、それらの文書を分解し、機械学習アルゴリズムを適用して、文書を脅威レベルとして、安全、疑わしい、又は悪意のあるものとして分類する。安全な文書は、ネットワーク内に許可される。疑わしい文書は、隔離又はサンドボックス化方法を含む追加の処理の対象となる。悪意のある文書は、ネットワークからブロックされる。

【0141】

更なる態様では、開示される技術は、悪意のあるマクロ及び／又は悪意のあるＯＬＥファイルを検出するネットワークセキュリティシステムの能力を更に増加させるために、機械学習を他のネットワークセキュリティ方法と組み合わせることが見出されている。

【0142】

前述の説明は、開示される技術の作製及び使用を可能にするために提示される。開示される実装形態に対する種々の修正が明らかになり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実装形態及び適用例に適用され得る。したがって、開示される技術は、示される実装形態に限定されるように意図されておらず、本明細書で開示される原理及び特徴と一致する最も広い範囲を与えられるべきである。開示される技術の範囲は、添付の特許請求の範囲によって定義される。

【0143】

[条項]
以下の条項を開示する。
[条項セット１]
１．ネットワーク化されたシステムにおける入力文書を分類して、該文書のうちの少なくとも１つが悪意のあるコードを有するマクロを含み得るかどうかを判定するための方法であって、
文書ファイルをネットワークセキュリティシステムに繰り返し受信するアクション、
文書ファイルを解析してマクロデータを文書ペイロードデータから分離するアクション、
文書ファイルについて、既知の難読化方法を使用してマクロに埋め込まれたマルウェアの過去のインスタンスを示す少なくとも難読化特徴を生成するアクション、
訓練済み機械学習モデルに難読化特徴を入力し、訓練済み機械学習モデルを適用して文書ファイルを処理し、悪意のあるマクロの存在を予測するアクション、
マルウェア検出の精度を高くし、誤検出を排除するために並行して動作する二次マルウェア検出エンジンを使用するアクション、
結果として生じる文書を、安全、疑わしい、又は悪意のあるものとして分類するアクション、及び
分類するアクションに基づいて、安全な文書をネットワーク化されたシステムに受け入れ、悪意のある文書を悪意のあるものとしてブロックし、脅威分析のために疑わしい文書を隔離するアクションを含む、方法。
２．難読化特徴は、埋め込みＶＢＡマクロ特徴を説明する以下の特徴、
ｍａｃｒｏ＿ｉｓ＿ｐｒｅｓｅｎｔ、
ｍａｃｒｏ＿ａｕｔｏｅｘｅｃ、
ｍａｃｒｏ＿ｅｘｅｃｕｔｅ、
ｍａｃｒｏ＿ｅｘｅｃｕｔｅ＿ｐｏｗｅｒｓｈｅｌｌ、
ｍａｃｒｏ＿ｗｒｉｔｅ、
ｍａｃｒｏ＿ｈａｓ＿ｉｎｔｅｒｎｅｔ＿ｄｏｗｎｌｏａｄ、
ｍａｃｒｏ＿ｈａｓ＿ｒｅｇｉｓｔｒｙ＿ａｃｃｅｓｓ、
ｍａｃｒｏ＿ｃｏｍｍｅｎｔ＿ｌｉｎｅｓ、
ｍａｃｒｏ＿ｃｏｄｅ＿ｌｉｎｅｓ、
ｍａｃｒｏ＿ｈａｓ＿ｈｅｘ＿ｓｔｒ、
ｍａｃｒｏ＿ｏｌｅｓｔｒｅａｍ＿ｃｏｕｎｔ、
ｍａｃｒｏ＿ｏｌｅ＿ｐａｓｓｃｏｄｅ、
ｍａｃｒｏ＿ｄｅｔｅｃｔ＿ｓａｎｄｂｏｘ、
ｍａｃｒｏ＿ｄｅｔｅｃｔ＿ｖｉｒｔｕａｌｉｚａｔｉｏｎ、
ｍａｃｒｏ＿ｒｕｎ＿ｓｈｅｌｌｃｏｄｅｉｎｍｅｍｏｒｙ、
ｍａｃｒｏ＿ｄｉｓａｂｌｅ＿ｓｅｃｕｒｉｔｙ、
ｍａｃｒｏ＿ｓｅｌｆ＿ｍｏｄｉｆｉｃａｔｉｏｎ、
ｍａｃｒｏ＿ｎｕｍ＿ｓｔｒｉｎｇｏｐｓ、
ｍａｃｒｏ＿ｎｕｍ＿ｔｅｘｔｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ａｒｉｔｈｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ｔｙｐｅｃｏｎｖｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ｆｉｎｃｆｕｎｃ、及び
ｍａｃｒｏ＿ｓｈａｎｎｏｎ＿ｅｎｔｒｏｐｙ、のうちの少なくとも５つを含む、条項１に記載の方法。
３．文書ファイルは、ＭＳＯｆｆｉｃｅ文書である、条項１に記載の方法。
４．文書ファイルは、Ｗｏｒｄ文書、Ｅｘｃｅｌ文書、又はＰｏｗｅｒＰｏｉｎｔ文書のうちの１つである、条項３に記載の方法。
５．難読化特徴は、以下のＶＢＡマクロ特徴、
ｃｒｅａｔｅｏｂｊｅｃｔ、
ｓｈｅｌｌ、
ｆｉｌｅｓｙｓｔｅｍ、
ｕｒｌｄｏｗｎｌｏａｄｔｏｆｉｌｅ、
ｃａｌｌｂｙｎａｍｅ、及び
ｄｅｔｅｃｔｓａｎｄｂｏｘ、のうちの少なくとも２つを含むマクロ関連特徴である、条項３に記載の方法。
６．以下の文書特徴、
文書サイズ、
作成者情報、
文書のタイプ（Ｗｏｒｄ／Ｅｘｃｅｌ／ＰＰＴ）、
作成又は変更時刻及び改訂番号、
ページ数、
段落の数、
行数、及び
文字数、から導出された少なくとも２つの特徴を訓練済み機械学習モデルに入力することを更に含む、条項３に記載の方法。
７．マルウェア検出の精度を高くし、誤検出を排除するために並行して動作する二次マルウェア検出エンジンを使用するステップを更に含む、条項１に記載の方法。
８．脅威分析は、サンドボックスにおける文書ファイルを分離し、サンドボックスを使用して疑わしい文書における１つ以上のマクロをテストすることを含む、条項１に記載の方法。
９．悪意のあるマクロは、既知の悪意のあるデータ署名を含まない、条項１に記載の方法。
１０．機械学習モデルは、特徴量エンジニアリングを通じた機械学習によって訓練された教師あり機械学習モデルであり、選択された特徴は、文書ファイルの大規模なサンプリングから導出されており、いくつかのサンプリングされた文書ファイルは、１つ以上の悪意のあるマクロを含み、いくつかのサンプリングされた文書ファイルは、少なくとも１つの悪意のないマクロを含む、条項１に記載の方法。
１１．サンプル文書ファイルは、ＭＳＯｆｆｉｃｅファイルである、条項１０に記載の方法。
１２．ネットワークアナリストは、脅威分析の精度を高くするために分類するアクションをレビューする、条項１に記載の方法。
１３．悪意のあるマクロを含む文書ファイルを検出するためのシステムであって、
既知の悪意のあるマクロを示すデータが記憶される、ヒューリスティックエンジンと、
悪意のあるマクロ及び悪意のないマクロの特性から導出された特徴によって訓練された教師あり機械学習モデルを含む機械学習エンジンと、を備える、システム。
１４．ヒューリスティックエンジンは、訓練済み機械学習モデルと並行して動作して、悪意のあるコードを含む文書における悪意のあるマクロの存在を予測し、ｏｆｆｉｃｅ分類子が該悪意のあるコードと関連付けられた脅威レベルに従って文書を分類する、条項１３に記載のシステム。
１５．ネットワーク化されたシステムにおける入力文書を分類して、該文書のうちの少なくとも１つが悪意のあるコードを有するマクロを含み得るかどうかを判定するためのシステムであって、
ネットワークと、
ネットワークに結合されたネットワークインターフェースと、
ネットワークと動作可能に通信するネットワークセキュリティシステムと、
ネットワークセキュリティシステムと動作可能に通信するｏｆｆｉｃｅ分類子であって、
ＭＳＯｆｆｉｃｅ文書を受信及び処理するための入力手段と、ヒューリスティック特徴生成エンジンと、
悪意のあるマクロの存在を予測するために選択された特徴を有する機械学習方法によって訓練された教師あり機械学習モデルと、を備える、ｏｆｆｉｃｅ分類子と、を備える、システム。
１６．ｏｆｆｉｃｅ分類子は、文書ファイルを悪意のあるものとして分類する、条項１５に記載のシステム。
１７．ファイルは、安全、悪意のある、又は疑わしいものとして分類される、条項１６に記載のシステム。
１８．安全と分類された文書ファイルは、ネットワークに許可され、悪意のあるものとして分類された文書は、恒久的にブロックされ、疑わしいものとして分類されたファイルは、脅威分析される、条項１７に記載のシステム。
１９．悪意のあるコードでサンドボックス内に隔離及び転送することによって脅威分析の疑わしいものと分類されたファイルは、安全に分析され得る、条項１８に記載のシステム。
２０．ｏｆｆｉｃｅ分類子は、文書ファイルを悪意として分類する、条項１に記載の方法。
[条項セット２]
１．ネットワーク化されたシステムにおける入力文書を分類して、該文書のうちの少なくとも１つが悪意のあるコードを有するＯｂｊｅｃｔＬｉｎｋｉｎｇ＆Ｅｍｂｅｄｄｉｎｇ（オブジェクトリンク及び埋め込み、ＯＬＥ）を含み得るかどうかを判定するための方法であって、
文書ファイルをネットワークセキュリティシステムに受信するアクション、
文書ファイルを解析して、入力文書における悪意のあるペイロードデータからメタデータを分離するアクション、
ヒューリスティックエンジンを使用して、既知の難読化方法を使用してＯＬＥオブジェクトに埋め込まれているマルウェアの過去のインスタンスを示すデータを提供するアクション、
文書ファイルが悪意のあるＯＬＥオブジェクトを含むかどうかを予測するために深層学習（ＤＬ）方法を使用することによって、機械学習アルゴリズムモデルを訓練するためにヒューリスティックエンジンによって提供されたデータから特徴セットを導出するアクション、
訓練済み機械学習モデルを使用して、文書ファイルを処理して、文書ファイルが悪意のあるＯＬＥオブジェクトを含む可能性を判定するアクション、
結果として生じる文書を、安全、疑わしい、又は悪意のあるものとして分類するアクション、及び、
分類するアクションに基づいて、安全な文書をネットワーク化されたシステムに受け入れ、悪意のある文書を悪意のあるものとしてブロックし、脅威分析のために疑わしい文書を隔離するアクションを含む、方法。
２．ＯＬＥファイルから抽出された特徴セットは、以下の、
ｅｍｂｅｄ＿ｎｏｎｅ
ｅｍｂｅｄ＿ｈａｓ＿ｃｏｒｒｕｐｔ
ｅｍｂｅｄ＿ｈａｓ＿ｐａｓｓｗｏｒｄ＿ｐｒｏｔｅｃｔｅｄ
ｅｍｂｅｄ＿ｈａｓ＿ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎ
ｅｍｂｅｄ＿ｈａｓ＿ｓｅｍｉ＿ｓｕｓｐｉｃｉｏｕｓ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｎｏｒｍａｌ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｏｔｈｅｒ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｃｏｍｐｒｅｓｓｅｄ＿ｆｉｌｅ
ｅｍｂｅｄ＿ｈａｓ＿ｎｏｎ＿ｅｘｔ
ｅｍｂｅｄ＿ｒｕｌｅ１
ｅｍｂｅｄ＿ｈａｓ＿ｓｕｓｐｉｃｉｏｕｓ＿ｂｉｎ＝ｔｒｕｅ、及び
ｅｍｂｅｄ＿ｈａｓ＿ｏｔｈｅｒ＿ｆｉｌｅ＝ｔｒｕｅ、のうちの少なくとも１つを含む、条項１に記載の方法。
３．悪意のあるＯＬＥオブジェクトは、既知の悪意のあるデータ署名を含まない、条項１に記載の方法。
４．文書ファイルは、ワードプロセッシング文書である、条項１に記載の方法。
５．文書ファイルは、ワードプロセッシング文書、スプレッドシート文書、又はプレゼンテーション文書のうちの１つである、条項４に記載の方法。
６．特徴セットは、以下のＶｉｓｕａｌＢａｓｉｃＦｏｒＡｐｐｌｉｃａｔｉｏｎｓ（ビジュアルベーシック・フォー・アプリケーションズ、ＶＢＡ）ＯＬＥオブジェクト特徴、
ｃｒｅａｔｅｏｂｊｅｃｔ、
ｓｈｅｌｌ、
ｆｉｌｅｓｙｓｔｅｍ、
ｕｒｌｄｏｗｎｌｏａｄｔｏｆｉｌｅ、
ｃａｌｌｂｙｎａｍｅ、及び
ｄｅｔｅｃｔｓａｎｄｂｏｘ、のうちの少なくとも１つを含むＯＬＥオブジェクト関連特徴である、条項４に記載の方法。
７．特徴セットは、以下の特徴、
ｄｏｃ＿ｎｕｍ＿ｐａｇｅｓ
ｄｏｃ＿ｎｕｍ＿ｗｏｒｄｓ
ｄｏｃ＿ｎｕｍ＿ｌｉｎｅｓ
ｄｏｃ＿ｎｕｍ＿ｃｈａｒｓ
ｄｏｃ＿ｎｕｍ＿ｐａｒａｇｒａｐｈ
ｄｏｃ＿ｌａｓｔｍｏｄ＿ｔｉｍｅ
ｄｏｃ＿ａｕｔｈｏｒ＿ｉｎｆｏ
ｄｏｃ＿ｒｅｖｉｓｉｏｎ＿ｎｕｍｂｅｒ
ｄｏｃ＿ｌａｓｔｐｒｉｎｔ＿ｔｉｍｅ
ｄｏｃ＿ｌｉｎｋ－ｉｓｄｉｒｔｙ
ｄｏｃ＿ｌａｎｇｕａｇｅ
ｄｏｃ＿ｓｉｚｅのうちの１つ以上を含む、条項４に記載の方法。
８．特徴セットは、文書タイプを含む、条項１に記載の方法。
９．脅威分析は、サンドボックスにおけるネットワークシステムから文書ファイルを隔離することを含む、条項１に記載の方法。
１０．隔離された文書ファイルは、悪意のあるコードについてテストされる、条項９に記載の方法。
１１．機械学習モデルは、特徴量エンジニアリングを通じた機械学習によって訓練された教師あり機械学習モデルであり、特徴セットは、１つ以上の悪意のあるＯＬＥオブジェクトを有するいくつかの文書ファイル及び１つ以上の悪意のないＯＬＥオブジェクトを有するいくつかの文書ファイルを含む、文書ファイルの大規模なサンプリングから導出される、条項１に記載の方法。
１２．文書ファイルのサンプリングは、ワードプロセッシング文書、スプレッドシート文書、及びプレゼンテーション文書である、条項１１に記載の方法。
１３．悪意のあるＯＬＥオブジェクトの検出動作の精度を高くし、誤検出を排除するために並行して動作する二次マルウェア検出エンジンを使用するアクションを更に含む、条項１に記載の方法。
１４．ネットワークアナリストは、脅威分析の精度を高くするために分類するアクションをレビューする、条項１に記載の方法。
１５．ネットワークセキュリティシステムであって、
ネットワークに結合されたネットワークインターフェースと、
複数のシステムコンポーネントであって、
該ネットワークインターフェースを介して、ＯｂｊｅｃｔＬｉｎｋｉｎｇａｎｄＥｍｂｅｄｄｅｄ（ＯＬＥ）オブジェクトを含む文書ファイルを受信するアクションと、
該文書ファイルを解析して、該ＯＬＥオブジェクト内に含まれる埋め込みデータを該文書ファイル内に含まれる他のペイロードデータから分離するアクションと、
該文書ファイルを処理して、該文書ファイルが該ＯＬＥオブジェクト内で難読化されている悪意のあるコードを含むかどうかの可能性を判定するアクションとのために構成されている、複数のシステムコンポーネントと、を含み、
該処理することは、該文書ファイルから、該ＯＬＥオブジェクト内で難読化される悪意のあるコードのインスタンスを示す難読化スコアリング特徴を抽出することを含み、
該処理することは、該難読化スコアリング特徴を訓練済み機械学習モデルに入力して、該文書ファイルが該ＯＬＥオブジェクト内で難読化されている悪意のあるコードを含むかどうかの該可能性を判定することを更に含む、システム。
１６．該難読化スコアリング特徴は、データベースに記憶される、条項１５に記載のシステム。
１７．ネットワーク化されたシステムにおける入力文書を分類して、該文書のうちの少なくとも１つが悪意のあるコードを有するＯｂｊｅｃｔＬｉｎｋｉｎｇ＆Ｅｍｂｅｄｄｉｎｇ（ＯＬＥ）を含み得るかどうかを判定するためのシステムであって、
ネットワークと、
ネットワークに結合されたネットワークインターフェースと、
ネットワークと動作可能に通信するネットワークセキュリティシステムと、
ネットワークセキュリティシステムと動作可能に通信するｏｆｆｉｃｅ分類子と、を備え、
ｏｆｆｉｃｅ分類子は、
ワードプロセッシング文書、スプレッドシート文書、及びプレゼンテーション文書を受信及び処理するための入力手段と、
ヒューリスティック特徴生成エンジンと、
難読化された悪意のあるＯＬＥオブジェクトを有する入力文書を検出するために選択された特徴を使用して、深層学習方法によって訓練された教師あり機械学習モデルと、を備える、システム。
１８．ｏｆｆｉｃｅ分類子は、文書ファイルを悪意のあるものとして分類する、条項１７に記載のシステム。
１９．ファイルは、安全、悪意のある、又は疑わしいものとして分類される、条項１８に記載のシステム。
２０．安全と分類された文書ファイルは、ネットワークに許可され、悪意のあるものとして分類された文書は、恒久的にブロックされ、疑わしいものとして分類されたファイルは、脅威分析される、条項１９に記載のシステム。
２１．疑わしいと分類されたファイルは、悪意のあるコードが安全に分析され得るサンドボックス内にファイルを隔離及び転送することによって脅威分析されている、条項２０に記載のシステム。
[条項セット３]
１．文書ファイル内に埋め込まれた悪意のあるコードの存在の検出を提供するためのシステムであって、システムは、
複数のシステムコンポーネントであって、
１つ以上の埋め込みアイテムを含む文書ファイルを受信するアクションと、
該文書ファイルを解析して、該埋め込みアイテムのうちの少なくとも１つを抽出するアクションと、
該文書ファイルを処理して、該埋め込みアイテムのうちの該少なくとも１つが悪意のあるコードを含むかどうかの可能性を判定するアクションを実行するように構成されている、複数のシステムコンポーネント、を含み、
該処理することは、該埋め込みアイテムのうちの該少なくとも１つから、
該埋め込みアイテムのうちの該少なくとも１つ内で難読化されている悪意のあるコードの既知のインスタンスを示す難読化スコアリング特徴を抽出することを含み、
該処理することは、該難読化スコアリング特徴を訓練済み機械学習モデルに入力して、
該文書ファイル内の該埋め込みアイテムのうちの該少なくとも１つが悪意のあるコードを含むかどうかの該可能性を判定することを更に含む、システム。
２．該システムは、
ネットワークに結合されているネットワークインターフェースを更に含み、該受信するアクションは、該ネットワークインターフェースを介して発生する、条項１に記載のシステム。
３．該文書ファイルは、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ文書である、条項１に記載のシステム。
４．該文書ファイルは、ＭｉｃｒｏｓｏｆｔＷｏｒｄ文書、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ文書、又はＭｉｃｒｏｓｏｆｔＰｏｗｅｒＰｏｉｎｔ文書のうちの１つである、条項１に記載のシステム。
５．該文書ファイルは、ワードプロセッシング文書、スプレッドシート文書、又はプレゼンテーション文書のうちの１つである、条項１に記載のシステム。
６．該埋め込みアイテムは、１つ以上のマクロ及び／又は１つ以上のＯＬＥオブジェクトのうちの少なくとも１つを含む、条項１に記載のシステム。
７．該マクロは、ＶＢＡマクロを含む、条項６に記載のシステム。
８．該難読化スコアリング特徴は、マクロ関連特徴を含み、該特徴は、ＣｒｅａｔｅＯｂｊｅｃｔ、Ｓｈｅｌｌ、ＦｉｌｅＳｙｓｔｅｍ、ＵＲＬＤｏｗｎｌｏａｄＴｏＦｉｌｅ、ＣａｌｌＢｙＮａｍｅ、又はＤｅｔｅｃｔＳａｎｄｂｏｘのうちの少なくとも１つの使用を含む、条項１に記載のシステム。
９．該難読化スコアリング特徴は、オブジェクト関連特徴を含み、該オブジェクト関連特徴は、以下のＶｉｓｕａｌＢａｓｉｃＦｏｒＡｐｐｌｉｃａｔｉｏｎｓ（ＶＢＡ）ＯｂｊｅｃｔＬｉｎｋｉｎｇａｎｄＥｍｂｅｄｄｉｎｇ（ＯＬＥ）特徴のうちの少なくとも１つの使用を含み、該特徴は、Ｓｈｅｌｌ、ＦｉｌｅＳｙｓｔｅｍ、ＵＲＬＤｏｗｎｌｏａｄＴｏＦｉｌｅ、ＣａｌｌＢｙＮａｍｅ、又はＤｅｔｅｃｔＳａｎｄｂｏｘのうちの少なくとも１つの使用を含む、条項１に記載のシステム。
１０．文書ファイル内の悪意のあるコードについて、該文書ファイルをサンドボックス内に隔離しながら、テストすることを更に含む、条項１に記載のシステム。
１１．文書ファイル内に埋め込まれた悪意のあるコードの存在の検出を提供するための方法であって、
１つ以上の埋め込みアイテムを含む文書ファイルを受信するアクションと、
該文書ファイルを解析して、該埋め込みアイテムのうちの少なくとも１つを抽出するアクションと、
該文書ファイルを処理して、該埋め込みアイテムのうちの該少なくとも１つが悪意のあるコードを含むかどうかの可能性を判定するアクションを含み、
該処理することは、該埋め込みアイテムのうちの該少なくとも１つから、
該埋め込みアイテムのうちの該少なくとも１つ内で難読化されている悪意のあるコードの既知のインスタンスを示す難読化スコアリング特徴を抽出することを含み、
該処理することは、該難読化スコアリング特徴を訓練済み機械学習モデルに入力して、
該文書ファイル内の該埋め込みアイテムのうちの該少なくとも１つが悪意のあるコードを含むかどうかの該可能性を判定することを更に含む、方法。
１２．ネットワークインターフェースがネットワークに接続されており、該受信することは、該ネットワークインターフェースを介して発生する、条項１１に記載の方法。
１３．該文書ファイルは、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ文書である、条項１１に記載の方法。
１４．該文書ファイルは、ＭｉｃｒｏｓｏｆｔＷｏｒｄ文書、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ文書、又はＭｉｃｒｏｓｏｆｔＰｏｗｅｒＰｏｉｎｔ文書のうちの１つである、条項１１に記載の方法。
１５．該文書ファイルは、ワードプロセッシング文書、スプレッドシート文書、又はプレゼンテーション文書のうちの１つである、条項１１に記載の方法。
１６．該埋め込みアイテムは、１つ以上のマクロ及び／又は１つ以上のＯＬＥオブジェクトのうちの少なくとも１つを含む、条項１１に記載の方法。
１７．該マクロは、ＶＢＡマクロを含む、条項１６に記載の方法。
１８．該難読化スコアリング特徴は、マクロ関連特徴を含み、該特徴は、ＣｒｅａｔｅＯｂｊｅｃｔ、Ｓｈｅｌｌ、ＦｉｌｅＳｙｓｔｅｍ、ＵＲＬＤｏｗｎｌｏａｄＴｏＦｉｌｅ、ＣａｌｌＢｙＮａｍｅ、又はＤｅｔｅｃｔＳａｎｄｂｏｘのうちの少なくとも１つの使用を含む、条項１１に記載の方法。
１９．該難読化スコアリング特徴は、オブジェクト関連特徴を含み、該オブジェクト関連特徴は、以下のＶｉｓｕａｌＢａｓｉｃＦｏｒＡｐｐｌｉｃａｔｉｏｎｓ（ＶＢＡ）ＯｂｊｅｃｔＬｉｎｋｉｎｇａｎｄＥｍｂｅｄｄｉｎｇ（ＯＬＥ）特徴のうちの少なくとも１つの使用を含み、該特徴は、Ｓｈｅｌｌ、ＦｉｌｅＳｙｓｔｅｍ、ＵＲＬＤｏｗｎｌｏａｄＴｏＦｉｌｅ、ＣａｌｌＢｙＮａｍｅ、又はＤｅｔｅｃｔＳａｎｄｂｏｘのうちの少なくとも１つの使用を含む、条項１１に記載の方法。
２０．文書ファイル内の悪意のあるコードについて、該文書ファイルをサンドボックス内に隔離しながら、テストすることを更に含む、条項１１に記載の方法。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2023-09-27

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

ネットワーク化されたシステムにおける入力文書を分類して、前記文書のうちの少なくとも１つが悪意のあるコードを有するマクロを含み得るかどうかを判定するための方法であって、
文書ファイルをネットワークセキュリティシステムに繰り返し受信するステップ、
前記文書ファイルを解析してマクロデータを文書ペイロードデータから分離するステップ、
前記文書ファイルについて、既知の難読化方法を使用してマクロに埋め込まれたマルウェアの過去のインスタンスを示す少なくとも難読化特徴を生成するステップ、
訓練済み機械学習モデルに前記難読化特徴を入力し、前記訓練済み機械学習モデルを適用して前記文書ファイルを処理し、悪意のあるマクロの存在を予測するステップ、
マルウェア検出の精度を高くし、誤検出を排除するために並行して動作する二次マルウェア検出エンジンを使用するステップ、
結果として生じる文書を、安全、疑わしい、又は悪意のあるものとして分類するステップ、及び
前記分類するステップに基づいて、安全な文書を前記ネットワーク化されたシステムに受け入れ、悪意のある文書を悪意のあるものとしてブロックし、脅威分析のために疑わしい文書を隔離するステップを含む、方法。

【請求項2】

前記難読化特徴は、埋め込みＶＢＡマクロ特徴を説明する以下の特徴、
ｍａｃｒｏ＿ｉｓ＿ｐｒｅｓｅｎｔ、
ｍａｃｒｏ＿ａｕｔｏｅｘｅｃ、
ｍａｃｒｏ＿ｅｘｅｃｕｔｅ、
ｍａｃｒｏ＿ｅｘｅｃｕｔｅ＿ｐｏｗｅｒｓｈｅｌｌ、
ｍａｃｒｏ＿ｗｒｉｔｅ、
ｍａｃｒｏ＿ｈａｓ＿ｉｎｔｅｒｎｅｔ＿ｄｏｗｎｌｏａｄ、
ｍａｃｒｏ＿ｈａｓ＿ｒｅｇｉｓｔｒｙ＿ａｃｃｅｓｓ、
ｍａｃｒｏ＿ｃｏｍｍｅｎｔ＿ｌｉｎｅｓ、
ｍａｃｒｏ＿ｃｏｄｅ＿ｌｉｎｅｓ、
ｍａｃｒｏ＿ｈａｓ＿ｈｅｘ＿ｓｔｒ、
ｍａｃｒｏ＿ｏｌｅｓｔｒｅａｍ＿ｃｏｕｎｔ、
ｍａｃｒｏ＿ｏｌｅ＿ｐａｓｓｃｏｄｅ、
ｍａｃｒｏ＿ｄｅｔｅｃｔ＿ｓａｎｄｂｏｘ、
ｍａｃｒｏ＿ｄｅｔｅｃｔ＿ｖｉｒｔｕａｌｉｚａｔｉｏｎ、
ｍａｃｒｏ＿ｒｕｎ＿ｓｈｅｌｌｃｏｄｅｉｎｍｅｍｏｒｙ、
ｍａｃｒｏ＿ｄｉｓａｂｌｅ＿ｓｅｃｕｒｉｔｙ、
ｍａｃｒｏ＿ｓｅｌｆ＿ｍｏｄｉｆｉｃａｔｉｏｎ、
ｍａｃｒｏ＿ｎｕｍ＿ｓｔｒｉｎｇｏｐｓ、
ｍａｃｒｏ＿ｎｕｍ＿ｔｅｘｔｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ａｒｉｔｈｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ｔｙｐｅｃｏｎｖｆｕｎｃ、
ｍａｃｒｏ＿ｎｕｍ＿ｆｉｎｃｆｕｎｃ、及び
ｍａｃｒｏ＿ｓｈａｎｎｏｎ＿ｅｎｔｒｏｐｙ、のうちの少なくとも５つを含む、請求項１に記載の方法。

【請求項3】

前記文書ファイルは、ＭＳＯｆｆｉｃｅ文書である、請求項１に記載の方法。

【請求項4】

前記文書ファイルは、Ｗｏｒｄ文書、Ｅｘｃｅｌ文書、又はＰｏｗｅｒＰｏｉｎｔ文書のうちの１つである、請求項３に記載の方法。

【請求項5】

前記難読化特徴は、以下のＶＢＡマクロ特徴、
ｃｒｅａｔｅｏｂｊｅｃｔ、
ｓｈｅｌｌ、
ｆｉｌｅｓｙｓｔｅｍ、
ｕｒｌｄｏｗｎｌｏａｄｔｏｆｉｌｅ、
ｃａｌｌｂｙｎａｍｅ、及び
ｄｅｔｅｃｔｓａｎｄｂｏｘ、のうちの少なくとも２つを含むマクロ関連特徴である、請求項３に記載の方法。

【請求項6】

以下の文書特徴、
文書サイズ、
作成者情報、
文書のタイプ（Ｗｏｒｄ／Ｅｘｃｅｌ／ＰＰＴ）、
作成又は変更時刻及び改訂番号、
ページ数、
段落の数、
行数、及び
文字数、から導出された少なくとも２つの特徴を前記訓練済み機械学習モデルに入力することを更に含む、請求項３に記載の方法。

【請求項7】

前記脅威分析は、サンドボックスにおける前記文書ファイルを分離し、前記サンドボックスを使用して前記疑わしい文書における１つ以上のマクロをテストすることを含む、請求項１に記載の方法。

【請求項8】

前記悪意のあるマクロは、既知の悪意のあるデータ署名を含まない、請求項１に記載の方法。

【請求項9】

前記機械学習モデルは、特徴量エンジニアリングを通じた機械学習によって訓練された教師あり機械学習モデルであり、選択された特徴は、文書ファイルの大規模なサンプリングから導出されており、いくつかのサンプリングされた文書ファイルは、１つ以上の悪意のあるマクロを含み、いくつかのサンプリングされた文書ファイルは、少なくとも１つの悪意のないマクロを含む、請求項１に記載の方法。

【請求項10】

前記サンプル文書ファイルは、ＭＳＯｆｆｉｃｅファイルである、請求項９に記載の方法。

【請求項11】

ネットワークアナリストが、前記脅威分析の精度を高くするために前記分類するステップをレビューする、請求項１に記載の方法。

【請求項12】

ｏｆｆｉｃｅ分類子が、文書ファイルを悪意として分類する、請求項１に記載の方法。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版