【文献】
Muazzam Siddiqui,DATA MINING METHODS FOR MALWARE DETECTION USING INSTRUCTION SEQUENCES,AIA '08: Proceedings of the 26th IASTED International Conference on Artificial Intelligence and Applications,2008年01月,pp.358-363
【文献】
Ruben Santamarta,GENERIC DETECTION AND CLASSIFICATION OF POLYMORPHIC MALWARE USING NEURAL PATTERN RECOGNITION,WWW.REVERSEMODE.COM,2006年
(58)【調査した分野】(Int.Cl.,DB名)
少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されると動作を提供するプログラムコードを含む少なくとも1つのメモリとを含むシステムであって、
前記動作は、
複数の命令を含む逆アセンブルされたバイナリファイルを受信し、
命令のシーケンスを検出するように適合された第1の複数のカーネルを適用することによって、複数の命令のうちの1つまたは複数の命令のシーケンスの存在を検出し(i)、1つまたは複数の命令のシーケンスの存在に少なくとも部分的に基づいて、逆アセンブルされたバイナリファイルの分類を決定する(ii)ように構成されたトレーニングされた畳み込みニューラルネットワークを用いて、逆アセンブルされたバイナリファイルを処理し、
逆アセンブルされたバイナリファイルの分類を、出力として提供し、逆アセンブルされたバイナリファイルに対応するバイナリファイルを実行、開く、またはアクセスするかどうかを決定することと含み、
前記畳み込みネットワークは、命令の固定長表現を有する複数のトレーニングファイルを使用してトレーニングされ、命令の固定長表現は、そのような命令の抽象的な表現を生成するように適合された複数のカーネルに適用され、カーネルのいくつかは、命令の特定のシーケンスを検出するようにされ、一方、他のカーネルのその後の適用は、特定の順序で現れる命令の特定のシーケンスが存在するインスタンスを検出するように構成される、システム。
前記システムは、前記複数の命令のそれぞれを同じ長さに切り捨てるまたはパディングすることによって、前記複数の命令の固定長表現を生成するようにさらに構成される請求項1または2のシステム。
前記方法は、前記複数の命令のそれぞれを同じ長さに切り捨てるまたはパディングすることによって、前記複数の命令の固定長表現を生成するステップをさらに含む請求項9または10の方法。
前記非一時的なコンピュータ可読媒体は、前記複数の命令のそれぞれを同じ長さに切り捨てるまたはパディングすることによって、前記複数の命令の固定長表現を生成するステップをさらに含む請求項17または18の非一時的なコンピュータ可読媒体。
【発明を実施するための形態】
【0012】
上記のように、悪意のある実行可能ファイルは、バイナリファイルの検査と解析に関連する困難のために検出を回避する傾向がある。したがって、現在の主題のいくつかの実施形態では、バイナリファイルを逆アセンブルし、それによって、1つまたは複数の識別機能(例えば、命令ニーモニック)を有する識別可能な命令シーケンスを形成することができる。畳み込みニューラルネットワーク(CNN)は、逆アセンブルされたバイナリファイルを解析するために利用され、逆アセンブルされたバイナリファイル内の命令の特定のシーケンスを検出するように適合された複数のカーネルを適用することを含む。 畳み込みニューラルネットワークは、逆アセンブルされたバイナリファイルの分類を(例えば、悪意のあるまたは良性のものとして)提供することによって悪意のある実行可能ファイルを検出することができる。
【0013】
逆アセンブルされたバイナリファイルの命令は、可変長にすることができる。例えば、x86アーキテクチャで使用される命令は、一般に長さが8バイト未満であるが、15バイトもの長さにすることができる。現在の主題のいくつかの実施形態では、可変長命令について固定長表現を生成することができる。例えば、可変長命令をある固定長(例えば、2バイト、8バイト、15バイト)にパディングまたは切り詰めることによって、固定長表現を生成することができる。さらに、命令の固定長表現は、畳み込みニューラルネットワークによるより効率的な処理のためにさらに符号化することができる。例えば、固定長表現は、スパース(例えば、ワンホット符号化)または密(例えば、バイナリ符号化)符号化方式を用いて符号化することができる。
【0014】
現在の主題のいくつかの実施形態では、畳み込みニューラルネットワークは、1つまたは複数の監視学習および/または最適化技術を適用することによってマルウェアを検出するようにトレーニングすることができる。例えば、畳み込みニューラルネットワークをトレーニングすることは、畳み込みニューラルネットワークを利用して複数のトレーニングファイルを処理することを含むことができる。トレーニングファイルは、既知の分類(例えば、悪意のあるまたは良性のもの)のバイナリファイルを逆アセンブルすることができる。畳み込みニューラルネットワークを利用して、トレーニングファイルを処理し、対応するトレーニング出力を生成することができる。畳み込みニューラルネットワークをトレーニングすることは、(例えば、既知の分類と比較して)トレーニング出力に関連するエラーを最小限にするために、1つまたは複数の監視学習および/または最適化技術を適用することを含むことができる。トレーニングされた畳み込みニューラルネットワークは、未知の逆アセンブルされたバイナリファイル(例えば、悪意のある、または良性のもの)の分類を決定することによって悪意のある実行可能ファイルを検出するために提供することができる。
【0015】
図1は、識別アプリケーションで使用するために機械学習モデル100に含めることができるソフトウェア要素の例を示すブロック図を示す。特徴収集モジュール110(時には特徴収集器と呼ばれる)、識別モジュール120、および実施モジュール130は、1つまたは複数のサンプルから学習し、所与のファイルが脅威である可能性に関する予測出力を提供するために相互作用することができる。本明細書で使用する“モジュール”という用語は、1つまたは複数のコンピューティングシステムの一部である1つまたは複数のプログラマブルプロセッサを介して実施できるソフトウェア機能を指す。特徴収集モジュール110は、ファイルおよび/またはそのファイルが読み込まれ、ダウンロードされ、実行され、書き込まれるなどの環境を特徴付ける特徴を収集または他の方法でアクセスする。特徴とは、サンプルから測定できる顕著なデータポイントを指す。本明細書中で使用される場合、サンプルは、類似のサンプルに対する分類または類似解析動作が実行され得る任意のデータを指す。マルチクラス分類器は、3つ以上のクラスの分類をサポートできる分類器を指す。マルチモデル分類器とは、複雑なサンプル内の特定の複雑さを扱うためにサブモデルを使用する分類器を指す。
【0016】
モデルは、特定のクラスに分類されるサンプルの可能性を定義する単一またはマルチモデルの確率行列とすることができる。現在の主題と一致して、機械学習モデルは、クラウドベースのインスタンスおよびローカルに実行中のインスタンス(例えば、組織の1つまたは複数のエンドポイントコンピュータ)の両方として実施することができる。
【0017】
特徴収集モジュール110によって収集および/またはアクセスされた特徴は、識別モジュール120に渡され、識別モジュール120は、ファイルの実行を許可するか否か(またはファイルをダウンロードし、開くなど)を決定することができる。ファイルが実行されてはならないと判断された場合、またはファイルに対する他の何らかのアクションが防止されるべき場合、実施モジュール130は、ファイルの実行、オープン、実行の継続、書き込み、ダウンロードなどを防止するアクションをとることができる。現在の主題のいくつかの実施形態では、実施モジュール130は、潜在的な脅威として評価されるファイル等の隔離を要求することができる。
【0018】
機械学習脅威識別モデルまたは機械学習脅威識別モデルのアンサンブルは、アプリケーション制御の前に考案され、トレーニングされることができる。さまざまな機械学習アルゴリズムの予測的性質のため、トレーニングされたモデルは、安全で安全でないプログラムとの“あいまいな”マッチングを可能にする。本明細書では、“安全な”および“危険な”という用語は、一般に、脅威となり得る1つまたは複数のファイルによって提示される危険の推定値に基づく機械生成の相対分類を指す。本明細書に記載されている機械学習脅威識別モデルは、所与のファイルに対する脅威スコアを出力することができ、脅威スコアを使用してファイルを安全または安全でないものとして分類することができる。2つ以上の区分を有する他の分類プロトコルもまた、現在の主題の範囲内にある。非限定的な例では、1つまたは複数の機械学習脅威識別モデルからの脅威スコア出力を使用して、潜在的な脅威を3つのカテゴリ(例えば、安全、疑わしい、危険なまたは同様のラベル)、4つのカテゴリ(例えば、疑わしいが危険な可能性がある、安全でない、または同様のラベル)、または4つ以上のカテゴリに分類することができる。
【0019】
このようなモデルのアンサンブルで機械学習脅威識別モデルを慎重に選択してトレーニングすることにより、脅威識別システムは、“安全”に似ているか、またはその欠如したプログラム動作の小規模および大規模な変化に対応して、時間の経過とともに弾力的に行動することができる。機械学習脅威識別モデルは、ニューラルネットワーク、サポートベクトルマシン、ロジスティック回帰モデル、ベイジアンアルゴリズム、およびディシジョンツリーを含む例示的な例として、1つまたは複数のアルゴリズムが組み込まれていることを特徴とすることができる。機械学習脅威識別モデルは、監視学習を使用してトレーニングすることができ、トレーニングセット内で発生しないサンプルを正しく分類するために、所望の出力値でラベル付けされたトレーニングセットの入力サンプルをモデルに適合させるか、アルゴリズムでは、ラベルのないデータの隠れた構造を識別する。
【0020】
上述したように、本明細書に記載されるような機械学習脅威識別モデルは、いくつかの例では、所与のファイルの解析に基づく出力としてリスクまたは脅威スコアを提供することができる。このスコア、および/またはそのようなスコアに基づく分類を使用して、ファイルを制限なしで進めるか、代わりに潜在的な脅威とするかを判断できる。例えば、再び
図1の
図100を参照すると、特徴収集モジュール110は、進行中の基準で受動的な特徴(操作上および動的)を識別モジュール120に送ることができる。識別モジュール120は、ファイル(例えば、プログラム)の実行のような特定の決定点で、特徴収集モジュール110から特定時点の特徴を要求することができる。これらの特定時点の特徴には、ファイルに対するコンピュータの外部の状態や外部ソースからの関連特徴に関する観測情報を含めることができます。識別モジュール120は、ファイルが実行されるべきかどうか、または他のアクション(例えば、ファイルのオープンまたはダウンロード、データの送信または受信など)が開始または進行することが許可されるかどうかを決定することができる。ファイルに関する識別モジュールの決定に基づいて実行/オープン/ダウンロードが許可される場合、プログラムが実行されるか、ファイルがオープンまたはダウンロードされるか、またはファイルに関連する他のアクションが起こり得る。アクションが許可されない場合、実施モジュール130は、それが発生するのを防ぐことができる。
【0021】
機械学習アプローチは、疑わしいファイルまたはプログラムが1つまたは複数のサーバまたは他のコンピュータ上に実装されたモデルによって解析される、ネットワーク(例えば、クラウドベース)サービスを介してローカルに(例えば、1つまたは複数のコンピュータエンドポイントにおいて)両方適用することができる。いくつかの実施形態では、モデルのローカルバージョン(例えば、エンドポイントマシン上で実行する)とモデルのクラウドベースバージョンの両方が識別タスクを処理することができる。ローカルモデルは、ネットワーク接続の存在に依存せず、モデルのクラウドベースバージョンを実行しているサーバに対する疑わしい脅威に関する情報の送信を必要としないエンドポイント検出を提供できる。クラウドベースのバージョンは、機械学習の改善や脅威の識別性を向上させる可能性のあるその他の特徴によって、より簡単に更新できる。さらに、クラウドベースのモデルは、複数のエンドポイントから受信した入力から学習することができるため、新しいタイプの脅威に適応することができる。このように、所与の疑わしい脅威は、クラウドベースの機械学習モデルとローカルの機械学習モデルの両方で解析することがでる。クラウドベースのモデルとローカルに実行されるモデルが一致しない場合には、一般にクラウドベースのモデルはより多くの更新情報とより多くのトレーニングインプットにアクセスできるため、典型的なアプローチは、ファイルのスコアリング、クラウドベースのモデルによって生成されたプログラム、アクティビティなどが、ファイル、プログラム、アクティビティなどに与えられた最終スコア(本明細書では“サンプル”と総称される)を支配する。
【0022】
畳み込みニューラルネットワークのようなアプローチは、少なくとも人間が設計した特徴と同じくらい効果的な特徴を抽出することを学ぶことができる分類器をもたらすことができる。このようなモデルは、現在画像および音声データに適用されているが、最近の結果は、これらのアプローチが、テキストデータなどの他のデータタイプで以前は評価されていなかった有効性を提供する可能性があることを示している。このようなアプローチをマルウェア分類の目的で実行可能ファイルのバイトに適用すると、いくらか改善される可能性があるが、そのようなモデルの有効性を制限する要因は、より長いサンプルを処理できることである。画像データは小さくて固定サイズ(例えば、256×256ピクセルおよび3色チャネル)である傾向があるが、実行可能ファイルは、数キロバイトから数百メガバイトの潜在的なファイルサイズの広い範囲に存在する。
【0023】
畳み込みニューラルネットワークを組み込んだ機械学習モデル識別アプローチの単純な構成では、畳み込みニューラルネットワークは、一般に、入力サンプルのすべての領域に均一な量の計算を適用する。しかし、実行可能ファイルでは、ファイルが悪意のあるかどうかを判別するのに役立たない大量のコードのセクションが存在する可能性がある。例えば、典型的なアプローチは、1つまたは複数のn−グラム(例えば、バイトシーケンス)の定義を含むことができるいくつかの初期の特徴エンジニアリングを含むことができる。この初期の特徴エンジニアリングに基づいて、機械学習アルゴリズムを支援するために1つまたは複数の分類器を開発することができる。
【0024】
図2A〜
図2Bは、現在の主題の実施形態と一致する畳み込みニューラルネットワーク200を示す。
図2を参照する。
図2A〜
図2Bを参照すると、畳み込みニューラルネットワーク200は、第1の畳み込み層212、第2の畳み込み層214、プール層220、完全に接続された層230、および出力層240を含むことができる。畳み込みニューラルネットワーク200は、例えば、逆アセンブルされたバイナリファイル250を含む1つまたは複数の逆アセンブルされたバイナリファイルの分類(例えば、悪意のあるまたは良性のもの)を決定することによって、マルウェアを検出するために利用され得る。
【0025】
畳み込みニューラルネットワーク200は、逆アセンブルされたバイナリファイル250を処理するように構成することができ、逆アセンブルされたバイナリファイル250は、長さが可変である一連の命令を含むことができる。したがって、命令の固定長表現を生成するために、1つまたは複数の技術を適用することができる。さらに、命令の固定長表現を符号化して、符号化固定長表現の対応するシーケンスを生成することができる。したがって、畳み込みニューラルネットワーク200は、逆アセンブルされたバイナリファイル250からの命令のエンコードされた固定長表現のシーケンスを入力202で受信するように構成することができる。
【0026】
現在の主題のいくつかの実施形態では、逆アセンブルされたバイナリファイル250からの可変長命令をパディングして、命令の固定長表現を生成することができる。例えば、各命令は、最大長(例えば、x86アーキテクチャでは15バイト)にパディングされ、それにより情報の損失を回避することができる。あるいは、可変長命令を切り捨てて、命令の固定長表現を生成することができる。例えば、各命令は、最も一般的な長さの命令(例えば、8バイト)に切り詰めることができる。
【0027】
現在の主題のいくつかの実施形態によれば、各可変長命令は、命令の最初の2バイトまで切り捨てられることができる。命令を命令の最初の2バイトに切り詰めることは、例えば命令ニーモニックおよびオペランドのタイプを含むマルウェア検出に関連する情報を保持することができる。命令の残りの部分は、例えば、命令のオペランドを含むマルウェア検出に関連しない情報を含むことができる。したがって、命令の最初の2バイトに切り捨てても、マルウェアを検出する際の畳み込みニューラルネットワーク200の有効性および信頼性を損なうことはない。
【0028】
命令の固定長表現を符号化して、符号化固定長表現のシーケンスを生成することができる。現在の主題のいくつかの実施形態では、固定長表現は、高密度符号化方式を使用して符号化することができる。例えば、各固定長表現は、バイナリ符号化を使用して符号化することができる。このように、命令の固定長表現における情報のすべてのバイトを表すために8ビットが必要とされることがある。あるいは、固定長表現は、スパース符号化方式を使用して符号化することができる。例えば、各固定長表現は、ワンホット符号化を使用して符号化することができる。ワンホット符号化を使用して命令の固定長表現を符号化するには、命令の固定長表現における情報の各バイトに256ビットが必要である。しかし、スパース符号化方式は、畳み込みニューラルネットワーク200がトレーニングを受けているときの最適化を容易にすることができる。
【0029】
例えば、
図3Aは、逆アセンブルされたバイナリファイル250に含めることができる命令セット300の一例を示す。命令セット300内の命令は、各命令の固定長表現を生成するために切り捨てることができる。例えば、各命令(例えば、mov,cmp,jne,dec,およびjmp)に関連するニーモニックを保存するために、命令を切り捨てることができる。さらに、固定長表現は、高密度またはスパース符号化方式を使用して符号化することができる。
図3Bは、各命令の符号化された固定長表現を生成するために命令セット300内の命令にワンホット符号化が適用されるときに使用されるマッピングの例を示す。一方、
図3Cは、命令セット300内の命令の符号化固定長表現の例を示す。
図3Cに示す符号化された固定長表現は、畳み込みニューラルネットワーク200の入力102に提供されてもよい。
【0030】
現在の主題のいくつかの実施形態では、第1の畳み込みレイヤ212は、複数のカーネルK
1,1,K
1,2,...,K
1,xを符号化された固定長表現に適用することによって、符号化固定長表現を処理するように構成することができる。第1畳み込みレイヤ212に適用される各カーネルは、命令の特定のシーケンスを検出するように構成することができる。現在の主題のいくつかの実施形態によれば、第1の畳み込みレイヤ212に適用される各カーネルは、w個の命令を有するシーケンスを検出するように適合させることができる。すなわち、カーネルK
1,1,K
1,2,...,K
1,xは、w個の命令が特定の順序で現れるインスタンスを検出するように構成することができる。例えば、カーネルK
1,1は、命令シーケンス[cmp,jne,dec]を検出するように適応させることができ、カーネルK
1,2は、命令シーケンス[dec,mov,jmp]を検出するように適応させることができる。各カーネルのサイズ(例えば、w個の命令数)は、第1の畳み込み層212のウィンドウサイズに対応することができる。
【0031】
現在の主題のいくつかの実施形態では、各カーネルK
1,1,K
1,2,...,K
1,xは、逆アセンブルされたバイナリファイル250内の連続した命令グループに適用することができる。例えば、カーネルK
1,1を第1の命令グループに適用した後、カーネルKlをあるストライドサイズに従ってスライドさせ、第2の隣接する命令グループに適用することができる。したがって、第1の畳み込みレイヤ212のウィンドウサイズが3であり、第1の畳み込みレイヤ212のストライドサイズが1である場合、カーネルK
1,1,K
1,2,...,K
1,xは、命令セット300からの命令に、
図3Dに示す順序で適用することができる。
【0032】
現在の主題のいくつかの実施形態によれば、カーネルK
1,1,K
1,2,...,K
1,xを逆アセンブルしたバイナリファイル250内の命令は、対応する特徴マップ260を生成することができる。逆アセンブルされたバイナリファイル250からの命令をカーネルK
1,1,K
1,2,...,K
1,xを適用することによって生成された特徴マップ260は、次に示される。
XW
1
ここで、W
1∈R
NoutxNは、第1の畳み込み層212に適用された畳み込みカーネル(例えば、カーネルK
1,1,K
1,2,...,K
1,x)を表す重み行列であり、Xは、第1の畳み込み層212のウィンドウサイズとストライドサイズによって特定される処理順序で配列された命令を表す入力行列である。
【0033】
図3Eは、逆アセンブルされたバイナリファイル250内の命令のシーケンスを表す入力行列Xの例を示す。第1の畳み込み層212に適用されるカーネルK
1,1,K
1,2,...,K
1,xを表す重み行列W
1の一例を
図3Fに示す。
図3Gは、カーネルK
1,1,K
1,2,...,K
1,xを逆アセンブルされたバイナリファイル250からの命令に適用することによって生成される特徴マップ260を表す行列XW
1の例を示す。
【0034】
図2A〜
図2Bを再度参照すると、第2の畳み込みレイヤ214は、複数の追加のカーネルK
2,1,K
2,2,...,K
2,yを適用することによって、逆アセンブルされたバイナリファイル250をさらに処理するように構成することができる。現在の主題のいくつかの実施形態によれば、各連続畳み込みレイヤ(例えば、第1の畳み込みレイヤ212、第2の畳み込みレイヤ214)は、逆アセンブルされたバイナリファイル250からの命令シーケンスのますます抽象的な表現を生成するように適合させることができる。したがって、第2の畳み込みレイヤ214で適用されたカーネルK
2,1,K
2,2,...,K
2,yは、第1の畳み込みレイヤ212で検出された2つ以上の命令シーケンスの特定のシーケンスを検出するように適合させることができる。すなわち、カーネルK
2,1,K
2,2,...,K
2,yは、命令の特定のシーケンスが特定の順序で現れるインスタンスを検出するように適合させることができる。 例えば、カーネルK
2,1は、命令シーケンス[cmp,jne,dec]の直後に命令シーケンス[dec,mov,jmp]が続くときを検出するように適応させることができる。K
2,1,K
2,2,...,K
2,yを特徴マップ260に適用すると、次に示される出力を生成することができる。
[W
1;W
2]X
ここで、W
2∈R
NoutxNは、第2の畳み込みレイヤ214に適用される畳み込みカーネル(例えば、K
2,1,K
2,2,...,K
2,y)を表す重み行列である。
【0035】
畳み込みニューラルネットワーク200は、第1の畳み込みレイヤ212および第2の畳み込みレイヤ214を含むように示されているが、畳み込みニューラルネットワーク200は、本開示の範囲から逸脱することなく異なる数の畳み込みレイヤを含むことができることを理解されたい。例えば、畳み込みニューラルネットワーク200は、本開示の範囲から逸脱することなく、より少ないまたはより多くの畳み込み層を含むことができる。
【0036】
現在の主題のいくつかの実施形態では、プール層220は、前の畳み込み層からの出力を圧縮(例えば、サブサンプリングまたはダウンサンプリング)することによって、先行畳み込み層からの出力をさらに処理するように構成することができる。プール層220は、例えば、最大プール機能を含む1つまたは複数のプール機能を適用することによって出力を圧縮することができる。例えば、プール層220は、前の畳み込み層(例えば、第2の畳み込み層)からの出力のセットからの最大出力を選択するように適合された最大プール機能を適用することによって、第2の畳み込み層214からの出力をさらに処理するように構成することができる。
【0037】
現在の主題のいくつかの実施形態では、プール層220からの出力は、完全に接続されたレイヤ230および出力レイヤ240によってさらに処理されて、逆アセンブルされたバイナリファイル250の分類を生成することができる(例えば、悪意のある、または良性のもの)。例えば、出力層240は、逆アセンブルされたバイナリファイル250の分類を悪意のあるまたは良性であると判断するために、起動機能を適用することができる。逆アセンブルされたバイナリファイル250の分類は、畳み込みニューラルネットワーク200の出力204において提供され得る。
【0038】
現在の主題のいくつかの実施形態によれば、畳み込みニューラルネットワーク200は、畳み込みニューラルネットワーク200を利用して、複数のトレーニングファイルを処理し、対応する複数のトレーニング出力を生成することによってトレーニングすることができる。複数のトレーニングファイルは、例えば、逆アセンブルされたバイナリファイル250を含む逆アセンブルされたバイナリファイルであることができる。畳み込みニューラルネットワーク200をトレーニングすることは、各トレーニングファイルに関連付けられた正しい分類に関連したトレーニング出力のエラー(または損失)を最小にするために、1つまたは複数の監視学習(例えば、エラーの逆方向伝搬)および最適化技術(例えば、勾配降下)を適用することを含むことができる。
【0039】
例えば、各トレーニングファイルについて、(例えば、正しい分類に関連する)対応するトレーニング出力に関連するエラー(または損失)を、畳み込みニューラルネットワーク200を介して逆伝搬させて、損失関数を生成することができる。勾配降下は、畳み込みニューラルネットワーク200に対する1つまたは複数の最適化を決定するために実行することができ、例えば、畳み込み層で適用される重み調整(例えば、第1の畳み込み層212に適用される重み行列W1、および第2の畳み込み層214に適用される重み行列W2)を含む。畳み込みニューラルネットワーク200は、トレーニングされた畳み込みニューラルネットワーク200を生成する際に複数回の最適化(例えば、重み調整)が実行されるように、複数のトレーニングファイルを処理することによってトレーニングすることができる。
【0040】
図4は、いくつかの例示的な実施形態に係るニューラルネットワークシステム400を示すブロック図を示す。
図2A〜
図4を参照すると、畳み込みニューラルネットワークシステム400は、畳み込みニューラルネットワーク200を実施することができる。
【0041】
いくつかの例示的な実施形態では、ニューラルネットワークシステム400は、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはその組み合わせで実現することができる。
図3に示すように、ニューラルネットワークシステム400は、入力モジュール412、畳み込みモジュール414、プールモジュール416、完全に接続されたモジュール418、および出力モジュール420を含むことができる。ニューラルネットワークシステム400は、例えば、デバイス440を含む1つまたは複数のデバイスとさらに通信可能に結合されてもよい。ニューラルネットワークシステム400は、有線および/または無線ネットワーク430(例えば、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、および/またはインターネット)を介してデバイス440と通信することができる。
【0042】
入力モジュール412は、1つまたは複数の逆アセンブルされたバイナリファイル(例えば、逆アセンブルされたバイナリファイル250)の符号化固定長表現を(例えば、デバイス440から)受信するように構成することができる。あるいは、現在の主題のいくつかの実施形態では、入力モジュール412は、一連の可変長命令を含む逆アセンブルされたバイナリファイル250を(例えば、デバイス440から)受信するように構成することができる。入力モジュール412は、逆アセンブルされたバイナリファイル250から命令の符号化固定長表現を生成することができる。例えば、入力モジュール412は、各命令の固定長表現を生成するために命令をパディングおよび/または切り捨てるように構成することができる。さらに、入力モジュール412は、命令の固定長表現を符号化するために、高密度符号化方式(例えば、バイナリ符号化)またはスパース符号化方式(例えば、ワンホット符号化)を適用することができる。命令を逆アセンブルされたバイナリファイル250から符号化固定長表現に変換することにより、ニューラルネットワークシステム400による逆アセンブルされたバイナリファイル250のさらなる処理が可能になる。畳み込みニューラルネットワーク200がマルウェアを検出するようにトレーニングされている間、入力モジュール412は1つまたは複数のトレーニングファイルを受信することができることを理解されたい。代替的または追加的に、入力モジュール412は、未知の逆アセンブルされたバイナリファイルを受信し、(例えば、悪意のあるまたは良性の)未知の逆アセンブルされたバイナリファイルの分類を提供することができる。
【0043】
畳み込みモジュール414は、逆アセンブルされたバイナリファイル250からの命令のシーケンスの符号化固定長表現を入力モジュール412から受信することができる。現在の主題のいくつかの実施形態では、畳み込みモジュール414は、カーネルK
1,1,K
1,2,...,K
1,xを命令の符号化固定長表現に適用することによって、複数の特徴ベクトルを処理するように構成することができる。カーネルの適用は、特徴マップ(例えば、特徴マップ260)を生成することができる。現在の主題のいくつかの実施形態によれば、畳み込みモジュール414は、追加のカーネル(例えば、カーネルK
2,1,K
2,2,...,K
2,y)をその特徴マップに適用することができる。カーネルの適用は、逆アセンブルされたバイナリファイル250からの命令のますます抽象的な表現を生成することができる。例えば、各カーネルK
1,1,K
1,2,...,K
1,xは、2つ以上の命令の特定のシーケンス(例えば、特定の順序で現れる2つ以上の命令)を検出するために適用することができる。一方、各カーネルK
2,1,K
2,2,...,K
2,yは、その後、2つ以上の命令シーケンスの特定のシーケンス(例えば、特定の順序で現れる2つ以上の命令シーケンス)を検出するために適用することができる。
【0044】
一部の例示的な実施形態では、プールモジュール416は、畳み込みモジュール414からの出力を圧縮(例えば、サブサンプルまたはダウンサンプル)するように構成することができる。例えば、プールモジュール416は、その出力内の最大(例えば目立ったまたは顕著な)特徴(例えば、2つ以上の命令のシーケンス、2つ以上のシーケンスのシーケンスなど)を識別するために、最大プール機能を畳み込みモジュール414からの出力に適用することができる。プールモジュール416によって識別される最大特徴は、完全に接続されたモジュール418によってさらに処理することができる。一方、完全に接続されたモジュール418からの出力は、出力モジュール420によってさらに処理することができる。出力モジュール420は、ニューラルネットワークシステム400の出力を提供するように構成することができ、それは、逆アセンブルされたバイナリファイル150の分類を悪意のあるまたは良性として分類することができる。出力モジュール420は、出力をデバイス440に(例えば、ネットワーク430を介して)送信することによってニューラルネットワークシステム400の出力を提供するように構成することができる。
【0045】
図5は、現在の主題のいくつかの実施形態と一致する畳み込みニューラルネットワークをトレーニングするためのプロセス500を示すフローチャートを示す。
図2を参照する。
図1〜
図5を参照すると、畳み込みニューラルネットワーク200をトレーニングするために、ニューラルネットワークシステム400によってプロセス500を実行することができる。
【0046】
ニューラルネットワークシステム400は、複数のトレーニングファイルを受信することができる(502)。例えば、ニューラルネットワークシステム400は、デバイス340および/または別のソースから1セットのトレーニングファイルを受信することができる。一部の例示的な実施形態では、トレーニングファイルは、例えば、逆アセンブルされたバイナリファイル250を含む、逆アセンブルされたバイナリファイルであり得る。したがって、各トレーニングファイルは、命令のシーケンスを含むことができる。
【0047】
ニューラルネットワークシステム400は、複数のトレーニングファイルに基づいて、1つまたは複数の逆アセンブルされたバイナリファイルを分類するための畳み込みニューラルネットワーク200をトレーニングすることができる(504)。例えば、ニューラルネットワークシステム400は、畳み込みニューラルネットワーク200を利用してトレーニングファイルを処理することによって畳み込みニューラルネットワーク200をトレーニングすることができる。いくつかの例示的な実施形態では、畳み込みニューラルネットワーク200は、トレーニングファイルからの命令のますます抽象的な表現を生成するように適合させる複数のカーネル(例えば、カーネルK
1,1,K
1,2,...,K
1,x、カーネルK
2,1,K
2,2,...,K
2,y)を適用することによって、各トレーニングファイル内の命令の符号化固定長表現を処理するように適合することができる。例えば、いくつかのカーネル(例えば、カーネルK
1,1,K
1,2,...,K
1,x)の適用は、特定の命令シーケンスを検出することができ、一方、他のカーネル(例えば、K
2,1,K
2,2,...,K
2,y)のその後の適用は、特定の順序で現れる命令の特定のシーケンスが存在するインスタンスを検出できる。畳み込みニューラルネットワーク200は、符号化固定長表現を処理して、トレーニングファイルの分類を生成することができる。
【0048】
各トレーニングファイルについて、トレーニングスクリプトの正しい分類に関連するトレーニングファイルの分類に関連するエラーは、畳み込みニューラルネットワーク200を介して逆伝搬されて、損失関数を生成することができる。勾配降下は、損失関数を最小化する畳み込みニューラルネットワーク200(例えば、第1の畳み込みレイヤ212に適用される重み行列W
1および第2の畳み込みレイヤ214に適用される重み行列W
2)に対する1つまたは複数の最適化を決定するために実行することができる。現在の主題のいくつかの実施形態では、畳み込みニューラルネットワーク200をトレーニングすることは、畳み込みニューラルネットワーク200を使用して複数のトレーニングファイルを処理することを含むことができる。このように、ニューラルネットワークシステム400は、1つまたは複数の逆アセンブルされたバイナリファイルに対して正しい分類を提供することができるトレーニングされた畳み込みニューラルネットワーク200を生成するために、最適化(例えば、重みおよび/またはバイアス調整)の複数の反復を実行することができる。
【0049】
ニューラルネットワークシステム400は、トレーニングされた畳み込みニューラルネットワーク200を提供して、少なくとも1つの逆アセンブルされたバイナリファイル(506)の分類を可能にすることができる。例えば、トレーニングされた畳み込みニューラルネットワーク200は、未知の逆アセンブルされたバイナリファイルを処理し、逆アセンブルされたバイナリファイルの分類を(例えば、悪意のあるまたは良性のものとして)提供するために展開することができる。現在の主題のいくつかの実施形態では、トレーニングされた畳み込みニューラルネットワーク200は、例えば、コンピュータソフトウェア、専用回路(例えば、ASIC)、および/またはクラウドプラットフォームを含む任意の方法で提供することができる。
【0050】
図6は、現在の主題のいくつかの実施形態と一致して、トレーニングされた畳み込みニューラルネットワーク200を利用するためのプロセス600を示すフローチャートを示す。
図1〜
図6を参照すると、いくつかの例示的な実施形態では、トレーニングの後に畳み込みニューラルネットワーク200を利用するために、ニューラルネットワークシステム400によってプロセス600を実行することができる。
【0051】
ニューラルネットワークシステム400は、逆アセンブルされたバイナリファイル250を受信することができる(602)。例えば、ニューラルネットワークシステム400は、デバイス440および/または別のソースから、逆アセンブルされたバイナリファイル250を受信することができる。いくつかの例示的な実施形態では、逆アセンブルされたバイナリファイル250は命令のシーケンスを含むことができる。
【0052】
ニューラルネットワークシステム400は、トレーニングされた畳み込みニューラルネットワーク200を利用して、逆アセンブルされたバイナリファイル250の分類を決定することができる(604)。例えば、ニューラルネットワークシステム400は、畳み込みニューラルネットワーク200を利用して、逆アセンブルされたバイナリファイル250を処理することができる。現在の主題のいくつかの実施形態では、トレーニングされた畳み込みニューラルネットワーク200は、1つまたは複数のカーネル(例えば、カーネルK
1,1,K
1,2,...,K
1,x、および/またはカーネルK
2,1,K
2,2,...,K
2,y)を逆アセンブルされたバイナリファイル250内の命令の符号化固定長表現に適用することによって、逆アセンブルされたバイナリファイル250を処理するように適合することができる。トレーニングされた畳み込みニューラルネットワーク200は、逆アセンブルされたバイナリファイル250の分類におけるエラーを最小限にするように(例えば、トレーニング中に)最適化された1つまたは複数の重み(例えば、重み行列W
1および/またはW
2)を適用するように構成することができる。
【0053】
ニューラルネットワークシステム400は、逆アセンブルされたバイナリファイル250の分類を出力として提供することができる(606)。例えば、トレーニングされた畳み込みニューラルネットワーク200によって実行される処理の結果は、逆アセンブルされたバイナリファイル250の悪意のあるまたは良性のものとして分類とすることができる。いくつかの例示的な実施形態では、ニューラルネットワークシステム400は、(例えば、ネットワーク430を介して)デバイス440に出力を提供することができる。
【0054】
本開示の実施形態には、上述した説明と一致する方法と、1つまたは複数のマシン(例えば、コンピュータなど)に1つまたは複数のマシンを実行させるように動作可能な具体的に表現された機械可読媒体を含む記述された特徴のうちの1つまたは複数を実施する動作をもたらす。同様に、1つまたは複数のプロセッサおよび1つまたは複数のプロセッサに結合された1つまたは複数のメモリを含むことができるコンピュータシステムもまた説明される。コンピュータ可読記憶媒体を含むことができるメモリは、1つまたは複数のプロセッサに本明細書に記載された1つまたは複数の動作を実行させる1つまたは複数のプログラムを含むことができ、符号化、格納などすることができる。現在の主題の1つまたは複数の実施形態と一致するコンピュータ実装の方法は、単一のコンピューティングシステムまたは複数のコンピューティングシステムに存在する1つまたは複数のデータプロセッサによって実施することができる。そのような複数のコンピューティングシステムは、ネットワーク(例えば、インターネット、無線ワイドエリアネットワーク、ローカルネットワーク、広域ネットワーク、有線ネットワークなど)、複数のコンピューティングシステムのうちの1つまたは複数の間の直接接続を介した接続を含むがこれに限定されない1つまたは複数の接続を介して接続され、データおよび/またはコマンドまたは他の命令などを交換することができる。
【0055】
本明細書に記載される主題の1つまたは複数の態様または特徴は、デジタル電子回路、集積回路、特別に設計されたASIC、フィールドプログラマブルゲートアレイ(FPGA)コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現され得る。これらの様々な態様または特徴は、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。少なくとも1つのプログラム可能なプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、データまたは命令を送信するために結合された特別なまたは汎用の目的であってもよい。プログム可能なシステムまたはコンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは、一般に、互いに遠隔であり、典型的には、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムのおかげで生じる。
【0056】
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリケーション、コンポーネント、またはコードとも呼ばれ、プログラム可能なプロセッサ用の機械命令を含み、高水準手続き言語、オブジェクト指向プログラミング言語、関数型プログラミング言語、論理型プログラミング言語、および/またはアセンブリ言語/機械語で記述することができる。本明細書で使用される場合、“機械可読媒体”という用語は、機械命令および/または機械可読信号として機械命令を受信する機械可読媒体を含むプログラム可能なプロセッサへのデータを提供するために使用される任意のコンピュータプログラム製品、装置、および/またはデバイス、例えば、磁気ディスク、光ディスク、メモリ、およびプログラマブルロジックデバイス(PLD)を指す。“機械可読信号”という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。機械可読媒体は、例えば、非過渡的なソリッドステートメモリ、磁気ハードドライブ、または任意の等価な記憶媒体のように、機械命令を非一時的に格納することができる。機械可読媒体は、例えば、プロセッサキャッシュまたは1つまたは複数の物理プロセッサコアに関連する他のランダムアクセスメモリのように、そのような機械命令を過渡的な方法で代替的または追加的に格納することができる。
【0057】
ユーザとの対話を提供するために、本明細書に記載される主題の1つまたは複数の態様または特徴は、例えば陰極線管(CRT)または液晶ディスプレイ(LCD)のような表示装置またはユーザに情報を表示するための発光ダイオード(LED)モニタと、ユーザがコンピュータに入力を提供することができる、例えば、マウスまたはトラックボールのようなキーボードおよびポインティングデバイスとを有するコンピュータ上で実施することができる。他の種類の装置を使用して、ユーザとのやりとりを提供することもできる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなどの任意の形態の感覚フィードバックであり得る。ユーザからの入力は、音響、スピーチまたは触覚入力を含むが、これに限定されない任意の形態で受信することができる。他の可能な入力デバイスには、タッチスクリーンまたは単一またはマルチポイント抵抗または容量性トラックパッド、音声認識ハードウェアおよびソフトウェア、光学スキャナ、光学ポインタ、デジタルMRI画像キャプチャデバイスなどの他のタッチセンシティブデバイスおよび関連する解釈ソフトウェア等を含む。
【0058】
上記および請求項の説明では、“少なくとも1つ”または“1つまたは複数”のような語句が続き、要素または機能の結合リストが続くことがある。“および/または”という用語は、2つ以上の要素または特徴のリスト内に存在してもよい。他の言及された要素または特徴のいずれかと個別にまたは列挙された要素または特徴のいずれかとの組み合わせを意味することを意図している。例えば、“AおよびBの少なくとも1つ”という語句は、“1つまたは複数のAおよびB””Aおよび/またはB“は、それぞれ”A単独、B単独、またはAおよびB一緒に“を意味することを意図している。同様の解釈は、3つ以上の項目を含むリストに対しても意図されている。例えば、”A、B、およびCの少なくとも1つ“という語句は、”A、B、およびCの1つまたは複数“”A、Bおよび/またはC“は、それぞれ”A単独、B単独、C単独、AおよびB一緒、AおよびC一緒、BおよびC一緒、またはAおよびBおよびC一緒“を意味するものとする。上記および請求項に”基づく“という用語の使用は、言及されていない特徴または要素も許容されるように、”少なくとも部分的に基づいて“を意味することを意図している。
【0059】
本明細書に記載される主題は、所望の構成に応じて、システム、装置、方法、および/または物品に具体化することができる。前述の説明に記載された実施形態は、本明細書に記載された主題と一致する全ての実施形態を表すものではない。むしろ、それらは、記載された主題に関連する態様と一致する単なる例に過ぎない。いくつかの変形例を上記で詳細に説明したが、他の修正または追加が可能である。特に、本明細書に記載されたものに加えて、さらなる特徴および/または変形を提供することができる。例えば、上述の実施形態は、開示された特徴の様々な組み合わせおよびサブコンビネーション、および/または上述したいくつかのさらなる特徴の組み合わせおよびサブコンビネーションを対象とすることができる。さらに、添付の図面に示され、および/または本明細書で説明される論理フローは、望ましい結果を達成するために、示された特定の順序または連続的な順序を必ずしも必要としない。他の実施態様は、以下の請求項の範囲内であり得る。