特許7420247 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7420247計量学習装置、計量学習方法、計量学習プログラム、及び検索装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-15

(45)【発行日】2024-01-23

(54)【発明の名称】計量学習装置、計量学習方法、計量学習プログラム、及び検索装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20240116BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】 6

(21)【出願番号】P 2022527437

(86)(22)【出願日】2020-05-29

(86)【国際出願番号】 JP2020021325

(87)【国際公開番号】W WO2021240775

(87)【国際公開日】2021-12-02

【審査請求日】2022-11-01

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110002044

【氏名又は名称】弁理士法人ブライタス

(72)【発明者】

【氏名】池田聡

【審査官】真木健彦

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０１３５３２０（ＵＳ，Ａ１）

【文献】特開２０１８－００７１７９（ＪＰ，Ａ）

【文献】国際公開第２０１９／２０２７１１（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出手段と、
生成された前記データの前記通信元と前記通信先とが同じデータの組に正例を表す正解ラベルを付与し、前記データの前記通信元と前記通信先とが異なるデータの組に負例を表す正解ラベルを付与して、計量学習で用いるサンプルデータを生成する、生成手段と、
前記特徴ベクトルを低次元ベクトルに変換する変換モデルを、前記正例を表す正解ラベルが付与された組の低次元ベクトル間の距離を近づけ、前記負例を表す正解ラベルが付与された組の低次元ベクトル間の距離を遠ざけるように、前記サンプルデータを用いて計量学習する、学習手段と、
を有する計量学習装置。

【請求項2】

請求項１に記載の計量学習装置であって、
前記生成手段は、前記データの前記通信元と前記通信先とが同じで、かつ前記通信元と前記通信先とに関連付けられた前記通信日時が、あらかじめ設定された期間内のデータの組に正例を表す正解ラベルを付与する
計量学習装置。

【請求項3】

請求項１又は２に記載の計量学習装置であって、
前記学習手段は、前記サンプルデータの組が、あらかじめ設定された正例又は負例を表す正解ラベルが付与された教師データの組と一致した場合、前記サンプルデータの組は学習に利用しない
計量学習装置。

【請求項4】

コンピュータが、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成し、
生成された前記データの前記通信元と前記通信先とが同じデータの組に正例を表す正解ラベルを付与し、前記データの前記通信元と前記通信先とが異なるデータの組に負例を表す正解ラベルを付与して、計量学習で用いるサンプルデータを生成し、
前記特徴ベクトルを低次元ベクトルに変換する変換モデルを、前記正例を表す正解ラベルが付与された組の低次元ベクトル間の距離を近づけ、前記負例を表す正解ラベルが付与された組の低次元ベクトル間の距離を遠ざけるように、前記サンプルデータを用いて計量学習する、
計量学習方法。

【請求項5】

コンピュータに、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出処理と、
生成された前記データの前記通信元と前記通信先とが同じデータの組に正例を表す正解ラベルを付与し、前記データの前記通信元と前記通信先とが異なるデータの組に負例を表す正解ラベルを付与して、計量学習で用いるサンプルデータを生成する、生成処理と、
前記特徴ベクトルを低次元ベクトルに変換する変換モデルを、前記正例を表す正解ラベルが付与された組の低次元ベクトル間の距離を近づけ、前記負例を表す正解ラベルが付与された組の低次元ベクトル間の距離を遠ざけるように、前記サンプルデータを用いて計量学習する、学習処理と、
を実行させるための計量学習プログラム。

【請求項6】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、計量学習に用いるサンプルデータを抽出するサンプルデータ生成装置、サンプルデータ生成方法に関し、更には、これらを実現するためのプログラムに関する。

【背景技術】

【0002】

データ間の計量（距離や類似度など）を学習する手法として計量学習（Metric Learning）が知られている（特許文献１）。計量学習は、意味の近いデータを近くに、意味の遠いデータを遠くにする学習である。

【先行技術文献】

【特許文献】

【0003】

【文献】特表２０１９－５０９５５１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、計量学習では、学習においてサンプルデータとして、近いデータの組（正例の組）と遠いデータの組（負例の組）を与える必要がある。一般には、近いデータの組と遠いデータの組は、人手で与える必要がある。そこで、計量学習で用いるサンプルデータを効率よく生成することが求められている。

【0005】

一つの側面として、計量学習で用いるサンプルデータを効率よく生成するサンプルデータ生成装置、サンプルデータ生成方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するため、一つの側面におけるサンプルデータ生成装置は、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出部と、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成部と、
を有することを特徴とする。

【0007】

また、上記目的を達成するため、一側面におけるサンプルデータ生成方法は、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出ステップと、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップと、
を有することを特徴とする。

【0008】

また、上記目的を達成するため、一側面におけるプログラムは、
コンピュータに、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出ステップと、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップ
を実行させることを特徴とする。

【0009】

上記目的を達成するため、一つの側面における計量学習装置は、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出部と、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成部と、
前記サンプルデータを用いて計量学習により変換モデルを学習する、学習部と、
を有することを特徴とする。

【0010】

また、上記目的を達成するため、一側面における計量学習方法は、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出ステップと、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップと、
前記サンプルデータを用いて計量学習をする、学習ステップと、
を有することを特徴とする。

【0011】

【0012】

また、上記目的を達成するため、一つの側面における検索装置は、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出部と、
前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成部と、
前記サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルを学習する、学習部と、
検索対象の特徴ベクトルを前記変換モデルにより変換した低次元ベクトルと、前記データの特徴ベクトルを前記変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した前記距離があらかじめ設定された距離以内にあるデータを検索する、検索部と、
を有することを特徴とする。

【0013】

また、上記目的を達成するため、一つの側面における検索方法は、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出ステップと、
前記データの前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成ステップと、
前記サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルを学習する、学習ステップと、
検索対象の特徴ベクトルを前記変換モデルにより変換した低次元ベクトルと、前記データの特徴ベクトルを前記変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した前記距離があらかじめ設定された距離以内にあるデータを検索する、検索ステップと、
を有することを特徴とする。

【0014】

また、上記目的を達成するため、一側面におけるプログラムは、
コンピュータに、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出ステップと、
前記データの前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成ステップと、
前記サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルを学習する、学習ステップと、
検索対象の特徴ベクトルを前記変換モデルにより変換した低次元ベクトルと、前記データの特徴ベクトルを前記変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した前記距離があらかじめ設定された距離以内にあるデータを検索する、検索ステップと、
を実行させることを特徴とする。

【発明の効果】

【0015】

一つの側面として、計量学習で用いるサンプルデータを効率よく生成できる。

【図面の簡単な説明】

【0016】

【図1】図１は、サンプルデータ生成装置の一例を説明するための図である。

【図2】図２は、システムの一例を説明するための図である。

【図3】図３は、情報処理装置を有するシステムの一例を説明するための図である。

【図4】図４は、通信履歴情報の一例を説明するための図である。

【図5】図５は、特徴ベクトルを有するデータの一例を説明するための図である。

【図6】図６は、計量学習の一例を説明するための図である。

【図7】図７は、サンプルデータ生成装置の動作の一例を説明するための図である。

【図8】図８は、計量学習装置の動作の一例を説明するための図である。

【図9】図９は、検索装置の動作の一例を説明するための図である。

【図10】図１０は、情報処理装置の一例を説明するための図である。

【図11】図１１は、教師データの一例を説明するための図である。

【図12】図１２は、計量学習装置の動作の一例を説明するための図である。

【図13】図１３は、実施形態１、２における情報処理装置を実現するコンピュータの一例を説明するための図である。

【発明を実施するための形態】

【0017】

はじめに、以降で説明する実施形態の理解を容易にするためにセキュリティ対策における実施を想定した背景を説明する。すでに組織のシステムに侵入している脅威を検知するセキュリティ対策の方法として脅威ハンティングが知られている。

【0018】

脅威ハンティングの一つの方法として、外部機関から提供される脅威情報を用いて、マルウェア、ウィルス、攻撃者などの脅威を検知する方法がある。しかし、脅威情報の網羅性は必ずしも高いものとはいえない。

【0019】

例えば、セキュリティ対策の従事者は、脅威情報としてＩｏＣ（Indicator of Compromise）などを用いて、当該組織のシステムで生成されたログを検索し、脅威を検知している。

【0020】

ところが、ＩｏＣがドメインやドメインに関連付けられたＩＰアドレスなどである場合、攻撃者は、ドメインやドメインに関連付けられたＩＰアドレスなどを容易に変更できるため、それらが変更されてしまうと脅威を検知することができない。また、検知を避けることを目的として、攻撃する組織に応じてＣ＆Ｃ（Command and Control）サーバを変えている場合、他の組織が受けた攻撃に関するＩｏＣを用いて検索をしても、脅威を検知することができない。

【0021】

また、ＩｏＣなどの攻撃に関する脅威情報はその数が限られているため、ログをＩｏＣで検索して脅威が検知された場合でも、セキュリティ対策の従事者は、検知された脅威に類似する脅威がないかを確認する必要がある。

【0022】

類似する脅威の有無を確認するためには、セキュリティ対策の従事者は、検知された脅威の特徴を分析し、人手により検索条件を作成しなくてはならない。さらに、セキュリティ対策の従事者は、作成した検索条件で過検知が多い場合には、検索条件を見直す必要がある。

【0023】

このように、発明者は、上述したような課題を見出し、それとともに係る課題を解決する手段を導出するに至った。すなわち、発明者は、セキュリティ対策の従事者が、検索条件を人手により作成しなくても、ログの特徴を用いて類似する脅威を検索できる手段を導出するに至った。

【0024】

また、類似する脅威の確認についても、セキュリティ対策の従事者の作業を抑制できる手段を導出するに至った。さらに、類似する脅威を、セキュリティ対策の従事者が抽出したように（人の感覚で）、自動で抽出できる手段を導出するに至った。

【0025】

以下、図面を参照して実施形態について説明する。なお、以下で説明する図面において、同一の機能又は対応する機能を有する要素には同一の符号を付し、その繰り返しの説明は省略することもある。

【0026】

（実施形態１）
図１を用いて、実施形態１におけるサンプルデータ生成装置の構成について説明する。図１は、サンプルデータ生成装置の一例を説明するための図である。

【0027】

［装置構成］
図１に示すサンプルデータ生成装置１は、計量学習で用いるサンプルデータを効率よく抽出する装置である。また、図１に示すように、サンプルデータ生成装置１は、抽出部１１と、生成部１２とを有する。

【0028】

抽出部１１は、通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する。なお、抽出部１１が、通信元と通信先と通信日時とに基づいて通信履歴情報を分類してもよい。生成部１２は、分類した前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する。

【0029】

以上説明したように、実施形態１においては、計量学習で用いるサンプルデータを効率よく生成することができる。なお、計量学習では、一般的にあらかじめ分類問題の教師データとして作成された分類情報（分類ラベル）を用いるが、実施形態１では、このような分類情報を用いず、通信元と通信先と通信日時とに基づいて分類した通信履歴情報を用いている。

【0030】

［システム構成］
図２を用いて、実施形態１における情報処理装置１０を有するシステム１００の構成を具体的に説明する。図２は、システムの一例を説明するための図である。また、図３を用いて、実施形態１における情報処理装置１０の構成を具体的に説明する。図３は、情報処理装置を有するシステムの一例を説明するための図である。

【0031】

システム１００について説明する。
システム１００は、図２の例では、情報処理装置１０と、プロキシサーバ２０と、クライアント３０とを有する。ただし、実施形態１のシステムの構成は、図２に示したシステム１００の構成に限定されるものではない。

【0032】

情報処理装置１０は、例えば、ＣＰＵ（Central Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）などのプログラマブルなデバイス、又はそれら両方を搭載したサーバコンピュータ、パーソナルコンピュータなどである。また、情報処理装置１０は、図３に示すように、抽出部１１と、生成部１２と、学習部１３と、検索部１４とを有する。また、情報処理装置１０の内部又は外部に、記憶部２１、２２、２３を有する。

【0033】

情報処理装置１０をサンプルデータ生成装置として用いる場合には、図１に示したように抽出部１１と生成部１２を有する構成とする。また、情報処理装置１０を計量学習装置として用いる場合には、抽出部１１と生成部１２と学習部１３を有する構成とする。また、情報処理装置１０を検索装置として用いる場合には、抽出部１１と生成部１２と学習部１３と検索部１４を有する構成とする。

【0034】

プロキシサーバ２０は、ネットワーク４０を介して、クライアント３０から取得したリクエストを、取得したリクエストで指定されたサーバ５０へ送信する。リクエストは、例えば、クライアント３０とサーバ５０との間のＨＴＴＰ通信のリクエストである。ただし、リクエストは、ＨＴＴＰ通信に限定されるものではない。

【0035】

プロキシサーバ２０は、少なくともリクエストに関する情報であるアクセスログ（通信履歴情報）を記憶部２１に記憶する。記憶部２１には、図３の例では、プロキシログが記憶されている。

【0036】

クライアント３０（３０ａ、３０ｂ、３０ｃ）は、プロキシサーバ２０を介して、ネットワーク４０に接続されたサーバ５０にアクセスする。ネットワーク４０は、例えば、インターネットなどのネットワークである。サーバ５０（５０ａ、５０ｂ、５０ｃ）は、例えば、ＨＴＴＰ（Hypertext Transfer Protocol）サーバなどである。

【0037】

情報処理装置１０について説明する。
抽出部１１は、分類された通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、通信元と通信先と通信日時と特徴ベクトルとを関連付けてデータを生成する。

【0038】

通信履歴情報は、少なくとも通信元と通信先と通信日時とが関連付けられた情報である。図４は、通信履歴情報の一例を説明するための図である。

【0039】

図４の例では、通信履歴情報はプロキシログを表す。プロキシログの「クライアント」には、クライアント３０を識別する情報「Ｃ１」「Ｃ２」などが記憶されている。「サーバ」には、サーバ５０を識別する情報「Ｓ１」「Ｓ２」などが記憶されている。「通信日時」には、年月日と時間を表す情報が記憶されている。

【0040】

また、「メソッド」には、メソッドを表す「GET」「POST」などが記憶されている。「リクエストパス」には、リクエストパスを表す「/index.html」「/main.css」「/title.png」「/」などが記憶されている。「受信サイズ」には、受信したデータのサイズを表す「2000」「3000」「10000」「200」などが記憶されている。「送信サイズ」には、送信したデータのサイズを表す「0」「1000」などが記憶されている。

【0041】

さらに、プロキシログには、クライアント３０が送信するリクエストに含まれる、実用ユーザエージェント文字列などが記憶されている。

【0042】

具体的には、まず、抽出部１１は、記憶部２１に記憶されている通信履歴情報が有する、クライアント３０（通信元）を識別する情報と、サーバ５０（通信先）を識別する情報と、クライアント３０とサーバ５０とが通信をした通信日時とに基づいて、通信履歴情報を分類する。

【0043】

抽出部１１は、例えば、通信履歴情報を、クライアント３０、サーバ５０、あらかじめ設定された所定期間が同じ通信履歴情報に分類する。所定期間は、例えば、同じ年月日、同じ年月日と時間帯、年月日が近い期間などである。

【0044】

ただし、通信履歴情報の分類は、必ずしも抽出部１１が行わなくてもよく、抽出部１１と別に分類部を設け、分類部に通信履歴情報の分類をさせてもよい。

【0045】

続いて、抽出部１１は、分類された通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出する。

【0046】

続いて、抽出部１１は、クライアント３０を識別する情報と、サーバ５０を識別する情報と、所定期間を表す情報と、抽出した特徴ベクトルとを関連付けてデータを生成し、記憶部２２に記憶する。記憶部２２には、図３の例では、データセットにデータが記憶されている。

【0047】

図５は、特徴ベクトルを有するデータの一例を説明するための図である。図５のデータの例では、「クライアント」には、クライアント３０を識別する情報「Ｃ１」「Ｃ２」などが記憶されている。「サーバ」には、サーバ５０を識別する情報「Ｓ１」「Ｓ２」などが記憶されている。「日付」には、年月日を表す情報が記憶されている。「特徴ベクトル」には、特徴ベクトルを表す情報が記憶されている。

【0048】

特徴ベクトルは、次のような要素を含んでいる。例えば、送信サイズ及び受信サイズの統計量（例えば、最小値、最大値、平均値、分散、合計値など）、リクエストパス長の統計量（最小値、最大値、平均値、分散など）、リクエストパスの拡張子の頻度（html、css、pngなどの拡張子ごとのリクエストの割合）、メソッドの頻度（GET/POST/HEADなどリクエストの割合）、アクセス時刻の分布（単位時間（例えば１時間）ごとのリクエストの割合）、リクエスト回数などである。なお、プロキシログにヘッダ情報が含まれている場合にはそれらのヘッダ情報に関する特徴を抽出してもよい。特徴抽出の方法は、これらに限定されず、機械学習において特徴ベクトルへの変換に用いられる一般的な方法も用いてもよい。

【0049】

生成部１２は、データの通信元と通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する。

【0050】

具体的には、まず、生成部１２は、記憶部２２（データセット）のデータを参照して、クライアント３０とサーバ５０とが同じデータの組（正例の組）を抽出する。なお、すべてのデータを用いず、サンプリングしたデータを用いて抽出をしてもよい。続いて、生成部１２は、抽出した組に、正例を表す正解ラベルを付与して、サンプルデータを生成する。

【0051】

図５の例では、データＸ１、Ｘ２の組（Ｘ１，Ｘ２）と、データＸ４、Ｘ５の組（Ｘ４，Ｘ５）が正例の組となる。

【0052】

また、生成部１２は、記憶部２２（データセット）のデータを参照して、クライアント３０とサーバ５０とが異なるデータの組（負例の組）を抽出する。なお、すべてのデータを用いず、サンプリングしたデータを用いて抽出をしてもよい。

【0053】

続いて、生成部１２は、抽出した組のデータに、負例を表す正解ラベルを付与して、サンプルデータを生成する。

【0054】

図５の例では、データＸ１、Ｘ４の組（Ｘ１，Ｘ４）と、データＸ１，Ｘ５の組（Ｘ１，Ｘ５）と、データＸ２、Ｘ４の組（Ｘ２，Ｘ４）と、データＸ２、Ｘ５の組（Ｘ２，Ｘ５）とが負例の組となる。

【0055】

さらに、生成部１２は、記憶部２２（データセット）のデータを参照して、クライアント３０とサーバ５０とが同じで、かつクライアント３０とサーバ５０とに関連付けられた通信日時が、あらかじめ設定された期間内のデータの組（正例の組）を抽出し、抽出した組のデータに、正例を表す正解ラベルを付与して、サンプルデータを生成してもよい。

【0056】

なお、生成部１２は、サーバ５０が同じでも、クライアント３０が異なる場合には、サンプルデータとして採用しない。理由は、サーバ５０が同じだけでは、必ずしも通信の特徴が似ているとは限らないためである。例えば、クライアント３０に搭載されているプログラムにより、通信の傾向が変わるためである。また、クライアント３０に搭載されているプログラムを、プロキシログから特定することは容易にできない。

【0057】

また、クライアント３０が同じである場合、クライアント３０に搭載されているプログラムは、特定のサーバ５０と通信をしている傾向が強い。クライアント３０が異なる場合でも、プログラムとサーバ５０が同じであれば、通信の特徴は似ている傾向がある。

【0058】

また、時間的に近ければサーバ５０の構成は大きく変化する可能性は低い。例えば、ウェブサーバなどは、サイトのページ構成が大きく変化する可能性は低い。そのため、日時が近いデータの組の方が、通信の特徴が似ている傾向がある。

【0059】

学習部１３は、サンプルデータを用いて計量学習により変換モデルを学習する。計量学習では、データ間の計量（距離や類似度など）を学習する。計量学習には、例えば、シャムネットワークやトリプレットネットワークなどを用いる。

【0060】

図６は、計量学習の一例を説明するための図である。図６の例では、特徴ベクトルの変換後の低次元ベクトル間の距離を利用したロス関数を利用して変換モデルの学習をする。ロス関数は、例えば、シャムネットワークでは Contrastive Loss関数を用いる。図６の例では、正例の組の距離を近づけ、負例の組の距離を遠ざけるように、変換モデルが学習される。

【0061】

なお、図６のＸｉ、Ｘｊは、サンプルデータの特徴ベクトルを表している。図６のＮＮは、特徴ベクトルを低次元ベクトルに変換するニューラルネットワークを表している。図６のＺｉ、Ｚｊは、低次元ベクトルを表している。また、Lossi,jは、サンプルデータに対するContrastive Lossを表している。

【0062】

具体的には、まず、学習部１３は、サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルの学習をする。変換モデルを用いて特徴ベクトルの次元を低次元に変換するのは、人の感覚を反映させた検索をするためである。すなわち、セキュリティ対策の従事者が類似していると判断するデータが検索で抽出されやすくするためである。

【0063】

学習部１３が、特徴ベクトルの次元を低くする理由は、抽出部１１で抽出した特徴ベクトルの距離を用いて検索を行うと、人が類似していると判断するデータが抽出されない可能性が高いからである。そこで、計量学習を用いて、低次元に変換する変換モデルを学習する。計量学習では、人が類似判断を行う場合において重要な情報を踏まえて、低次元に変換する変換モデルを学習するので、人の感覚に近い検索ができる。

【0064】

続いて、学習部１３は、計量学習をしたニューラルネットワークの構造を表す情報と、その重みを表す情報とを記憶部２３（変換モデル）に記憶する。

【0065】

検索部１４は、検索対象の特徴ベクトルを変換モデルにより変換した低次元ベクトルと、データの特徴ベクトルを変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した距離があらかじめ設定された距離以内にあるデータを検索する。

【0066】

データセットにデータがｎ個（ｎは正の整数）ある場合について説明する。
まず、検索部１４は、検索対象のデータを取得する。続いて、検索部１４は、検索対象のデータの特徴ベクトルＸｑの次元を、変換モデルを用いて、低次元ベクトルＺｑに変換する。

【0067】

続いて、検索部１４は、記憶部２２（データセット）からデータを取得する。続いて、検索部１４は、取得したデータの特徴ベクトルＸ１の次元を、変換モデルを用いて、低次元ベクトルＺ１に変換する。

【0068】

続いて、検索部１４は、低次元ベクトルＺｑと低次元ベクトルＺ１との距離ｄ（Ｚｑ，Ｚ１）を算出する。ここで、距離ｄ（Ｚｑ，Ｚｉ）は、例えば、ユークリッド距離、又はコサイン距離などである。「ｉ」は１からｎを表す。

【0069】

続いて、検索部１４は、距離ｄ（Ｚｑ，Ｚ１）があらかじめ設定された閾値以下であるか否かを判定する。距離ｄ（Ｚｑ，Ｚ１）が閾値以下である場合、検索部１４は、特徴ベクトルＸ１が検索対象のデータの特徴ベクトルＸｑに類似していると判定する。なお、距離ｄ（Ｚｑ，Ｚ１）が閾値より大きい場合、検索部１４は、特徴ベクトルＸ１が、検索対象のデータの特徴ベクトルＸｑに類似していないと判定する。なお、閾値は、例えば、実験、シミュレーションなどにより決定する。

【0070】

続いて、検索部１４は、検索対象のデータの特徴ベクトルＸｑと、記憶部２２（データセット）に記憶されている次のデータの特徴ベクトルＸ２に対して、同じように検索をする。記憶部２２に記憶されているｎ個のデータに対して検索処理が終了した場合、検索対象のデータに対する検索処理を終了する。

【0071】

［装置動作］
実施形態１における情報処理装置の動作について図７、図８、図９を用いて説明する。図７は、サンプルデータ生成装置の動作の一例を説明するための図である。図８は、計量学習装置の動作の一例を説明するための図である。図９は、検索装置の動作の一例を説明するための図である。

【0072】

以下の説明においては、適宜図１から図６を参照する。また、実施形態１では、情報処理装置を動作させることによって、サンプルデータ生成方法、計量学習方法、検索方法が実施される。よって、実施形態１におけるサンプルデータ生成方法、計量学習方法、検索方法の説明は、以下の情報処理装置の動作説明に代える。

【0073】

サンプルデータ生成方法について説明する。
図７に示すように、まず、抽出部１１は、通信元と通信先と通信日時とに基づいて通信履歴情報を分類する（ステップＡ１）。ただし、通信履歴情報の分類は、必ずしも抽出部１１が行わなくてもよく、抽出部１１と別に分類部を設けて、分類部に通信履歴情報の分類をさせてもよい。

【0074】

具体的には、ステップ１において、抽出部１１は、例えば、クライアント３０、サーバ５０、あらかじめ設定された所定期間が同じ通信履歴情報を分類する。所定期間は、例えば、同じ年月日、同じ年月日と時間帯、年月日が近い期間などである。

【0075】

次に、抽出部１１は、分類した通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出する（ステップＡ２）。

【0076】

次に、抽出部１１は、通信元と通信先と通信日時と特徴ベクトルとを関連付けてデータを生成する（ステップＡ３）。

【0077】

具体的には、ステップ３において、抽出部１１は、クライアント３０を識別する情報と、サーバ５０を識別する情報と、所定期間を表す情報と、抽出した特徴ベクトルとを関連付けてデータを生成し、記憶部２２に記憶する。

【0078】

次に、生成部１２は、記憶部２２のデータの通信元と通信先とに基づいて、正例又は負例となるデータの組を抽出する（ステップＡ４）。

【0079】

具体的には、ステップＡ１において、生成部１２は、記憶部２２のデータを参照して、クライアント３０とサーバ５０とが同じデータの組（正例の組）を抽出する。

【0080】

また、ステップＡ１において、生成部１２は、記憶部２２（データセット）のデータを参照して、クライアント３０とサーバ５０とが異なるデータの組（負例の組）を抽出する。

【0081】

また、生成部１２は、記憶部２２（データセット）のデータを参照して、クライアント３０とサーバ５０とが同じで、かつクライアント３０とサーバ５０とに関連付けられた通信日時が、あらかじめ設定された期間内のデータの組（正例の組）を抽出してもよい。

【0082】

次に、生成部１２は、抽出した組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する（ステップＡ５）。

【0083】

計量学習方法について説明する。
図８に示すように、まず、学習部１３は、サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルの学習をする（ステップＢ１）。

【0084】

次に、学習部１３は、計量学習をしたニューラルネットワークの構造を表す情報と、その重みを表す情報とを記憶部２３（変換モデル）に記憶する（ステップＢ２）。

【0085】

検索方法について説明する。
図９に示すように、まず、検索部１４は、検索対象のデータを取得する（ステップＣ１）。次に、検索部１４は、検索対象のデータの特徴ベクトルＸｑの次元を、変換モデルを用いて、低次元ベクトルＺｑに変換する（ステップＣ２）。

【0086】

次に、検索部１４は、記憶部２２（データセット）からデータを取得する（ステップＣ３）。次に、検索部１４は、取得したデータの特徴ベクトルＸｉの次元を、変換モデルを用いて、低次元ベクトルＺｉに変換する（ステップＣ４）。

【0087】

次に、検索部１４は、低次元ベクトルＺｑと低次元ベクトルＺｉとの距離ｄ（Ｚｑ，Ｚｉ）を算出する（ステップＣ５）。

【0088】

次に、検索部１４は、距離ｄ（Ｚｑ，Ｚｉ）があらかじめ設定された閾値以下であるか否かを判定する（ステップＣ６）。距離ｄ（Ｚｑ，Ｚｉ）が閾値以下である場合（ステップＣ６：Ｙｅｓ）、検索部１４は、特徴ベクトルＸ１が検索対象のデータの特徴ベクトルＸｑに類似していると判定する（ステップＣ７）。

【0089】

なお、距離ｄ（Ｚｑ，Ｚｉ）が閾値より大きい場合（ステップＣ６：Ｎｏ）、検索部１４は、特徴ベクトルＸ１が、検索対象のデータの特徴ベクトルＸｑに類似していないと判定する（ステップＣ８）。

【0090】

次に、記憶部２２に記憶されているｎ個のデータに対して検索処理が終了した場合（ステップＣ９：Ｙｅｓ）、検索対象のデータに対する検索処理を終了する。検索処理が終了した場合（ステップＣ９：Ｎｏ）、ステップＣ３のステップに移行する。

【0091】

［実施形態１の効果］
以上のように実施形態１によれば、上述したサンプルデータ生成装置（抽出部１１、生成部１２から構成される装置）を用いることで、計量学習で用いるサンプルデータを効率よく生成することができる。また、計量学習で用いるサンプルデータの数が少ない場合でも、自動でサンプルデータを生成できるので、セキュリティ対策の従事者の作業を抑制できる。

【0092】

また、上述した計量学習装置（抽出部１１、生成部１２、学習部１３から構成される装置）を用いることで、サンプルデータを用いて計量学習した、特徴ベクトルを低次元ベクトルに変換する変換モデルを生成することができる。

【0093】

すなわち、変換モデルは、セキュリティ対策の従事者が類似判断を行う場合において重要な情報を踏まえて学習がされモデルであるため、人に近い感覚で類似する脅威を検出できる。変換モデルは、計量学習で一般的に用いられる分類情報を用いずに学習されたモデルである。

【0094】

さらに、上述した検索装置（抽出部１１、生成部１２、学習部１３、検索部１４から構成される装置）を用いることで、セキュリティ対策の従事者が、検索条件を作成しなくても、通信履歴情報の特徴を用いて類似する脅威を検索できる。また、類似する脅威の確認についても、セキュリティ対策の従事者の作業を抑制できる。

【0095】

さらに、類似する脅威を、セキュリティ対策の従事者が抽出したように（人の感覚で）、ドメイン知識を活用して類似するデータを自動で抽出できる。

【0096】

なお、実施形態１では、通信履歴情報としてプロキシサーバのアクセスログを例として説明したが、本発明で用いる通信履歴情報をプロキシサーバのアクセスログに限定するものではない。通信元と通信先の通信に関するログであり、通信元と通信先が同一であれば一定の定常性を期待できるログであれば適用可能である。具体的には、例えば、ファイアウォールのログやルータのフロー情報などを用いてもよい。

【0097】

［プログラム］
実施形態１におけるプログラムは、コンピュータに、図７に示すステップＡ１からＡ５、図８に示すステップＢ１からＢ２、図９に示したステップＣ１からＣ７を実行させるプログラムであればよい。

【0098】

このプログラムをコンピュータにインストールし、実行することによって、実施形態１における情報処理装置（サンプルデータ生成装置、計量学習装置、検索装置）と、サンプルデータ生成方法、計量学習方法、検索方法とを実現することができる。この場合、コンピュータのプロセッサは、抽出部１１、生成部１２、学習部１３、検索部１４として機能し、処理を行なう。

【0099】

また、実施形態１におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、抽出部１１、生成部１２、学習部１３、検索部１４のいずれかとして機能してもよい。

【0100】

（実施形態２）
以下、実施形態２における情報処理装置について説明する。実施形態１と実施形態２との違いは、セキュリティ対策の従事者があらかじめ作成した教師データを計量学習に用いる点である。

【0101】

［装置構成］
実施形態２における情報処理装置について図面を参照しながら説明する。図１０は、情報処理装置の一例を説明するための図である。図１０に示す情報処理装置１０′は、抽出部１１、生成部１２、学習部１３′、検索部１４、受付部１５を有する。また、情報処理装置１０′の内部又は外部に、記憶部２１、２２、２３、２４を有する。

【0102】

情報処理装置１０をサンプルデータ生成装置として用いる場合には、抽出部１１と生成部１２を有する構成とする。また、情報処理装置１０を計量学習装置として用いる場合には、抽出部１１と生成部１２と学習部１３′と受付部１５とを有する構成とする。また、情報処理装置１０を検索装置として用いる場合には、抽出部１１と生成部１２と学習部１３′と検索部１４と受付部１５とを有する構成とする。

【0103】

情報処理装置１０′について説明する。
抽出部１１及び生成部１２については、実施形態１で既に説明したので説明を省略する。

【0104】

受付部１５は、セキュリティ対策の従事者があらかじめ作成した教師データを受け付ける。受付部１５は、受け付けた教師データを記憶部２４（教師データ）に記憶する。受付部１５を設けることで、サンプルデータに加えて、教師データを人手で与えることができる。

【0105】

教師データは、記憶部２３に記憶されているデータセットに含まれるデータの組と、正例又は負例を表す正解ラベルとが関連付けられた情報で、記憶部２４に記憶されている。図１１は、教師データの一例を説明するための図である。図１１の例では、データセットに含まれるデータの組と、正解ラベルとが関連付けられたデータである。正解ラベルは、正例の組である場合に「１」、負例の場合には「０」を付与する。

【0106】

学習部１３′は、生成部１２で生成したサンプルデータと教師データとを用いて、計量学習をする。学習部１３′は、教師データに含まれる組が生成部１２で抽出したサンプルデータに含まれる場合、教師データを優先して用いる。

【0107】

具体的には、学習部１３′は、サンプルデータの組が、あらかじめ設定された正例又は負例を表す正解ラベルが付された教師データの組と一致した場合、そのサンプルデータの組は学習に利用しない。つまり、教師データの正解ラベルを採用する。

【0108】

加えて、ロス関数において教師データの重みをサンプルデータより大きく設定し、変換モデルを学習する。教師データの重みを大きくして学習することで、教師データの組の類似／非類似が変換後の距離に反映されやすくする。その結果、セキュリティ対策の従事者の意図を反映させる。

【0109】

［装置動作］
実施形態２における情報処理装置の動作について図１２を用いて説明する。図１２は、計量学習装置の動作の一例を説明するための図である。

【0110】

以下の説明においては、適宜図を参照する。また、実施形態２では、情報処理装置を動作させることによって、サンプルデータ生成方法、計量学習方法、検索方法が実施される。サンプルデータ生成方法と検索方法の説明については、実施形態１で既に説明したので省略する。実施形態２における計量学習方法の説明は、以下の情報処理装置の動作説明に代える。

【0111】

計量学習方法について説明する。
図１２に示すように、まず、学習部１３′は、サンプルデータと教師データとを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルの学習をする（ステップＢ１′）。

【0112】

次に、学習部１３′は、計量学習をしたニューラルネットワークの構造と、その重みとを記憶部２３（変換モデル）に記憶する（ステップＢ２′）。

【0113】

［実施形態２の効果］
以上のように実施形態２によれば、実施形態１の効果に加え、更に、セキュリティ対策の従事者の意図を反映させることができる。

【0114】

［プログラム］
実施形態２におけるプログラムは、コンピュータに、図７に示すステップＡ１からＡ５、図１２に示すステップＢ１′からＢ２′、図９に示したステップＣ１からＣ７を実行させるプログラムであればよい。

【0115】

このプログラムをコンピュータにインストールし、実行することによって、実施形態２における情報処理装置（サンプルデータ生成装置、計量学習装置、検索装置）と、サンプルデータ生成方法、計量学習方法、検索方法とを実現することができる。この場合、コンピュータのプロセッサは、抽出部１１、生成部１２、学習部１３′、検索部１４、受付部１５として機能し、処理を行なう。

【0116】

また、実施形態２におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、抽出部１１、生成部１２、学習部１３′、検索部１４、受付部１５のいずれかとして機能してもよい。

【0117】

［物理構成］
ここで、実施形態１、２におけるプログラムを実行することによって、情報処理装置を実現するコンピュータについて図１３を用いて説明する。図１３は、実施形態１、２における情報処理装置を実現するコンピュータの一例を説明するための図である。

【0118】

図１３に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡを備えていてもよい。

【0119】

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置である。また、本実施形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。なお、記録媒体１２０は、不揮発性記録媒体である。

【0120】

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

【0121】

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

【0122】

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）などの磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

【0123】

なお、実施形態１、２における情報処理装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。さらに、情報処理装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

【0124】

［付記］
以上の実施形態に関し、更に以下の付記を開示する。上述した実施形態の一部又は全部は、以下に記載する（付記１）から（付記２７）により表現することができるが、以下の記載に限定されるものではない。

【0125】

（付記１）
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出部と、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成部と、
を有するサンプルデータ生成装置。

【0126】

（付記２）
付記１に記載のサンプルデータ生成装置であって、
前記抽出部は、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成し、
前記生成部は、前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する
サンプルデータ生成装置。

【0127】

（付記３）
付記２に記載のサンプルデータ生成装置であって、
前記生成部は、前記データの前記通信元と前記通信先とが同じデータの組を抽出し、抽出した前記組を正例とする
サンプルデータ生成装置。

【0128】

（付記４）
付記２又は３に記載のサンプルデータ生成装置であって、
前記生成部は、前記データの前記通信元と前記通信先とが異なるデータの組を抽出し、抽出した前記組を負例とする
サンプルデータ生成装置。

【0129】

（付記５）
付記２から４のいずれか一つに記載のサンプルデータ生成装置であって、
前記生成部は、前記データの前記通信元と前記通信先とが同じで、かつ前記通信元と前記通信先とに関連付けられた前記通信日時が、あらかじめ設定された期間内のデータの組を抽出し、抽出した前記組を正例とする
サンプルデータ生成装置。

【0130】

（付記６）
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、抽出ステップと、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップと、
を有するサンプルデータ生成方法。

【0131】

（付記７）
付記６に記載のサンプルデータ生成方法であって、
前記抽出ステップにおいて、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、
前記生成ステップにおいて、前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する
サンプルデータ生成方法。

【0132】

（付記８）
付記７に記載のサンプルデータ生成方法であって、
前記生成ステップにおいて、前記データの前記通信元と前記通信先とが同じデータの組を抽出し、抽出した前記組を正例とする
サンプルデータ生成方法。

【0133】

（付記９）
付記７又は８に記載のサンプルデータ生成方法であって、
前記生成ステップにおいて、前記データの前記通信元と前記通信先とが異なるデータの組を抽出し、抽出した前記組を負例とする
サンプルデータ生成方法。

【0134】

（付記１０）
付記７から９のいずれか一つに記載のサンプルデータ生成方法であって、
前記生成ステップにおいて、前記データの前記通信元と前記通信先とが同じで、かつ前記通信元と前記通信先とに関連付けられた前記通信日時が、あらかじめ設定された期間内のデータの組を抽出し、抽出した前記組を正例とする
サンプルデータ生成方法。

【0135】

（付記１１）
コンピュータに、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出ステップと、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップと
を実行させる命令を含むプログラム。

【0136】

（付記１２）
付記１１に記載のプログラムであって、
前記抽出ステップにおいて、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成し、
前記生成ステップにおいて、前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する
プログラム。

【0137】

（付記１３）
付記１２に記載のプログラムであって、
前記生成ステップにおいて、前記データの前記通信元と前記通信先とが同じデータの組を抽出し、抽出した前記組を正例とする
プログラム。

【0138】

（付記１４）
付記１２又は１３に記載のプログラムであって、
前記生成ステップにおいて、前記データの前記通信元と前記通信先とが異なるデータの組を抽出し、抽出した前記組を負例とする
プログラム。

【0139】

（付記１５）
付記１２から１４のいずれか一つに記載のプログラムであって、
前記生成ステップにおいて、前記データの前記通信元と前記通信先とが同じで、かつ前記通信元と前記通信先とに関連付けられた前記通信日時が、あらかじめ設定された期間内のデータの組を抽出し、抽出した前記組を正例とする
プログラム。

【0140】

（付記１６）
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出部と、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成部と、
前記サンプルデータを用いて計量学習により変換モデルを学習する、学習部と、
を有する計量学習装置。

【0141】

（付記１７）
付記１６に記載の計量学習装置であって、
前記抽出部は、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成し、
前記生成部は、前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成し、
前記学習部は、前記サンプルデータを用いて、特徴ベクトルの次元を低次元ベクトルに変換する変換モデルを学習する、
計量学習装置。

【0142】

（付記１８）
付記１７に記載の計量学習装置であって、
前記学習部は、前記サンプルデータの組が、あらかじめ設定された正例又は負例を表す正解ラベルが付された教師データの組と一致した場合、前記サンプルデータの組は学習に利用しない
計量学習装置。

【0143】

（付記１９）
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出ステップと、
分類した前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップと、
前記サンプルデータを用いて計量学習により変換モデルを学習する、学習ステップと、
を有する計量学習方法。

【0144】

（付記２０）
付記１９に記載の計量学習方法であって、
前記抽出ステップにおいて、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、
前記生成ステップにおいて、前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成し、
前記学習ステップにおいて、前記サンプルデータを用いて、特徴ベクトルの次元を低次元ベクトルに変換する変換モデルを学習する
計量学習方法。

【0145】

（付記２１）
付記２０に記載の計量学習方法であって、
前記学習ステップにおいて、前記サンプルデータの組が、あらかじめ設定された正例又は負例を表す正解ラベルが付された教師データの組と一致した場合、前記サンプルデータの組は学習に利用しない
計量学習方法。

【0146】

（付記２２）
コンピュータに、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得する、抽出ステップと、
分類された前記通信履歴情報と前記通信元と前記通信先と前記通信日時とを関連付けて生成したデータに、正解ラベルを付与して計量学習で用いるサンプルデータとして生成する、生成ステップと、
前記サンプルデータを用いて計量学習により変換モデルを学習する、学習ステップと、
を実行させる命令を含むプログラム。

【0147】

（付記２３）
付記２２に記載のプログラムであって、
前記抽出ステップにおいて、通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成し、
前記生成ステップにおいて、前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成し、
前記学習ステップにおいて、前記サンプルデータを用いて、特徴ベクトルの次元を低次元ベクトルに変換する変換モデルを学習する
プログラム。

【0148】

（付記２４）
付記２３に記載のプログラムであって、
前記学習ステップにおいて、前記サンプルデータの組が、あらかじめ設定された正例又は負例を表す正解ラベルが付された教師データの組と一致した場合、前記サンプルデータの組は学習に利用しない
プログラム。

【0149】

（付記２５）
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出部と、
前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成部と、
前記サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルを学習する、学習部と、
検索対象の特徴ベクトルを前記変換モデルにより変換した低次元ベクトルと、前記データの特徴ベクトルを前記変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した前記距離があらかじめ設定された距離以内にあるデータを検索する、検索部と、
を有する検索装置。

【0150】

（付記２６）
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、抽出ステップと、
前記データの前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成ステップと、
前記サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルを学習する、学習ステップと、
検索対象の特徴ベクトルを前記変換モデルにより変換した低次元ベクトルと、前記データの特徴ベクトルを前記変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した前記距離があらかじめ設定された距離以内にあるデータを検索する、検索ステップと、
を有する検索方法。

【0151】

（付記２７）
コンピュータに、
通信元と通信先と通信日時とに基づいて分類された通信履歴情報を取得し、分類された前記通信履歴情報を用いて通信の特徴を表す特徴ベクトルを抽出し、前記通信元と前記通信先と前記通信日時と前記特徴ベクトルとを関連付けてデータを生成する、生成ステップと、
前記データの前記通信元と前記通信先とに基づいて、正例又は負例となるデータの組を抽出し、抽出した前記組に正例又は負例を表す正解ラベルを付与して計量学習で用いるサンプルデータを生成する、生成ステップと、
前記サンプルデータを用いて、特徴ベクトルを低次元ベクトルに変換する変換モデルを学習する、学習ステップと、
検索対象の特徴ベクトルを前記変換モデルにより変換した低次元ベクトルと、前記データの特徴ベクトルを前記変換モデルにより変換した低次元ベクトルとの距離を算出し、算出した前記距離があらかじめ設定された距離以内にあるデータを検索する、検索ステップと、
を実行させる命令を含むプログラム。

【0152】

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【産業上の利用可能性】

【0153】

以上のように本発明によれば、計量学習で用いるサンプルデータを効率よく生成することができる。本発明は、脅威ハンティングが必要な分野において有用である。

【符号の説明】

【0154】

１サンプルデータ生成装置
１０、１０´ 情報処理装置
１１抽出部
１２生成部
１３、１３´ 学習部
１４検索部
１５受付部
２０プロキシサーバ
２１、２２、２３、２４記憶部
３０、３０ａ、３０ｂ、３０ｃクライアント
４０ネットワーク
５０、５０ａ、５０ｂ、５０ｃサーバ
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

【図1】