(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024101397
(43)【公開日】2024-07-29
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20240722BHJP
G06F 21/55 20130101ALI20240722BHJP
【FI】
G06F16/35
G06F21/55 320
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023005359
(22)【出願日】2023-01-17
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】川口 雄己
(72)【発明者】
【氏名】山嵜 麿与
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175KA12
(57)【要約】
【課題】インシデントに関する情報を適切に分類することを容易とする。
【解決手段】情報処理装置は、セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数のインシデント関連文書に含まれるインシデントが同一か否かを判定し、判定部の判定結果に基づき、複数のインシデント関連文書を用いて所定の関係グラフを生成し、関係グラフを用いて、所定の境界を作成する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数の該インシデント関連文書に含まれるインシデントが同一か否かを判定する判定部と、
前記判定部の判定結果に基づき、複数の前記インシデント関連文書を用いて所定の関係グラフを生成する生成部と、
前記関係グラフを用いて、所定の境界を作成する作成部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記生成部は、前記判定部により同一と判定された前記インシデントを含む複数の前記インシデント関連文書をノードとしてエッジを繋いだ、前記関係グラフを生成し、
前記作成部は、前記所定の境界として、複数の前記インシデント関連文書のエッジ密度に基づいて該インシデント関連文書の前記境界を作成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
所定の自然言語処理方法を用いて前記セキュリティ関連文書から前記インシデント関連文書を抽出し、
前記セキュリティ関連文書から、前記所定の識別情報として被害を受けた組織を識別する被害組織候補に関する情報と、被害の発生日時について正規化された日付情報とを抽出する抽出部を更に有する、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
予め設定された所定の条件に基づいて、対象となる前記インシデント関連文書を選定する選定部を更に有する、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項5】
情報処理装置で実行される情報処理方法であって、
セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数の該インシデント関連文書に含まれるインシデントが同一か否かを判定する判定工程と、
前記判定工程の判定結果に基づき、複数の前記インシデント関連文書を用いて所定の関係グラフを生成する生成工程と、
前記関係グラフを用いて、所定の境界を作成する作成工程と、
を含むことを特徴とする情報処理方法。
【請求項6】
セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数の該インシデント関連文書に含まれるインシデントが同一か否かを判定する判定ステップと、
前記判定ステップの判定結果に基づき、複数の前記インシデント関連文書を用いて所定の関係グラフを生成する生成ステップと、
前記関係グラフを用いて、所定の境界を作成する作成ステップと、
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
セキュリティインシデントに関する情報は、各種メディアやベンダ等から自然文の形式で共有されている。こうしたセキュリティインシデントに関する情報を対象とした利用方法として、特定観点において集計を行い統計情報の作成、特定の条件を満たすインシデント情報を検索等が挙げられる。一方で、近年では、セキュリティインシデント情報の情報源の増加により、複数の情報源から時系列のあるニュース情報等を掬い上げるコストが増加している。
【0003】
セキュリティインシデントに限らず、こうした様々な情報源からなる連続性のあるニュースストーリーを追跡するタスクは、TDT(Topic Detection and Tracking)として知られている。例えば、前述のTDTの解き方の複数のアプローチの1つとして、従来技術では、文書間の関係をグラフで示し、コミュニティ検出手法を組み合わせた方法が提案されている(例えば、非特許文献1を参照)。具体的には、前述の従来技術として、文書からTF-iDF(Term Frequency-inverse Document Frequency)ベースのキーワード抽出を行い、キーワードの一致率によってグラフを作成する方法が知られている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】P. Laban and M. A. Hearst, newsLens: building and visualizing long-ranging news stories, in Proceedings of the Events and Stories in the News Workshop, 2017, pp. 1-9.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、従来技術では、インシデントに関する情報を適切に分類することが難しい場合があった。
【0006】
例えば、異なる情報源から同一のインシデントの報告を受け付けた場合や、同一の情報源であっても続報等によって複数回報告を受け付けた場合に、本来同一であるセキュリティインシデントが複数文書に跨って出現する場合がある。しかし従来技術では、複数のセキュリティインシデントが含まれる情報を適切に比較することができない。そのため、従来技術では、セキュリティインシデント情報について特定観点における集計する際のカウントが難しくなる場合や、セキュリティインシデント情報を検索する際に複数回報告または報道されるようなインシデント以外の情報の発見が困難になる場合があった。
【0007】
さらに、従来技術に加えて人手による解析を行う場合にも、セキュリティインシデント情報の数が膨大なために、複数のインシデントに言及する文書を特定できず、同一のセキュリティインシデントを持つ記事をまとめることが難しい場合があった。
【課題を解決するための手段】
【0008】
そこで、上記の課題を解決し目的を達成するために、本発明の情報処理装置は、セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数の該インシデント関連文書に含まれるインシデントが同一か否かを判定する判定部と、前記判定部の判定結果に基づき、複数の前記インシデント関連文書を用いて所定の関係グラフを生成する生成部と、前記関係グラフを用いて、所定の境界を作成する作成部と、を有することを特徴とする。
【発明の効果】
【0009】
本発明は、インシデントに関する情報を適切に分類することを容易とする、という効果を奏する。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施形態に係る文書クラスタリングの概要を示す図である。
【
図2】
図2は、実施形態に係る情報処理装置の機能ブロックを示す図である。
【
図3】
図3は、実施形態に係る情報処理装置の装置構成の一例を示す図である。
【
図4】
図4は、実施形態に係る日付情報の正規化処理の一例を示すテーブル図である。
【
図5】
図5は、実施形態に係る表記ゆれの除去の一例を示す図である。
【
図6】
図6は、実施形態に係る関係グラフの概要を示す図である。
【
図7】
図7は、実施形態に係る情報処理方法のフローチャートの一例を示す図である。
【
図8】
図8は、実施形態に係る情報処理装置が実現されるコンピュータの一例を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、本発明を実施するための形態(以降、「実施形態」)について説明する。なお、各実施形態は、以下に記載する内容に限定されない。
【0012】
〔1.全体概要〕
本実施形態の情報処理装置100は、複数情報源からなるセキュリティ文書群について自動的に同じセキュリティインシデントに関する情報を判別し、グルーピングする技術である。そして、情報処理装置100は、セキュリティインシデントならではの同一性を定義することで2値分類器の学習および適用を可能とし、高精度な関係グラフ構築を行う技術を提供する。そのため、情報処理装置100は、特定観点においての統計化や、情報検索を可能とするという効果を提供する。
【0013】
なお、本実施形態では、セキュリティインシデントを構造化していくにあたり、セキュリティインシデントを被害組織ごとにカウントすることを前提に説明を行う。また、本実施形態における「セキュリティインシデント」とは、「特定可能なある組織が所有する情報システムのCIA(機密性、完全性、可用性)が意図せず損なわれた出来事、または、意図しないプログラムの実行やアクセスが確認され、CIAの損害が潜在的に発生していると見なせるもの」と定義する。
【0014】
また、「同じセキュリティインシデントであること(同一性)」とは、「ある二つのインシデントにおいて、被害組織、インシデントの日付、被害箇所が一致する場合に同一とみなす」と定義する。
【0015】
ここで、
図1を用いて、本実施形態の情報処理装置100により実現される複数情報源からなるセキュリティ文書群について、自動的に同じセキュリティインシデントに関する情報を判別しグルーピングする技術(クラスタリング技術)の概要を説明する。
図1は、実施形態に係る文書クラスタリングの概要を示す図である。
【0016】
本実施形態の情報処理装置100は、対象となる複数のセキュリティ関連文書10からインシデント関連文書を抽出し、関係グラフ11を作成する(
図1の(S1))。続けて、情報処理装置100は、グラフ化された文書関係とコミュニティ検出技術を組み合わせることによって、文書ベクトルをそのまま扱うよりも高精度なセキュリティインシデントのクラスタ境界12を決定する(
図1の(S2))。
【0017】
そして、情報処理装置100は、特定観点において統計情報を作成したり、特定の条件を満たすインシデント情報を検索したりといった、インシデント情報群を対象とした利用方法の提供を実現する(
図1の(S3))。
【0018】
次に、
図2を用いて、情報処理装置100による処理の一連の流れを説明する。
図2は、実施形態に係る情報処理装置100の機能ブロックを示す図である。なお、各処理の詳細は、後述の各機能部の項目で説明するため、本項目では概要のみを記載する。
【0019】
情報処理装置100による処理は、インシデント情報抽出フェイズ20と、クラスタフェイズ21の2フェイズに分けられる。まず、インシデント情報抽出フェイズ20について説明する。情報処理装置100の第1抽出部1311は、セキュリティ関連文書10から(
図2の(S1))、インシデント関連文書13を抽出する(
図2の(S2))。
【0020】
第2抽出部1312は、第1抽出部1311により抽出されたインシデント関連文書13から、インシデントの被害組織の候補を識別する識別情報(以降は、「被害組織識別情報」と表記)を抽出する(
図2の(S3))。他方、第3抽出部1313は、インシデント発生日に関する情報として所定の方法で正規化された日付情報(以降は、単に「日付情報」と表記)を抽出する(
図2の(S4))。
【0021】
ここで、抽出対象のセキュリティ関連文書10の文書集合が所定の規模より大きい場合、選定部132は、抽出された被害組織識別情報と日付情報とを用いて対象の文書を選定する(
図2の(S5))。そして、選定部132の処理により、処理対象の文章が絞り込まれ計算量削減の効果を奏する。
【0022】
次に、クラスタフェイズ21について説明する。判定部133は、複数のインシデント関連文書13について、抽出された被害組織識別情報と日付情報とに加えて、文書情報を用いて、当該複数文書に含まれるインシデントが同一か否か(同一性)を判定する(
図2の(S6))。
【0023】
生成部134は、判定部133によりインシデントが同一であると判定された複数のインシデント関連文書13について、複数の文書間にエッジをつないだ関係グラフ11を作成する(
図2の(S7))。
【0024】
なお、抽出されたインシデント関連文書13から作成された関係グラフ11は、複数のインシデントに言及する文書が媒介となりそれぞれのインシデントに言及する文書の分離が難しい。そこで、作成部135は、所定の方法を用いて関係グラフ11に基づき複数の文書間の境界を作成し、文書クラスタ14を作成する(
図2の(S8))。
【0025】
〔2.情報処理装置の構成〕
ここから、
図3を用いて、本実施形態に係る情報処理装置100の構成例について説明する。
図3は、実施形態に係る情報処理装置100の装置構成の一例を示す図である。
図3に示す通り、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0026】
(通信部110)
通信部110は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネット等の電気通信回線を介して通信を制御する。そして、通信部110は、必要に応じてネットワークと有線または無線で接続され、双方向に情報の送受信を行うことができる。
【0027】
(記憶部120)
記憶部120は、制御部130による各種処理に用いるデータおよびプログラムを格納する。そして、記憶部120は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置等で実現する。また、
図3に示す通り、記憶部120は、セキュリティ関連文書記憶部121と、インシデント関連文書記憶部122と、識別情報記憶部123と、関係グラフ記憶部124とを有する。
【0028】
(セキュリティ関連文書記憶部121)
セキュリティ関連文書記憶部121は、各種メディアやベンダ等から自然文形式で共有されるセキュリティインシデント情報を含む文書として、セキュリティ関連文書を記憶する。なお、セキュリティ関連文書記憶部121は、セキュリティインシデント情報を含む文書であれば、限定無く記憶できる。
【0029】
(インシデント関連文書記憶部122)
インシデント関連文書記憶部122は、第1抽出部1311によりセキュリティ関連文書から抽出されたインシデント関連文書を記憶する。なお、ここでいうインシデント関連文書とは、インシデントに関する情報を含む自然文形式の文書であってよい。なお、インシデント関連文書記憶部122は、インシデントに関する情報を含む文書であれば、限定無く記憶できる。
【0030】
(識別情報記憶部123)
識別情報記憶部123は、判定部133がインシデント関連文書について同一のインシデントか否かを判定するために用いる情報として、所定の識別情報を記憶する。具体的には、識別情報記憶部123は、所定の識別情報として被害組織識別情報123aと、日付情報123bとを記憶する。
【0031】
(被害組織識別情報123a)
被害組織識別情報123aは、インシデントの被害組織候補を識別する識別情報である。例えば、被害組織識別情報123aは、被害組織の候補を識別するテキスト、記号、値等であってよい。
【0032】
(日付情報123b)
日付情報123bは、インシデント発生日に関する情報として所定の方法で正規化された日付情報である。例えば、被害組織識別情報123aは、インシデント発生日について所定の正規化処理が行われたテキスト、日付情報等であってよい。
【0033】
(関係グラフ記憶部124)
関係グラフ記憶部124は、後述の生成部134により生成された関係グラフを記憶する。なお、関係グラフとは、インシデント関連文書をノードとみなし、インシデント同一性を満たしている任意の2文書間にエッジをつないだ文書関係グラフであってよい。また、関係グラフ記憶部124は、後述の作成部135により境界が作成された関係グラフ(文書クラスタ)についても記憶できる。
【0034】
(制御部130)
制御部130は、各種の処理手順等を規定したプログラムや処理データを一時的に格納するための内部メモリを有し、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路によって実現される。また、
図3に示す通り、制御部130は、抽出部131と、選定部132と、判定部133と、生成部134と、作成部135と、出力部136とを有する。
【0035】
(抽出部131)
抽出部131は、セキュリティ関連文書からインシデント関連文書と、被害組織識別情報123aと、日付情報123bとを抽出する。なお、抽出部131は、第1抽出部1311と、第2抽出部1312と、第3抽出部1313とを有し、前述した処理をそれぞれの機能部により実施する。
【0036】
(第1抽出部1311)
第1抽出部1311(抽出部)は、所定の自然言語処理方法を用いてセキュリティ関連文書からインシデント関連文書を抽出する。例えば、第1抽出部1311は、抽出方法として所定の機械学習の学習モデルを用いた抽出を行うことができる。なお、第1抽出部1311は、分類モデルとしてHierarchical Attention NetworkとFastTextの組み合わせ等を用いることができるが、あくまで一例であり分類モデル自体は特に限定されない。
【0037】
また、前述の分類モデルは、モデルの学習に「セキュリティインシデントについての定義」において示した基準(特定可能なある組織が所有する情報システムのCIAが意図せず損なわれた出来事、または、意図しないプログラムの実行やアクセスが確認され、CIAの損害が潜在的に発生していると見なせるもの等)でラベルを付与したデータを用いることができる。例えば、ラベル付与の対象外のデータは、被害者が特定できないフィッシングキャンペーンや、悪用が確認された脆弱性情報等が挙げられる。
【0038】
なお、第1抽出部1311は、対象のデータをデータベース等に入力するタイミングでインシデントに関連するデータのみを入力している場合や、既にタグ等が付与されている場合には、前述した処理をスキップしてよい。
【0039】
(第2抽出部1312)
第2抽出部1312(抽出部)は、セキュリティ関連文書から、所定の識別情報として被害を受けた組織を識別する被害組織候補に関する情報(被害組織識別情報123a)を抽出する。
【0040】
例えば、第2抽出部1312は、日本語解析器としてmecabやginza-electraの固有表現認識機能を組み合わせることで日本語記事を対象とする、被害組織候補に関する情報(被害組織識別情報123a)の抽出を行うことができる。なお、第2抽出部1312は、前述した抽出方法以外にも被害組織候補に関する情報を抽出可能な方法であれば用いることができる。
【0041】
(第3抽出部1313)
第3抽出部1313(抽出部)は、セキュリティ関連文書から、所定の識別情報として被害の発生日時について正規化された日付情報(日付情報123b)を抽出する。例えば、第3抽出部1313は、自然言語で書かれた時間情報表現を抽出および規格化するルールベースの解析器等を用いて、日本語自然文からの日時情報を抽出することができる。
【0042】
なお、日付情報には表記ゆれが存在する場合があるため、第3抽出部1313は、所定の正規化処理を行う。ここで、
図4を用いて、日付情報123bの正規化処理について説明する。
図4は、実施形態に係る日付情報123bの正規化処理の一例を示すテーブル図である。
【0043】
図4には、形態ごとの正規化処理のルールと正規化処理前後の日付情報とが示されている。例えば、第3抽出部1313は、形態が「粒度の粗い表現」の場合、「1か月(最低粒度は月単位)の期間に変換」の正規化ルールに基づいて、正規化処理前の「2022年4月に発生した~」という日付情報を、正規化処理後の「2022/04/01~2022/04/30」に変換(正規化処理)することができる。
【0044】
その他にも、第3抽出部1313は、形態が「月年の省略」の場合には正規化ルールとして「掲載日時および直前の日付情報と結合」を、形態が「相対的な表現」の場合には正規化ルールとして「掲載日からの相対日時に変換」を、それぞれ用いて正規化処理を行うことができる。なお、
図4に示した内容はあくまで一例であり、第3抽出部1313は、その他の形態に対して、必要に応じて設定された正規化ルールを用いて正規化処理を行うことが出来る。
【0045】
(選定部132)
ここで、
図3に戻り説明を続ける。選定部132は、予め設定された所定の条件に基づいて、対象となるインシデント関連文書を選定する。例えば、選定部132は、所定の条件としてインシデントが同一か否かの判定を行う対象のインシデント関連文書が所定の規模より大きい場合に計算量削減をするため、同一の組織が記載されており、かつ同一の被害日時が記載されている文書の組み合わせを選定することができる。
【0046】
さらに、選定部132は、インシデント関連文書の選定精度を向上させるために、当該文書内の「表記ゆれ」を比較および識別可能な文字列に変換する処理を行うことができる。ここで、
図5を用いて、選定部132により行われる表記ゆれの変換処理について説明する。
図5は、実施形態に係る表記ゆれの除去の一例を示す図である。
【0047】
図5には、「A&Tデータ」と「エー・アンド・ティ・データ」の2つの文字列が示されている。なお、ここでいう「A&Tデータ」と「エー・アンド・ティ・データ」は同じ組織であるという前提とする。このように、同じ組織であっても表記ゆれや略称等の存在により、文字列上は別組織と判定される場合がある。
【0048】
そこで、選定部132は、「A&Tデータ」について読み仮名を取得して「エーアンドティーデータ」に変換する。他方、選定部132は、「エー・アンド・ティ・データ」について記号を除去して、「エーアンドティデータ」に変換する。さらに、選定部132は、「エーアンドティーデータ(A&Tデータ)」と「エーアンドティデータ(エー・アンド・ティ・データ)」とについて、伸ばし棒を除去して「エアンドティデタ」に変換する。
【0049】
なお、選定部132は、伸ばし棒の除去処理については、例えば、アルファベットの「T」等のように「ティー表記」と「ティ表記」のように伸ばし棒の有無が混在する場合があるため、伸ばし棒は一律で削除する処理を実施している。また、選定部132は、前述した表記ゆれ変換処理について、その他の処理内容についても実施可能である。
【0050】
(判定部133)
ここで、
図3に戻り説明を続ける。判定部133は、セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数のインシデント関連文書に含まれるインシデントが同一か否かを判定する。例えば、判定部133は、所定の識別情報として、被害組織識別情報123aと日付情報123bとを用いて、複数のインシデント関連文書に含まれるインシデントが同一か否かを判定することができる。
【0051】
なお、判定部133の判定条件は、前述した「同じセキュリティインシデントであること(同一性)」の定義に依拠する。そのため、判定部133は、前述の定義が変更された場合は、当該変更後の定義に基づいてインシデント関連文書に含まれるインシデントが同一か否かを判定することができる。
【0052】
(生成部134)
生成部134は、判定部133の判定結果に基づき、複数のインシデント関連文書を用いて所定の関係グラフを生成する。具体的には、生成部134は、判定部133により同一と判定されたインシデントを含む複数のインシデント関連文書をノードとしてエッジを繋いだ、関係グラフを生成する。
【0053】
例えば、本実施形態において生成部134は、インシデント関連文書をノードとみなし、インシデント同一性を満たしている複数の文書間にエッジを繋ぐことで関係グラフを作成する。また、生成部134は、被害組織識別情報123aと日付情報123bと、更にSentence-BERT等でベクトル化した文書情報を、機械学習等の学習モデルとして用いる分類モデルに投入することで関係グラフを生成できる。
【0054】
言い換えると、生成部134は、被害組織識別情報123aと日付情報123bとによりセキュリティインシデントにより定められたインシデント関連文書を独立して処理することで、限られた学習データ(インシデント関連文書)から従来よりも精度が高い2値分類器(分類モデル)を用いて、関係グラフを生成することができる。
【0055】
ここで、
図6を用いて、生成部134による作成される関連グラフについて説明する。
図6は、実施形態に係る関係グラフの概要を示す図である。生成部134は、インシデントAに言及する文書と、インシデントBに言及する文書と、インシデントAおよびBに言及する文書とを用いて、
図6に示すような関係グラフ11を作成する。
【0056】
関係グラフ11は、前述したように各文書をノードとみなし、同一と判定された文書間にエッジを繋いだ構造を有する。例えば、関係グラフ11に含まれるA-1からA-4、は、インシデントAに言及する文書である。また、関係グラフ11に含まれるB-1からB-5は、インシデントBに言及する文書である。また、AB-1とAB-2は、インシデントAおよびBに言及する文書である。
【0057】
なお、このままでは、複数のインシデントに言及する文書(AB-1とAB-2)が媒介となり、それぞれのインシデントに言及する文書の分離が難しい。そこで、後述の作成部135は、複数のインシデント関連文書を分離するための所定の境界を作成する。
【0058】
(作成部135)
ここで、再び
図3に戻り説明を続ける。作成部135は、関係グラフを用いて、所定の境界を作成する。具体的には、作成部135は、所定の境界として、複数のインシデント関連文書のエッジ密度に基づいてインシデント関連文書の境界を作成する。
【0059】
そのため、作成部135は、関係グラフに基づき同一のインシデントに言及する文書の境界を作成する。例えば、
図6の例を用いて説明すると、作成部135は、インシデントAに言及する文書とインシデントBに言及する文書との境界について、AB-1とAB-2に係る領域を境界として作成してよい。
【0060】
なお、作成部135は、「エッジ密度」に基づいて複数文書間の境界を作成してよい。例えば、作成部135は、エッジ密度の高低の指標であるmodularityを用いたコミュニティ検出手法のLouvain法等を用いて、文書間のエッジ密度の判定を行うことができる。ただし、前提として、同一のインシデントに言及する文書同士のエッジの密度が高く、他のインシデントに言及する文書同士のエッジの密度が低いとする。
【0061】
さらに、特定の文書群と1エッジのみつながっている文書の場合も、同一のインシデントに言及すると扱われ精度の低下に繋がる場合がある。そこで、作成部135は、同一クラスタ内の平均エッジよりも著しく少ないノードを除外する「枝刈処理」を実施することができる。
【0062】
例えば、あるコミュニティについて、当該コミュニティ内のノードのうち一部でのみ過去の別事例に言及があった等の理由で、別インシデントのノードがコミュニティに含まれる場合がある。このような特異的なノードは、正しいノードと比較してコミュニティ内に張られたエッジの数が少なくなる。そこで、作成部135は、平均コミュニティ内エッジ数の半分を下回るようなノードについて、別コミュニティとする操作(枝刈処理)を実施して、除外する。
【0063】
(出力部136)
ここで、再び
図3に戻り説明を続ける。出力部136は、作成部135により作成された文書クラスタを所定の形式で出力する。例えば、出力部136は、作成部135により作成された文書クラスタを、管理者等が有する端末装置に、テキスト、数字、図等の形式で出力することができる。なお、出力部136は、出力する方法として管理者等が五感で知覚できる形式の情報であれば、特に限定無く出力することができる。
【0064】
〔3.処理手順〕
ここから、
図7を用いて、情報処理装置100の処理手順について説明する。
図7は、実施形態に係る情報処理方法のフローチャートの一例を示す図である。なお、各ステップは、入れ替えて実施されてもよいし、実施されないステップが存在してもよい。
【0065】
第1抽出部1311は、セキュリティ関連文書からインシデント関連文書を抽出する(工程S101)。第2抽出部1312は、インシデント関連文書から、被害組織識別情報を抽出する(工程S102)。続けて、第3抽出部1313は、インシデント関連文書から、日付情報を抽出する(工程S103)。なお、工程S102および工程S103の処理は、工程を入れ替えて実施されてもよい。
【0066】
選定部132は、インシデント関連文書が所定の規模より大きいか否かを判定する(工程S104)。ここで、選定部132によりインシデント関連文書が所定の規模より大きいと判定される場合(工程S104のYes)、選定部132は、所定の条件に基づき対象のインシデント関連文書を選定する(工程S105)。他方、選定部132によりインシデント関連文書が所定の規模より小さいと判定される場合(工程S104のNo)、選定部132は、工程S105の処理はスキップする。
【0067】
判定部133は、被害組織識別情報と日付情報とを用いてインシデントが同一か否かを判定する(工程S106)。ここで、判定部133によりインシデントが同一と判定される場合(工程S106のYes)、生成部134は、関連グラフを生成する(工程S107)。次に、作成部135は、エッジ密度に基づき複数文書間に境界を作成する(工程S108)。そして、出力部136は、境界が作成された文書クラスタを所定の形式で出力し(工程S109)、工程を終了する。
【0068】
他方、判定部133によりインシデントが同一でない判定される場合(工程S106のNo)、工程S107から工程S109までの処理をスキップして工程を終了する。
【0069】
〔4.効果〕
近年、情報源の増加により、複数の情報源から時系列のあるニュース情報等を掬い上げていくコストも増加している。こうした様々な情報源からなる連続性のあるニュースストーリーを追跡するタスクであるTDTの解き方には複数のアプローチが存在する。例えば、従来技術では、文書動詞の関係をグラフで示し、コミュニティ検出手法を組み合わせた方法として、TF-iDFベースのキーワード抽出を行い、キーワードの一致率によってグラフを作成する技術が知られている。
【0070】
また、キーワードではなく、TF-iDFやBOW(Bag Of Words)による表現を用いる技術が知られている。さらに、キーフレーズ抽出と同じイベントのキーフレーズが同期間に集中しやすいといった特徴を用いて、エッジの作成を行う技術が知られている。しかしながら、これまで、従来技術では、インシデントに関する情報を適切に分類することが難しい場合があった。
【0071】
他方、自然文のセキュリティインシデント情報を構造化する技術を用いて得られた情報から同一インシデントを判定する技術が知られている。具体的には、特定のサイバー攻撃のイベント情報を取得する技術や、固有表現抽出と関係抽出を用いてCTI(Cyber Threat Intelligence)情報を取得する技術が知られている。
【0072】
しかしながら、こうした手法を使い直接同一性判定を行う場合には、同一性の判定を目的とせずに特定のエンティティに着目して抽出あるいは構造化しているために、同一性を判定向けの情報が不足してしまう。例えば、従来技術では、取り扱える攻撃の種類が限定されていてサイバー攻撃に起因しない情報漏洩等のセキュリティインシデントが取り扱えないケースや、攻撃の手法を重視していて攻撃手法の記載が十分でない場合に扱えないケース等があった。
【0073】
そこで、本実施形態に係る情報処理装置100の判定部133は、セキュリティ関連文書から抽出されたインシデント関連文書と所定の識別情報とに基づき、複数のインシデント関連情報に含まれるインシデントが同一か否かを判定する。情報処理装置100の生成部134は、判定部133の判定結果に基づき、複数のインシデント関連文書を用いて所定の関係グラフを生成する。そして、情報処理装置100の作成部135は、関係グラフを用いて、所定の境界を作成する、ことを特徴とする。
【0074】
したがって、本実施形態によれば、インシデントに関する情報を適切に分類することを容易とする、という効果を奏する。
【0075】
具体的には、本実施形態の情報処理装置100は、クラスタフェイズにおいて文書を直接ベクトル化してクラスタリングするのではなく、文書関係グラフ化とコミュニティ検出技術を組み合わせることで、より高いクラスタリング精度を実現する。
【0076】
さらに、情報処理装置100は、セキュリティインシデントならではのインシデントの同一性を定義し、その定義に合わせて被害組織およびインシデント発生日時に注目したインシデント関連文書を用いて関係グラフを作成する。その結果、情報処理装置100は、同一性を定義することで2値分類システムの学習および適用、そして高精度な関係グラフ構築を可能とする、という効果を提供する。
【0077】
また、情報処理装置100は、インシデント関連文書を直接ベクトル化してクラスタリングするのではなく、文書関係グラフ化とコミュニティ検出技術を組み合わせることで、同インシデントに言及する文書の集合の特定を可能とする。その結果、情報処理装置100は、文書を直接ベクトル化してクラスタリングするよりも高い精度でのクラスタリングを可能とする、という効果を提供する。
【0078】
前述してきた通り、情報処理装置100は、情報源の違いや続報等の理由で同一インシデントに言及する文書が多数存在するために、特定観点における統計情報の作成時にノイズが発生する問題や、特定の条件を満たすインシデント情報の検索時に用いる情報がまとまっていない問題を解消できる、という効果を提供する。
【0079】
〔5.ハードウェア構成〕
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0080】
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を公知の方法で手動的に行うこともできる。この他、図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0081】
[プログラム]
一実施形態として、情報処理装置100を構成する各種の装置は、パッケージソフトウェアやオンラインソフトウェアとして、前述した情報処理プログラムを、所望のコンピュータにインストールさせることによって実装できる。例えば、上記の情報処理プログラムを情報処理装置に実行させることにより、情報処理装置100を構成する各種の装置として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
【0082】
図8は、実施形態に係る情報処理装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0083】
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0084】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、情報処理装置100を構成する各種の装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、情報処理装置100を構成する各種の装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0085】
また、前述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、前述した実施形態の処理を実行する。
【0086】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0087】
〔6.その他〕
以上、本実施形態について説明したが、本実施形態は、開示の一部をなす記述および図面により限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本実施形態の範疇に含まれる。
【符号の説明】
【0088】
10 セキュリティ関連文書
11 関係グラフ
12 クラスタ境界
13 インシデント関連文書
14 文書クラスタ
20 インシデント情報抽出フェイズ
21 クラスタフェイズ
100 情報処理装置
110 通信部
120 記憶部
121 セキュリティ関連文書記憶部
122 インシデント関連文書記憶部
123 識別情報記憶部
124 関係グラフ記憶部
130 制御部
131 抽出部
1311 第1抽出部
1312 第2抽出部
1313 第3抽出部
132 選定部
133 判定部
134 生成部
135 作成部
136 出力部
1000 コンピュータ
1010 メモリ
1011 ROM
1012 RAM
1020 CPU
1030 ハードディスクドライブインタフェース
1040 ディスクドライブインタフェース
1050 シリアルポートインタフェース
1060 ビデオアダプタ
1070 ネットワークインタフェース
1080 バス
1090 ハードディスクドライブ
1091 OS
1092 アプリケーションプログラム
1093 プログラムモジュール
1094 プログラムデータ
1100 ディスクドライブ
1110 マウス
1120 キーボード