(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-03
(45)【発行日】2025-03-11
(54)【発明の名称】情報分析装置、情報分析方法、及びプログラム
(51)【国際特許分類】
G06F 16/33 20250101AFI20250304BHJP
【FI】
G06F16/33
(21)【出願番号】P 2023508216
(86)(22)【出願日】2021-03-23
(86)【国際出願番号】 JP2021011985
(87)【国際公開番号】W WO2022201307
(87)【国際公開日】2022-09-29
【審査請求日】2023-09-15
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】弁理士法人ブライタス
(72)【発明者】
【氏名】川北 将
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2008-140313(JP,A)
【文献】特開2011-204106(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出部と、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出部と、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完部と、
を備えている、
ことを特徴とする情報分析装置。
【請求項2】
請求項1に記載の情報分析装置であって、
前記被害情報が、前記被害の発生時期、被害を受けた組織、及び被害の内容を少なくとも含み、
前記専門情報抽出部が、前記専門的な情報に含まれる被害の発生時期と、前記被害情報に含まれる前記被害の発生時期と、の差分を求め、求めた差分が設定範囲内にある前記専門的な情報を抽出する、
ことを特徴とする情報分析装置。
【請求項3】
請求項1に記載の情報分析装置であって、
前記類似度算出部が、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを用いて、前記類似度として、コサイン類似度を算出する、
ことを特徴とする情報分析装置。
【請求項4】
請求項1に記載の情報分析装置であって、
前記類似度算出部が、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門的な情報に含まれる単語との類似関係を機械学習している学習モデルに入力し、前記学習モデルからの出力結果に基づいて、前記類似度を算出する、
ことを特徴とする情報分析装置。
【請求項5】
請求項1に記載の情報分析装置であって、
コンピュータシステムで生成されたログ情報から前記専門的な情報を生成し、生成した前記専門的な情報を前記データベースに蓄積する、専門情報生成部を、
更に備えている、
ことを特徴とする情報分析装置。
【請求項6】
請求項1に記載の情報分析装置であって、
ニュース記事からサイバー攻撃の被害に関する被害情報を抽出する、被害情報抽出部を更に備え、
前記被害情報抽出部は、コンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定し、前記ニュース記事から、特定した前記被害の内容を含む前記被害情報を抽出する、
ことを特徴とする情報分析装置。
【請求項7】
コンピュータが実行する方法であって、
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出し、
前記被害情報と抽出された前記専門的な情報との類似度を算出し、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、
ことを特徴とする情報分析方法。
【請求項8】
請求項7に記載の情報分析方法であって、
前記被害情報が、前記被害の発生時期、被害を受けた組織、及び被害の内容を少なくとも含み、
前記専門
的な情報の抽出において、前記専門的な情報に含まれる被害の発生時期と、前記被害情報に含まれる前記被害の発生時期と、の差分を求め、求めた差分が設定範囲内にある前記専門的な情報を抽出する、
ことを特徴とする情報分析方法。
【請求項9】
請求項7に記載の情報分析方法であって、
前記類似度の算出において、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを用いて、前記類似度として、コサイン類似度を算出する、
ことを特徴とする情報分析方法。
【請求項10】
請求項7に記載の情報分析方法であって、
前記類似度の算出において、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門的な情報に含まれる単語との類似関係を機械学習している学習モデルに入力し、前記学習モデルからの出力結果に基づいて、前記類似度を算出する、
ことを特徴とする情報分析方法。
【請求項11】
請求項7に記載の情報分析方法であって、
更に、コンピュータシステムで生成されたログ情報から前記専門的な情報を生成し、生成した前記専門的な情報を前記データベースに蓄積する、
ことを特徴とする情報分析方法。
【請求項12】
請求項7に記載の情報分析方法であって、
更に、ニュース記事からサイバー攻撃の被害に関する被害情報を抽出し、
前記被害情報の抽出において、コンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定し、前記ニュース記事から、特定した前記被害の内容を含む前記被害情報を抽出する、
ことを特徴とする情報分析方法。
【請求項13】
コンピュータに、
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出させ、
前記被害情報と抽出された前記専門的な情報との類似度を算出させ、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完させる、
プログラム。
【請求項14】
請求項13に記載のプログラムであって、
前記被害情報が、前記被害の発生時期、被害を受けた組織、及び被害の内容を少なくとも含み、
前記専門
的な情報の抽出において、前記専門的な情報に含まれる被害の発生時期と、前記被害情報に含まれる前記被害の発生時期と、の差分を求め、求めた差分が設定範囲内にある前記専門的な情報を抽出する、
ことを特徴とするプログラム。
【請求項15】
請求項13に記載のプログラムであって、
前記類似度の算出において、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを用いて、前記類似度として、コサイン類似度を算出する、
ことを特徴とするプログラム。
【請求項16】
請求項13に記載のプログラムであって、
前記類似度の算出において、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門的な情報に含まれる単語との類似関係を機械学習している学習モデルに入力し、前記学習モデルからの出力結果に基づいて、前記類似度を算出する、
ことを特徴とするプログラム。
【請求項17】
請求項13に記載のプログラムであって、
前記コンピュータに、更に、
コンピュータシステムで生成されたログ情報から前記専門的な情報を生成し、生成した前記専門的な情報を前記データベースに蓄積させる、
ことを特徴とするプログラム。
【請求項18】
請求項13に記載のプログラムであって、
前記コンピュータに、更に、
ニュース記事からサイバー攻撃の被害に関する被害情報を抽出させ、
前記被害情報の抽出において、コンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定し、前記ニュース記事から、特定した前記被害の内容を含む前記被害情報を抽出する、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サイバー攻撃に関する情報の分析を行うための、情報分析装置、及び情報分析方法に関し、更には、これらを実現するためのプログラムに関する。
【背景技術】
【0002】
近年、官公庁、企業等においては、システムがサイバー攻撃の対象となることが多く、システムのセキュリティを確保することが極めて重要となっている。このため、システムの運用においては、システムの脆弱性の情報、更には、攻撃の手口に関する情報といった、サイバー攻撃に関する情報を収集し、これらを用いて、必要な対策を施す必要がある。また、セキュリティの確保を図るための対策を施すためには、システムへの投資が伴うことから、サイバー攻撃に関する情報の収集は経営判断においても必要となる。
【0003】
このため、最新のニュース記事から、被害組織、業種、時期、被害内容といった、サイバー攻撃に関する情報を収集することが行われている。特許文献1は、最新のニュース記事から特定の情報を抽出するシステムを開示している。特許文献1に開示されたシステムは、最新のニュース記事から抽出した特徴語と、既存の過去のニュース記事から抽出した特徴語と、の類似度を算出し、前者の特徴語のうち類似度が上位の特徴語にタグを付与する。特許文献1に開示されたシステムによれば、サイバー攻撃に関する特徴語にタグが付与され、サイバー攻撃に関する情報の収集が可能となる。
【0004】
また、非特許文献1は、セキュリティレポートから、サイバー攻撃に関する情報(イベント情報)を抽出するための、技術を開示している。ここで、セキュリティレポートは、主に、セキュリティ対策に関するソフトウェアの開発及び関連サービスを提供するセキュリティベンダーによって提供されているレポートである。セキュリティレポートは、一般的な自然言語で記述されたニュースとは異なり、攻撃に用いられたソフトの名称、共通脆弱性識別子(CVE)のID、攻撃の手口等のといったサイバー攻撃に関する専門的な情報を、構造化された状態で提供することができる。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】中川舜太、永井達也、金原秀明、古本啓祐、瀧田愼、白石善明、高橋健志、毛利公美、高野泰洋、森井昌克、「脅威情報のモデル化のためのセキュリティレポートからのイベント情報の抽出」、信学技報, vol. 118, no. 486, ICSS2018-78, pp. 89-94, 2019年3月
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に開示されたシステムでは、サイバー攻撃の手口、サイバー攻撃を行ったサーバのIPアドレス、マルウェアの名前、脆弱性を特定する情報、といったサイバー攻撃についての専門的な情報を提供することは不可能である。このため、特許文献1に開示されたシステムから提供される情報だけでは、サイバー攻撃に対して必要な施策をとることは困難である。
【0008】
一方、非特許文献1に開示された技術では、被害者及び被害額といったサイバー攻撃における特徴的な情報を取得することが不可能である。このため、非特許文献1に開示された技術によって得られる情報だけでは、上述の経営判断を行うことが困難である。
【0009】
本発明の目的の一例は、サイバー攻撃に関するニュース記事に対して、不足している情報を補完し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するため、本発明の一側面における情報分析装置は、
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出部と、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出部と、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完部と、
を備えている、
ことを特徴とする。
【0011】
また、上記目的を達成するため、本発明の一側面における情報分析方法は、
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出ステップと、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出ステップと、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完ステップと、
を有する、
ことを特徴とする。
【0012】
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出ステップと、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出ステップと、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完ステップと、
を実行させる、ことを特徴とする。
【発明の効果】
【0013】
以上のように本発明によれば、サイバー攻撃に関するニュース記事に対して、不足している情報を補完することができる。
【図面の簡単な説明】
【0014】
【
図1】
図1は、実施の形態における情報分析装置の概略構成を示す構成図である。
【
図2】
図2は、実施の形態における情報分析装置の構成を具体的に示す構成図である。
【
図3】
図3は、実施の形態における被害情報及び専門情報の抽出処理と類似度算出のための前処理とを説明する図である。
【
図4】
図4は、実施の形態における類似度算出処理を説明する図である。
【
図5】
図5は、実施の形態における情報分析装置の動作を示すフロー図である。
【
図6】
図6は、実施の形態において専門情報が補完されたニュース記事の一例を示す図である。
【
図7】
図7は、実施の形態における情報分析装置の変形例1の構成を示す構成図である。
【
図8】
図8は、実施の形態における情報分析装置の変形例2の構成を示す構成図である。
【
図9】
図9は、実施の形態における情報分析装置を実現するコンピュータの一例を示すブロック図である。
【発明を実施するための形態】
【0015】
(実施の形態)
以下、実施の形態における、情報分析装置、情報分析方法、及びプログラムについて、
図1~
図9を参照しながら説明する。
【0016】
[装置構成]
最初に、実施の形態における情報分析装置の概略構成について
図1を用いて説明する。
図1は、実施の形態における情報分析装置の概略構成を示す構成図である。
【0017】
図1に示す実施の形態における情報分析装置10は、サイバー攻撃に関する情報の分析を行う装置である。
図1に示すように、情報分析装置10は、専門情報抽出部11と、類似度算出部12と、情報補完部13とを備えている。
【0018】
専門情報抽出部11は、サイバー攻撃に関する専門的な情報(以下「専門情報」と表記する。)を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、専門情報を抽出する。
【0019】
類似度算出部12は、被害情報と抽出された専門情報との類似度を算出する。情報補完部13は、算出された類似度に基づいて、被害情報に対応する専門情報を特定し、被害情報を含むニュース記事に対して、特定した専門情報を補完する。
【0020】
このように、実施の形態では、ニュース記事に対して、類似する専門情報が補完される。つまり、実施の形態では、サイバー攻撃に関するニュース記事に対して、不足している情報が補完される。
【0021】
続いて、
図2~
図4を用いて、実施の形態における情報分析装置10の構成及び機能について具体的に説明する。
図2は、実施の形態における情報分析装置の構成を具体的に示す構成図である。
図3は、実施の形態における被害情報及び専門情報の抽出処理と類似度算出のための前処理とを説明する図である。
図4は、実施の形態における類似度算出処理を説明する図である。
【0022】
図2に示すように、実施の形態において、情報分析装置10は、インターネット等のネットワーク40を介して、ニュースデータベース20と、専門情報データベース30とに、データ通信可能に接続される。
【0023】
ニュースデータベース20は、インターネット上で提供されるニュース記事を蓄積しているデータベースである。蓄積されているニュース記事は、Webサーバによって読み出され、Webサイト上に提示される。なお、
図2の例では、単一のニュースデータベース20のみが示されているが、実際には、多数のニュースデータベース20が存在している。
【0024】
専門情報データベース30は、上述した、専門情報を蓄積しているデータベースである。専門情報は、実施の形態では、例えば、サイバー攻撃の痕跡情報(IOC:Indicator of Compromise)である。IOCは、サイバー攻撃を受けたシステムの脆弱性に関する情
報(共通脆弱性識別子:CVE)、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口等を含む。
【0025】
IOCは、公的機関、ベンダー等から提供されていても良いし、上述したセキュリティレポートから既存のツール(例えば、Threat Report ATT&CK Mapper:TRAM)によって生
成されていても良いし、更には、人手によって記述されていても良い。更に、IOCは、STIX(脅威情報構造化:Structured Threat Information eXpression)形式で表現されていても良いし、攻撃手口(TTPs:Tactics, Techniques and Procedures)として、MITRE ATT&CK Technique IDを含んでいても良い(参照:https://www.ipa.go.jp/security/vuln/STIX.html)。
【0026】
STIX形式では、専門情報は、サイバー攻撃活動(Campaigns)、攻撃者(Threat_Actors)、攻撃手口(TTPs)、検知指標(Indicators)、観測事象(Observables)、インシデント(Incidents)、対処措置(Courses_Of_Action)、攻撃対象(Exploit_Targets)の8つの情報群で表現されている。これらの情報群は、相互に関連付けられて、脅威情報を表現している。
【0027】
また、
図2に示すように、情報分析装置10は、上述した専門情報抽出部11、類似度算出部12、及び情報補完部13に加えて、被害情報抽出部14と、検索処理部15と、情報格納部16とを備えている。
【0028】
被害情報抽出部14は、ニュースデータベース20にアクセスして、蓄積されているニュース記事を取得し、取得したニュース記事からサイバー攻撃の被害に関する被害情報を抽出する。
【0029】
実施の形態において、被害情報は、サイバー攻撃活動(Campaigns)に関する情報であ
る、被害の発生時期T、被害を受けた組織O、及び被害の内容D1を少なくとも含む。また、被害情報は、STIX形式に対応して、攻撃者(Threat Actors)、攻撃手口(TTPs)、
検知指標(Indicators)、観測事象(observables)、インシデント(Incidents)、対処措置(Courses Of Action)、攻撃対象(Exploit Targets)、それぞれに関する情報を含んでいても良い。
【0030】
具体的には、
図3に示すように、被害情報抽出部14は、ニュース記事から、抽出対象となる被害情報に該当する単語または文節を登録している辞書を用いて、被害情報として、被害の発生時期T、被害を受けた組織O、及び被害の内容D1等を表す単語又は文節を抽
出する。
【0031】
また、被害情報抽出部14は、機械学習モデルを用いて、ニュース記事から、被害情報として、被害の発生時期T、被害を受けた組織O、及び被害の内容D1等を表す単語又は文
節を抽出することもできる。この場合、機械学習モデルは、予め作成された訓練データとして、単語又は文節に対して抽出対象になるかどうかを示すラベルが付与された文書を用いて機械学習することで、構築される。
【0032】
更に、被害情報抽出部14は、実施の形態では、情報分析の対象となるコンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定することができる。この場合、被害情報抽出部14は、ニュース記事から、特定した被害の内容を含む被害情報を抽出する。脆弱性によって引き起こされる被害の内容の特定は、予め設定されたルールを用いることによって行うことができる。
【0033】
専門情報抽出部11は、実施の形態では、まず、専門情報データベース30にアクセスして、蓄積されている専門情報を取得する。そして、専門情報抽出部11は、取得した専門情報に含まれる被害の発生時期と、先に抽出された被害情報に含まれる被害の発生時期Tと、の差分を求め、求めた差分が設定範囲内(例えば2日以内等)にある専門情報を抽
出する。
【0034】
例えば、専門情報データベース30が、専門情報として、STIX形式で生成されたIOCを格納しているとする。この場合、
図3に示すように、専門情報抽出部11は、STIX形式に沿って、被害情報に関連する情報群を抽出する。
【0035】
類似度算出部12は、実施の形態では、例えば、被害情報に含まれる単語と、被害情報に対応する専門情報に含まれる単語とを用いて、類似度として、コサイン類似度を算出する。また、被害情報及び専門情報の少なくとも一方が複数ある場合は、類似度算出部12は、想定される被害情報と専門情報との組合せを設定し、組合せ毎に類似度を算出する。
【0036】
具体的には、
図3に示すように、類似度算出部12は、まず、被害情報に含まれる単語と、抽出された専門情報に含まれる単語とを特定し、特定された単語の中で重複する単語は1つに統合して、単語毎にID(Identifier)番号を設定する。次に、類似度算出部12は、被害情報、専門情報それぞれおいて、IDが設定された単語毎に、下記の数1~数3を用いて、当該単語の重要度を示すtf-idfを算出する。
【0037】
【0038】
【0039】
【0040】
続いて、類似度算出部12は、被害情報及び専門情報それぞれにおいて、IDが設定された単語の数を次元数(
図3の例では12)とし、算出された各単語のtf-idfを要素とするベクトルを生成する。
図3の例では、被害情報が2つ、専門情報が1つであるので、被害情報のベクトルV1が2つ、専門情報のベクトルV2が1つ、合計3つのベクトルが生成されている。
【0041】
そして、類似度算出部12は、予め設定されている単語毎の重みから重みw
iを求め、
図4に示すように、被害情報のベクトルV1と専門情報のベクトルV2とに重みwを適用して、両者の類似度を算出する。具体的には、類似度の算出は、下記の数4によって行われる。数4において、類似度はsimilarity(a,b,w)と表されている。また、数4において
、a、bは、類似度の算出対象となる文書のベクトルの要素を示し、w
iは単語毎の重みを示している。また、
図4においては、ベクトルV1として2つのベクトルが生成されているので、類似度として2つの値が算出されている。
【0042】
【0043】
また、実施の形態では、
図2に示すように、単語毎の重みw
iは、重み情報17として、情報格納部16に格納されている。各重みw
iとしては、予め人手によって設定された値が用いられていても良いが、ニューラルネットワークの出力値が用いられていても良い。この場合、ニューラルネットワークの機械学習は、訓練データとなる2つの文書のベクトルを入力し、そのときの出力値が適正な重みwとなるように、ニューラルネットワークのパラメータを更新することによって行われる。
【0044】
また、類似度算出部12は、被害情報に含まれる単語と、被害情報に対応する専門情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門情報に含まれる単語との類似関係を機械学習した学習モデルに入力し、学習モデルからの出力結果に基づいて、類似度を算出することもできる。この場合の学習モデルは、サイバー攻撃の被害を示す単語群と専門情報に含まれる単語群との組合せに、正解データとなる類似度が付与された訓練データを用いて、機械学習することによって構築される。
【0045】
情報補完部13は、実施の形態では、被害情報毎に、類似度が最大となる専門情報を特定し、特定した専門情報を、被害情報を含む(被害情報の抽出元の)ニュース記事に補完する。具体的には、情報補完部13は、特定した専門情報と、被害情報とを対比して、特定した専門情報の中から、被害情報において不足している情報を更に特定する。例えば、不足している情報が、サイバー攻撃を受けたシステムの脆弱性に関する情報であるCVEのIDである場合は、情報補完部13は、ニュース記事にCVEのIDを補完する。
【0046】
また、情報補完部13は、専門情報を補完したニュース記事を、補完済ニュース情報18として、情報格納部16に格納する。
【0047】
検索処理部15は、キーボード等の入力装置、又は外部の端末装置を介して入力された、検索クエリを受け付け、受け付けた検索クエリに基づいて、情報格納部16に格納されている補完済ニュース情報18の検索を実行する。
【0048】
具体的には、検索処理部15は、情報格納部16に格納されている補完済ニュース情報の中から、検索クエリと一致又は類似する被害情報を含む、ニュース記事を特定する。その後、検索処理部15は、検索の結果として、特定したニュース記事を、専門情報が補完された状態で、外部の表示装置の画面、端末装置の画面等に表示する。
【0049】
[装置動作]
次に、実施の形態における情報分析装置10の動作について
図5を用いて説明する。
図5は、実施の形態における情報分析装置の動作を示すフロー図である。以下の説明においては、適宜
図1~
図4を参照する。また、実施の形態では、情報分析装置10を動作させることによって、情報分析方法が実施される。よって、実施の形態における情報分析方法の説明は、以下の情報分析装置10の動作説明に代える。
【0050】
図5に示すように、最初に、被害情報抽出部14は、ニュースデータベース20にアクセスして、蓄積されているニュース記事を取得し、取得したニュース記事からサイバー攻撃の被害に関する被害情報を抽出する(ステップA1)。
【0051】
次に、専門情報抽出部11は、専門情報を蓄積している専門情報データベース30から、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、専門情報を抽出する(ステップA2)。
【0052】
具体的には、ステップA2では、専門情報抽出部11は、取得した専門情報に含まれる被害の発生時期と、先に抽出された被害情報に含まれる被害の発生時期Tと、の差分を求
め、求めた差分が設定範囲内(例えば2日以内等)にある専門情報を抽出する。
【0053】
次に、類似度算出部12は、まず、想定される被害情報と専門情報との組合せを設定する。そして、類似度算出部12は、組合せ毎に、被害情報及び専門情報それぞれについて、各単語のtf-idfの算出を行ってベクトルを生成し、生成したベクトルと重み情報17とを上記数4に適用して、両者の類似度を算出する(ステップA3)。
【0054】
次に、情報補完部13は、被害情報毎に、類似度が最大となる専門情報を特定する(ステップA4)。
【0055】
次に、情報補完部13は、ステップA4で特定した専門情報と、被害情報とを対比して、特定した専門情報の中から、被害情報において不足している情報を更に特定し、不足している情報を、被害情報の抽出元のニュース記事に補完する(ステップA5)。
【0056】
その後、情報補完部13は、ステップA5で専門情報が補完されたニュース記事を、補完済ニュース情報18として情報格納部16に格納する(ステップA6)。
【0057】
ステップA6の終了後、検索処理部15は、キーボード等の入力装置、又は外部の端末装置を介して、検索クエリが入力されると、それを受け付ける。そして、検索処理部15は、情報格納部16に格納されている補完済ニュース情報18の中から、検索クエリと一致又は類似する被害情報を含む、ニュース記事を特定する。特定されたニュース記事には専門情報が補完されている。その後、検索処理部15は、検索の結果として、専門情報が補完されているニュース記事を、外部の表示装置の画面、端末装置の画面等に表示する。
【0058】
ここで、
図6を用いて、専門情報が補完されたニュース記事の具体例について説明する。
図6は、実施の形態において専門情報が補完されたニュース記事の一例を示す図である。
【0059】
図6の例では、ニュース記事において枠線で囲まれた部分は、被害情報である。また、ニュース記事においては、被害情報には、対応する属性を示すラベルが付与されている。
図6に示すニュース記事の下に示される専門情報が補完対象となる専門情報である。この専門情報のうち、脆弱性に関する情報である「CVE」のIDだけが、被害情報において不足している。このため、
図6の例では、情報補完部13は、ニュース記事に対して、「CVE-2012-0611」を補完する。
【0060】
以上のように、実施の形態では、サイバー攻撃に関するニュース記事に対して、不足している専門情報が補完される。このため、通常のニュース記事のみでは、サイバー攻撃についての専門情報が取得できないため、システムの管理者は、どういう流れでサイバー攻撃が発生したのかを把握することはできないが、実施の形態によれば、このような把握が可能となる。
【0061】
[変形例1]
続いて、
図7を用いて、実施の形態における情報分析装置の変形例1について説明する。
図7は、実施の形態における情報分析装置の変形例1の構成を示す構成図である。
【0062】
図7に示すように、変形例1における情報分析装置10は、
図2に示した例と異なり、専門情報抽出部11、類似度算出部12、情報補完部13、被害情報抽出部14、検索処理部15、及び情報格納部16に加えて、専門情報生成部19を備えている。また、情報分析装置10は、分析対象となるコンピュータシステム50に、データ通信可能に接続されている。
【0063】
専門情報生成部19は、コンピュータシステム50で生成されたログ情報を取得し、取得したログ情報から専門情報を生成する。また、専門情報生成部19は、生成した専門情報を専門情報データベース30に新たに蓄積する。
【0064】
このように、変形例1では、コンピュータシステムで新たに発生した事象から、新たな専門情報を作成して、専門情報データベース30に格納されている情報を更新することができる。このため、変形例1によれば、ニュース記事への補完をより適切に行うことができる。なお、新たに生成した専門情報は、専門情報データベース30以外のデータベースであっても良い。
【0065】
[変形例2]
図8を用いて、実施の形態における情報分析装置10の変形例2について説明する。
図8は、実施の形態における情報分析装置の変形例2の構成を示す構成図である。
【0066】
図8に示すように、変形例2においては、
図2に示した例と異なり、情報分析装置10は、検索処理部を備えていない構成となっている。これ以外の点においては、情報分析装置10は、
図2に示した例と同様である。
【0067】
変形例2においては、情報分析装置10は、検索者が使用する端末装置60に、ネットワーク40を介して接続されている。そして、端末装置60は、
図2に示した検索処理部15と同様の検索処理部61と、情報格納部62とを備えている。
【0068】
そして、変形例2においては、情報分析装置10は、ニュース記事への専門情報の補完が行われると、ネットワーク40を介して、補完済ニュース記事18を、端末装置60に送信する。端末装置60は補完済ニュース記事18が送信されてくると、これらを、情報格納部62に格納する。
【0069】
この構成により、検索者は、端末装置60上で、検索クエリを入力することができる。この場合、検索処理部61は、端末装置60の情報格納部62にアクセスし、情報格納部62に格納されている補完済ニュース記事18の中から、検索クエリと一致又は類似するニュース記事を特定する。その後、検索処理部61は、特定したニュース記事を、端末装置60の画面に表示する。
【0070】
変形例2によれば、情報分析装置10自体に検索機能を備えさせる必要がなく、情報分析装置10におけるコストの低減が図られる。また、検索クエリが端末装置60から情報分析装置10に送信されることがないため、変形例によれば、検索クエリが、情報分析装置10の管理者に知られてしまう可能性が排除される
【0071】
[プログラム]
実施の形態におけるプログラムは、コンピュータに、
図5に示すステップA1~A6を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における情報分析装置10と情報分析方法とを実現することができる。この場合、コンピュータのプロセッサは、専門情報抽出部11、類似度算出部12、情報補完部13、及び被害情報抽出部14として機能し、処理を行なう。コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
【0072】
また、実施の形態では、情報格納部16は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。
【0073】
実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、専門情報抽出部11、類似度算出部12、情報補完部13、及び被害情報抽出部14のいずれかとして機能しても良い。
【0074】
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、情報分析装置10を実現するコンピュータについて
図9を用いて説明する。
図9は、実施の形態における情報分析装置を実現するコンピュータの一例を示すブロック図である。
【0075】
図9に示すように、コンピュータ110は、CPU(Central Processing Unit)11
1と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
【0076】
また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)
を備えていても良い。この態様では、GPU又はFPGAが、実施の形態におけるプログラムを実行することができる。
【0077】
CPU111は、記憶装置113に格納された、コード群で構成された実施の形態におけるプログラムをメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。
【0078】
また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
【0079】
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
【0080】
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
【0081】
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びS
D(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
【0082】
なお、実施の形態における情報分析装置10は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、情報分析装置10は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
【0083】
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記18)によって表現することができるが、以下の記載に限定されるものではない。
【0084】
(付記1)
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出部と、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出部と、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完部と、
を備えている、
ことを特徴とする情報分析装置。
【0085】
(付記2)
付記1に記載の情報分析装置であって、
前記被害情報が、前記被害の発生時期、被害を受けた組織、及び被害の内容を少なくとも含み、
前記専門情報抽出部が、前記専門的な情報に含まれる被害の発生時期と、前記被害情報に含まれる前記被害の発生時期と、の差分を求め、求めた差分が設定範囲内にある前記専門的な情報を抽出する、
ことを特徴とする情報分析装置。
【0086】
(付記3)
付記1または2に記載の情報分析装置であって、
前記類似度算出部が、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを用いて、前記類似度として、コサイン類似度を算出する、ことを特徴とする情報分析装置。
【0087】
(付記4)
付記1または2に記載の情報分析装置であって、
前記類似度算出部が、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門的な情報に含まれる単語との類似関係を機械学習している学習モデルに入力し、前記学習モデルからの出力結果に基づいて、前記類似度を算出する、
ことを特徴とする情報分析装置。
【0088】
(付記5)
付記1~4のいずれかに記載の情報分析装置であって、
コンピュータシステムで生成されたログ情報から前記専門的な情報を生成し、生成した前記専門的な情報を前記データベースに蓄積する、専門情報生成部を、
更に備えている、
ことを特徴とする情報分析装置。
【0089】
(付記6)
付記1~5のいずれかに記載の情報分析装置であって、
ニュース記事からサイバー攻撃の被害に関する被害情報を抽出する、被害情報抽出部を更に備え、
前記被害情報抽出部は、コンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定し、前記ニュース記事から、特定した前記被害の内容を含む前記被害情報を抽出する、
ことを特徴とする情報分析装置。
【0090】
(付記7)
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出ステップと、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出ステップと、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完ステップと、
を有する、
ことを特徴とする情報分析方法。
【0091】
(付記8)
付記7に記載の情報分析方法であって、
前記被害情報が、前記被害の発生時期、被害を受けた組織、及び被害の内容を少なくとも含み、
前記専門情報抽出ステップにおいて、前記専門的な情報に含まれる被害の発生時期と、前記被害情報に含まれる前記被害の発生時期と、の差分を求め、求めた差分が設定範囲内にある前記専門的な情報を抽出する、
ことを特徴とする情報分析方法。
【0092】
(付記9)
付記7または8に記載の情報分析方法であって、
前記類似度算出ステップにおいて、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを用いて、前記類似度として、コサイン類似度を算出する、
ことを特徴とする情報分析方法。
【0093】
(付記10)
付記7または8に記載の情報分析方法であって、
前記類似度算出ステップにおいて、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門的な情報に含まれる単語との類似関係を機械学習している学習モデルに入力し、前記学習モデルからの出力結果に基づいて、前記類似度を算出する、
ことを特徴とする情報分析方法。
【0094】
(付記11)
付記7~10のいずれかに記載の情報分析方法であって、
コンピュータシステムで生成されたログ情報から前記専門的な情報を生成し、生成した前記専門的な情報を前記データベースに蓄積する、専門情報生成ステップを、
更に有する、
ことを特徴とする情報分析方法。
【0095】
(付記12)
付記7~11のいずれかに記載の情報分析方法であって、
ニュース記事からサイバー攻撃の被害に関する被害情報を抽出する、被害情報抽出ステップを更に有し、
前記被害情報抽出ステップにおいて、コンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定し、前記ニュース記事から、特定した前記被害の内容を含む前記被害情報を抽出する、
ことを特徴とする情報分析方法。
【0096】
(付記13)
コンピュータに、
サイバー攻撃に関する専門的な情報を蓄積しているデータベースから、サイバー攻撃の被害の発生時期に基づいて、ニュース記事に含まれるサイバー攻撃の被害情報に関連する、前記専門的な情報を抽出する、専門情報抽出ステップと、
前記被害情報と抽出された前記専門的な情報との類似度を算出する、類似度算出ステップと、
算出された前記類似度に基づいて、前記被害情報に対応する前記専門的な情報を特定し、前記被害情報を含む前記ニュース記事に対して、特定した前記専門的な情報を補完する、情報補完ステップと、
を実行させる、プログラム。
【0097】
(付記14)
付記13に記載のプログラムであって、
前記被害情報が、前記被害の発生時期、被害を受けた組織、及び被害の内容を少なくとも含み、
前記専門情報抽出ステップにおいて、前記専門的な情報に含まれる被害の発生時期と、前記被害情報に含まれる前記被害の発生時期と、の差分を求め、求めた差分が設定範囲内にある前記専門的な情報を抽出する、
ことを特徴とするプログラム。
【0098】
(付記15)
付記13または14に記載のプログラムであって、
前記類似度算出ステップにおいて、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを用いて、前記類似度として、コサイン類似度を算出する、
ことを特徴とするプログラム。
【0099】
(付記16)
付記13または14に記載のプログラムであって、
前記類似度算出ステップにおいて、前記被害情報に含まれる単語と、前記被害情報に対応する前記専門的な情報に含まれる単語とを、サイバー攻撃の被害を示す単語と専門的な情報に含まれる単語との類似関係を機械学習している学習モデルに入力し、前記学習モデルからの出力結果に基づいて、前記類似度を算出する、
ことを特徴とするプログラム。
【0100】
(付記17)
付記13~16のいずれかに記載のプログラムであって、
前記コンピュータに、
コンピュータシステムで生成されたログ情報から前記専門的な情報を生成し、生成した前記専門的な情報を前記データベースに蓄積する、専門情報生成ステップを、
更に、実行させる、
ことを特徴とするプログラム。
【0101】
(付記18)
付記13~17のいずれかに記載のプログラムであって、
前記コンピュータに、
ニュース記事からサイバー攻撃の被害に関する被害情報を抽出する、被害情報抽出ステップを、更に、実行させ、
前記被害情報抽出ステップにおいて、コンピュータシステムに存在する脆弱性の診断の結果に基づいて、診断の結果に示された脆弱性によって引き起こされる被害の内容を特定し、前記ニュース記事から、特定した前記被害の内容を含む前記被害情報を抽出する、
ことを特徴とするプログラム。
【0102】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0103】
以上のように本発明によれば、サイバー攻撃に関するニュース記事に対して、不足している情報を補完することができる。本発明は、サイバー攻撃についての分析が必要な種々の分野において有用である。
【符号の説明】
【0104】
10 情報分析装置
11 専門情報抽出部
12 類似度算出部
13 情報補完部
14 被害情報抽出部
15 検索処理部
16 情報格納部
17 重み情報
18 補完済ニュース情報
19 専門情報生成部
20 ニュースデータベース
30 専門情報データベース
40 ネットワーク
50 コンピュータシステム
60 端末装置
61 検索処理部
62 情報格納部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス