(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-03
(45)【発行日】2025-03-11
(54)【発明の名称】情報分析装置、情報分析方法、及びプログラム
(51)【国際特許分類】
G06F 16/33 20250101AFI20250304BHJP
【FI】
G06F16/33
(21)【出願番号】P 2023508217
(86)(22)【出願日】2021-03-23
(86)【国際出願番号】 JP2021011986
(87)【国際公開番号】W WO2022201308
(87)【国際公開日】2022-09-29
【審査請求日】2023-09-08
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】弁理士法人ブライタス
(72)【発明者】
【氏名】木下 峻一
(72)【発明者】
【氏名】川北 将
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2008-140313(JP,A)
【文献】特開2011-204106(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出部と、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付け部と、
を備えている、
ことを特徴とする情報分析装置。
【請求項2】
請求項1に記載の情報分析装置であって、
前記特徴情報抽出部が、前記ニュース記事から、前記特徴情報として、前記サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出する、
ことを特徴とする情報分析装置。
【請求項3】
請求項1に記載の情報分析装置であって、
前記特徴情報抽出部が、前記ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定し、判定の結果、サイバー攻撃の被害の事例が含まれている場合に、前記ニュース記事から、前記特徴情報を抽出する、
ことを特徴とする情報分析装置。
【請求項4】
請求項1に記載の情報分析装置であって、
前記特徴情報紐付け部が、前記専門的な情報と、それが紐付けられた前記特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域に格納する、
ことを特徴とする情報分析装置。
【請求項5】
請求項1に記載の情報分析装置であって、
前記特徴情報紐付け部が、前記データベースにおける前記専門的な情報に付与されている日付と前記ニュース記事の公開日時とを比較し、前記専門的な情報に付与されている日付と前記ニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門的な情報と、を紐付ける、
ことを特徴とする情報分析装置。
【請求項6】
請求項1に記載の情報分析装置であって、
前記専門的な情報は、サイバー攻撃を受けたシステムの脆弱性に関する情報、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口のうち少なくとも1つを含む、
ことを特徴とする情報分析装置。
【請求項7】
請求項1に記載の情報分析装置であって、
前記特徴情報紐付け部が、前記専門的な情報が脆弱性に関する情報を含む場合に、前記脆弱性が引き起こす事象を特定し、特定した事象を含む前記特徴情報と、前記脆弱性に関する情報を含む前記専門的な情報と、を紐付ける、
ことを特徴とする情報分析装置。
【請求項8】
コンピュータが実行する方法であって、
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出し、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、
ことを特徴とする情報分析方法。
【請求項9】
請求項8に記載の情報分析方法であって、
前記特徴情報の抽出において、前記ニュース記事から、前記特徴情報として、前記サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出する、
ことを特徴とする情報分析方法。
【請求項10】
請求項8に記載の情報分析方法であって、
前記特徴情報の抽出において、前記ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定し、判定の結果、サイバー攻撃の被害の事例が含まれている場合に、前記ニュース記事から、前記特徴情報を抽出する、
ことを特徴とする情報分析方法。
【請求項11】
請求項8に記載の情報分析方法であって、
前記特徴情報の紐付けにおいて、前記専門的な情報と、それが紐付けられた前記特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域に格納する、
ことを特徴とする情報分析方法。
【請求項12】
請求項8に記載の情報分析方法であって、
前記特徴情報の紐付けにおいて、前記データベースにおける前記専門的な情報に付与されている日付と前記ニュース記事の公開日時とを比較し、前記専門的な情報に付与されている日付と前記ニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門的な情報と、を紐付ける、
ことを特徴とする情報分析方法。
【請求項13】
請求項8に記載の情報分析方法であって、
前記専門的な情報は、サイバー攻撃を受けたシステムの脆弱性に関する情報、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口のうち少なくとも1つを含む、
ことを特徴とする情報分析方法。
【請求項14】
請求項8に記載の情報分析方法であって、
前記特徴情報の紐付けにおいて、前記専門的な情報が脆弱性に関する情報を含む場合に、前記脆弱性が引き起こす事象を特定し、特定した事象を含む前記特徴情報と、前記脆弱性に関する情報を含む前記専門的な情報と、を紐付ける、
ことを特徴とする情報分析方法。
【請求項15】
コンピュータに、
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出させ、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付けさせる、
プログラム。
【請求項16】
請求項15に記載のプログラムであって、
前記コンピュータに、
前記特徴情報の抽出において、前記ニュース記事から、前記特徴情報として、前記サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出させる、
ことを特徴とするプログラム。
【請求項17】
請求項15に記載のプログラムであって、
前記コンピュータに、
前記特徴情報の抽出において、前記ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定し、判定の結果、サイバー攻撃の被害の事例が含まれている場合に、前記ニュース記事から、前記特徴情報を抽出させる、
ことを特徴とするプログラム。
【請求項18】
請求項15に記載のプログラムであって、
前記コンピュータに、
前記特徴情報の紐付けにおいて、前記専門的な情報と、それが紐付けられた前記特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域に格納させる、
ことを特徴とするプログラム。
【請求項19】
請求項15に記載のプログラムであって、
前記コンピュータに、
前記特徴情報の紐付けにおいて、前記データベースにおける前記専門的な情報に付与されている日付と前記ニュース記事の公開日時とを比較させ、前記専門的な情報に付与されている日付と前記ニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門的な情報と、を紐付させる、
ことを特徴とするプログラム。
【請求項20】
請求項15に記載のプログラムであって、
前記専門的な情報は、サイバー攻撃を受けたシステムの脆弱性に関する情報、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口のうち少なくとも1つを含む、
ことを特徴とするプログラム。
【請求項21】
請求項15に記載のプログラムであって、
前記コンピュータに、
前記特徴情報の紐付けにおいて、前記専門的な情報が脆弱性に関する情報を含む場合に、前記脆弱性が引き起こす事象を特定させ、特定した事象を含む前記特徴情報と、前記脆弱性に関する情報を含む前記専門的な情報と、を紐付させる、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サイバー攻撃に関する情報の分析を行うための、情報分析装置、及び情報分析方法に関し、更には、これらを実現するためのプログラムに関する。
【背景技術】
【0002】
近年、官公庁、企業等においては、システムがサイバー攻撃の対象となることが多く、システムのセキュリティを確保することが極めて重要となっている。このため、システムの運用においては、システムの脆弱性の情報、更には、攻撃の手口に関する情報といった、サイバー攻撃に関する情報を収集し、これらを用いて、必要な対策を施す必要がある。また、セキュリティの確保を図るための対策を施すためには、システムへの投資が伴うことから、サイバー攻撃に関する情報の収集は経営判断においても必要となる。
【0003】
これらの点に鑑み、サイバー攻撃に関する専門的な情報(イベント情報)の共有が行われている。サイバー攻撃に関する専門的な情報には、攻撃に用いられたソフトウェアの名称、共通脆弱性識別子(CVE)のID、攻撃の手口等の情報が含まれる。また、これらの情報は、構造化されている場合もあれば、自然言語で記述されている場合もある。非特許文献1は、自然言語で記述されたセキュリティレポートから、サイバー攻撃に関する情報を抽出するための、技術を開示している。ここで、セキュリティレポートは、主に、セキュリティ対策に関して、ソフトウェアの開発及び関連サービスを提供するセキュリティベンダーによって提供されるレポートである。
【0004】
但し、非特許文献1に開示された技術では、被害者及び被害額といったサイバー攻撃における特徴的な情報を取得することができないという問題がある。このような特徴的な情報は、特に上述の経営判断において必要となる。
【0005】
一方、特許文献1は、最新のニュース記事から重要な特徴語を特定するシステムを開示している。このシステムは、最新のニュース記事から抽出した特徴語と、既存の過去のニュース記事から抽出した特徴語と、の類似度を算出し、前者の特徴語のうち類似度が上位の特徴語にタグを付与する。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【文献】中川舜太、永井達也、金原秀明、古本啓祐、瀧田愼、白石善明、高橋健志、毛利公美、高野泰洋、森井昌克、「脅威情報のモデル化のためのセキュリティレポートからのイベント情報の抽出」、信学技報, vol. 118, no. 486, ICSS2018-78, pp. 89-94, 2019年3月
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述の特許文献1に開示されたシステムを、セキュリティの分野に適用すれば、セキュリティに関する記事から、サイバー攻撃に関する重要な特徴語を特定することができると考えられる。しかしながら、上述の特許文献1に開示されたシステムにおいては、特徴語を特定するに過ぎず、攻撃に用いられたソフトの名称、共通脆弱性識別子(CVE)のID、攻撃の手口等のサイバー攻撃に関する専門的な情報が、記事中に明示的に含まれていない場合に、それらを特定することは困難である。上述の特許文献1に開示されたシステムには、サイバー攻撃に関する詳細な情報を取得できないという問題がある。
【0009】
本発明の目的の一例は、サイバー攻撃における特徴的な情報を、サイバー攻撃に関する専門的な情報と共に取得し得る、情報分析装置、情報分析方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するため、本発明の一側面における情報分析装置は、
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出部と、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付け部と、
を備えている。
【0011】
また、上記目的を達成するため、本発明の一側面における情報分析方法は、
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出ステップと、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付けステップと、
を有する、
ことを特徴とする。
【0012】
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出ステップと、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付けステップと、
を実行させる、プログラム。
【発明の効果】
【0013】
以上のように本発明によれば、サイバー攻撃における特徴的な情報を、サイバー攻撃に関する専門的な情報と共に取得することができる。
【図面の簡単な説明】
【0014】
【
図1】
図1は、実施の形態における情報分析装置の概略構成を示す構成図である。
【
図2】
図2は、実施の形態における情報分析装置の構成を具体的に示す構成図である。
【
図3】
図3は、実施の形態における情報分析装置の動作を示すフロー図である。
【
図4】
図4は、ニュース記事、専門情報、及び特徴方法と専門情報との紐付けの結果、それぞれの一例を示す図である。
【
図5】
図5は、実施の形態における情報分析装置の変形例の構成を示す構成図である。
【
図6】
図6は、実施の形態における情報分析装置を実現するコンピュータの一例を示すブロック図である。
【発明を実施するための形態】
【0015】
(実施の形態)
以下、実施の形態における、情報分析装置、情報分析方法、及びプログラムについて、
図1~
図6を参照しながら説明する。
【0016】
[装置構成]
最初に、実施の形態における情報分析装置の概略構成について、
図1を用いて説明する。
図1は、実施の形態における情報分析装置の概略構成を示す構成図である。
【0017】
図1に示す、実施の形態における情報分析装置10は、サイバー攻撃に関する情報の分析を行うための装置である。
図1に示すように、情報分析装置10は、特徴情報抽出部11と、特徴情報紐付け部12と、を備えている。
【0018】
特徴情報抽出部11は、サイバー攻撃に関するニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する。特徴情報紐付け部12は、既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、特徴情報抽出部11によって抽出された特徴情報に関連する、サイバー攻撃に関する専門的な情報を抽出し、特徴情報と専門的な情報とを紐付ける。なお、以降においては、サイバー攻撃に関する専門的な情報は、「専門情報」と表記し、上述のデータベースは、「専門情報データベース」と表記する。
【0019】
このように、実施の形態によれば、ニュース記事から抽出された特徴情報と、専門情報とが紐付けられるので、特徴情報とそれに関連する専門情報とを同時に取得することが可能となる。
【0020】
続いて、
図2を用いて、実施の形態における情報分析装置の構成及び機能について具体的に説明する。
図2は、実施の形態における情報分析装置の構成を具体的に示す構成図である。
【0021】
図2に示すように、実施の形態において、情報分析装置10は、インターネット等のネットワーク40を介して、ニュースデータベース20と、専門情報データベース30とに、データ通信可能に接続される。
【0022】
ニュースデータベース20は、インターネット上で提供されるニュース記事を蓄積しているデータベースである。蓄積されているニュース記事は、Webサーバによって読み出され、Webサイト上に提示される。なお、
図2の例では、単一のニュースデータベース20のみが示されているが、実際には、多数のニュースデータベース20が存在している。
【0023】
専門情報データベース30は、上述したように、専門情報を蓄積しているデータベースである。専門情報は、実施の形態では、例えば、サイバー攻撃の痕跡情報(IOC:Indicator of Compromise)である。IOCは、サイバー攻撃を受けたシステムの脆弱性に関
する情報(共通脆弱性識別子:CVE)、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口等を含む。更に、専門情報データベース30においては、専門情報間の関連付けが行われていても良い。例えば、サイバー攻撃で用いられたソフトウェアの名称と、当該ソフトウェアが利用する脆弱性の共通脆弱性識別子とが、関連付けられて蓄積されていても良い。
【0024】
IOCは、公的機関、ベンダー等から提供されていても良いし、上述したセキュリティレポートから既存のツール(例えば、Threat Report ATT&CK Mapper:TRAM)によって生
成されていても良いし、更には、人手によって記述されていても良い。更に、IOCは、STIX(脅威情報構造化形式)で表現されていても良いし、攻撃手口(TTPs)として、MITRE ATT&CK Technique IDを含んでいても良い(参照:https://www.ipa.go.jp/security/vuln/STIX.html)。
【0025】
また、
図2に示すように、情報分析装置10は、上述した特徴情報抽出部11及び特徴情報紐付け部12に加えて、ニュース記事収集部13と、検索処理部14と、情報格納部15とを備えている。
【0026】
ニュース記事収集部13は、ネットワーク40を介して、ニュースデータベース20にアクセスして、ニュース記事を収集する。収集の対象となるニュース記事は、指定された期間内に公開されたものであっても良いし、未だ収集されていないニュース記事全てであっても良い。また、ニュース記事収集部13は、収集したニュース記事を情報格納部15に格納する。
【0027】
具体的には、ニュース記事収集部13は、予め用意されたニュースサイトのURLのリストに従って、インターネット上のニュースサイトをクロールして、ニュース記事を収集する。ニュース記事収集部13は、ニュースサイト毎に定義された処理方法を用いることで、各ニュースサイトから、ニュース記事の本文以外の要素を削除し、本文のみを収集することもできる。ニュース記事の一例としては、「A社でマルウェアXによる被害○億円が発生した。」等が挙げられる。
【0028】
特徴情報抽出部11は、実施の形態では、まず、情報格納部15から、収集されたニュース記事を読み出す。そして、特徴情報抽出部11は、実施の形態では、ニュース記事から、特徴情報として、サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出する。
【0029】
具体的な特徴情報としては、以下に示すものが挙げられる。なお、特徴情報は、専門情報と重複する情報であっても良い。ニュース記事に、専門情報が含まれている場合は、特徴情報抽出部11は、この専門情報を、特徴情報として抽出しても良い。
・被害者名
・被害内容
・被害額
・記事の種別(インシデント事例、脆弱性情報、製品の更新情報、製品紹介、サービス紹介、脅威動向、調査結果、政治動向等)
・攻撃者名
・攻撃キャンペーン名
・マルウェア名
・攻撃ツール名
・被害の対象(製品名、サービス名、サイト名)
・TTP(Tactics, Techniques and Procedures)情報(ATT&CKのTactic、Technique、キルチェーンのステージ)
・共通脆弱性識別子(CVE)
・脆弱性名
・インディケータ情報
・観測事象
・攻撃日時
【0030】
例えば、ニュース記事が上述の例であるならば、特徴情報抽出部11は、特徴情報として、A社(被害者名)、○億円(被害額)、及びマルウェアX(サイバー攻撃で用いられたソフトウェアの名称)を抽出する。
【0031】
また、特徴情報抽出部11による特徴情報の抽出手法としては、例えば、以下の4つの抽出手法が挙げられる。まず、第1の抽出手法として、正規表現を用いた抽出手法が挙げられる。例えば、予め、抽出対象となる、CVEのID、インディケータ情報、日付等が、正規表現に変換され、各正規表現が特徴量として登録されているとする。この場合、特徴情報抽出部11は、ニュース記事に含まれる単語それぞれを正規表現に変換し、得られた正規表現が、予め登録されている正規表現に一致する場合は、該当する単語を特徴情報として抽出する。
【0032】
第2の抽出手法としては、辞書を用いた抽出手法が挙げられる。例えば、予め抽出対象となる、攻撃者名を登録した辞書が用意されているとする。この場合、特徴情報抽出部11は、ニュース記事に含まれる単語それぞれを、辞書に照会し、登録した攻撃者名と一致する場合に、該当する単語を特徴情報として抽出する。なお、辞書に登録される抽出対象は、攻撃者名以外であっても良い。
【0033】
第3の抽出手法として、学習済みのNER(Named Entity Recognition)モデルを用いた抽出手法が挙げられる。NERモデルは、抽出対象であるかどうかを示すラベルが付与された単語を訓練データとして、機械学習を行うことによって構築される。特徴情報抽出部11は、ニュース記事に含まれる単語をNERモデルに入力し、NERモデルからの出力結果に基づいて、該当する単語を特徴情報として抽出する。
【0034】
第4の抽出手法として、Doc2Vecとサポートベクトルマシン(SVM)との組合せを用いた抽出方法が挙げられる。Doc2Vecは、文章中の単語情報をベクトル化するアルゴリズムであり、入力された文章から、当該文章のベクトル表現を生成し、これを出力する。サポートベクトルマシンは、Doc2Vecから出力されたベクトルに、抽出対象であるかどうかを示すラベルを付与したものを、訓練データとして、機械学習を行うことによって構築される。
【0035】
特徴情報抽出部11は、ニュース記事をDoc2Vecに入力し、Doc2Vecから出力されたベクトルを、SVMに入力する。そして、特徴情報抽出部11は、SVMの出力結果に基づいて、該当する単語を特徴情報として抽出する。なお、第4の抽出手法においては、SVM以外の機械学習アルゴリズムが用いられても良い。
【0036】
特徴情報抽出部11は、実施の形態では、ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定することもできる。この場合、特徴情報抽出部11は、サイバー攻撃の被害の事例が含まれていると判定すると、ニュース記事から、特徴情報を抽出する。
【0037】
具体的には、特徴情報抽出部11は、機械学習モデルを用いて、ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定することができる。機械学習モデルとしては、LDA(Latent Dirichlet Allocation)といったトピックモデルが挙げられる
。トピックモデルは、ニュース記事を訓練データとして用いた教師無し機械学習によって構築することができる。
【0038】
また、上述の判定のための機械学習モデルとしては、Doc2Vecとサポートベクトルマシン(SVM)との組合せも挙げられ、更に、この場合において、SVM以外の機械学習アルゴリズムが用いられても良い。この場合、サポートベクトルマシンは、Doc2Vecから出力されたベクトルに、被害の事例が含まれているかどうかを示すラベルを付与したものを、訓練データとして、機械学習を行うことによって構築される。
【0039】
特徴情報紐付け部12は、実施の形態では、例えば、専門情報データベース30における専門情報に付与されている日付(具体的には、IOCの日付に関する記述)とニュース記事の公開日時とを比較する。そして、特徴情報紐付け部12は、専門情報に付与されている日付とニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門情報と、を紐付ける。
【0040】
また、特徴情報紐付け部12は、特徴情報抽出部11が抽出した特徴情報に専門情報が含まれる場合は、特徴情報に含まれる専門情報を用いて専門情報データベース30を検索し、クエリとなった専門情報に関連する専門情報を特徴情報に紐付けしてもよい。専門情報の検索は、単純な文字列比較で行われても良いし、検索語と被検索語とをそれぞれベクトル化した上で、両者のコサイン類似度を用いて行われても良い。
【0041】
また、特徴情報紐付け部12は、専門情報が脆弱性に関する情報を含む場合に、脆弱性が引き起こす事象を特定し、特定した事象を含む特徴情報と、脆弱性に関する情報を含む専門情報と、を紐付けることもできる。脆弱性に関する情報としては、共通脆弱性識別子、脆弱性名が挙げられる。
【0042】
更に、特徴情報紐付け部12は、互いに紐付けられた専門情報と特徴情報との類似度を算出することもできる。類似度としては、例えばコサイン類似度が挙げられる。また、特徴情報紐付け部12は、予め、専門情報と特徴情報との間の類似度を機械学習した学習モデルを用いて、類似度を算出することもできる。
【0043】
また、特徴情報紐付け部12は、スノーボールサンプリングを行ってもよい。具体的には、特徴情報紐付け部12は、上述のような方法で特徴情報と専門情報との紐付けを行った後、紐付けられた専門情報及び特徴情報のうち一方又は両方を用いて、更に関連する専門情報又は特徴情報を検索する。そして、特徴情報紐付け部12は、先に紐付けられている特徴情報及び専門情報に、新たに検索された専門情報又は特徴情報を、再帰的に紐付ける。
【0044】
スノーボールサンプリングによる紐付けを行う場合も、上述した例と同様に、特徴情報紐付け部12は、情報間のコサイン類似度を求めることができる。また、特徴情報紐付け部12は、スノーボールサンプリングの過程で用いられる検索語と被検索語とのペア毎に、コサイン類似度を算出し、算出した類似度をスノーボールサンプリングにおける類似度として扱うこともできる。
【0045】
特徴情報紐付け部12は、専門情報と、それが紐付けられた特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域、即ち、情報格納部15に格納する。また、特徴情報紐付け部12は、上述したように類似度を算出している場合は、専門情報及び特徴情報に、関連する類似度も紐付けることができる。
【0046】
検索処理部14は、キーボード等の入力装置、又は外部の端末装置を介して入力された、検索クエリを受け付け、受け付けた検索クエリに基づいて、情報格納部15に格納されている専門情報及び特徴情報の検索を実行する。
【0047】
具体的には、検索処理部14は、情報格納部15に格納されている特徴情報の中から、検索クエリと一致又は類似する特徴情報を特定し、更に、特定した特徴情報に紐付けられた専門情報も特定する。また、検索処理部14は、情報格納部15に格納されている専門情報の中から、検索クエリと一致又は類似する専門情報を特定し、特定した専門情報に紐付けられた特徴情報を特定することもできる。
【0048】
その後、検索処理部14は、検索の結果として、特定した特徴情報及び専門情報を、外部の表示装置の画面、端末装置の画面等に表示する。また、専門情報及び特徴情報に類似度が紐付けられている場合は、検索処理部14は、紐付けられている類似度も特定し、特定した類似度も表示する。
【0049】
[装置動作]
次に、実施の形態における情報分析装置10の動作について
図3を用いて説明する。
図3は、実施の形態における情報分析装置の動作を示すフロー図である。以下の説明においては、適宜
図1~
図2を参照する。また、実施の形態では、情報分析装置10を動作させることによって、情報分析方法が実施される。よって、実施の形態における情報分析方法の説明は、以下の情報分析装置10の動作説明に代える。
【0050】
図3に示すように、最初に、ニュース記事収集部13が、ネットワーク40を介して、ニュースデータベース20にアクセスして、ニュース記事を収集する(ステップA1)。ステップA1では、例えば、指定された期間内に公開されたニュース記事が収集の対象となる。収集されたニュース記事は、情報格納部15に格納される。
【0051】
次に、特徴情報抽出部11は、ステップA1で収集されたニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定する(ステップA2)。ステップA2の判定の結果、ステップA1で収集されたニュース記事にサイバー攻撃の被害の事例が含まれていない場合は(ステップA2:No)、情報分析装置10における処理は終了する。
【0052】
一方、ステップA2の判定の結果、ステップA1で収集されたニュース記事にサイバー攻撃の被害の事例が含まれている場合は(ステップA2:Yes)、特徴情報抽出部11は、情報格納部15から、ステップA1で収集されたニュース記事を読み出す。そして、特徴情報抽出部11は、読み出したニュース記事から、特徴情報を抽出する(ステップA3)。ステップA3では、特徴情報として、例えば、サイバー攻撃の被害者名、被害内容、及び被害額が抽出されている。
【0053】
次に、特徴情報紐付け部12は、専門情報データベース30から、ステップA3で特徴情報が抽出されたニュース記事の公開日と同一又は近似している日付が付加された専門情報を取得する(ステップA4)。なお、公開日と近似している日付とは、両者の差が設定範囲内であること、例えば3日以内にあること、同じ月であること、等を意味する。
【0054】
次に、特徴情報紐付け部12は、ステップA3で抽出した特徴情報に、ステップA4で取得した専門情報を紐付ける(ステップA5)。そして、特徴情報紐付け部12は、専門情報と、それが紐付けられた特徴情報とを、互いに紐付けた状態で、情報格納部15に格納する(ステップA6)。
【0055】
ステップA6の終了後、検索処理部14は、キーボード等の入力装置、又は外部の端末装置を介して、検索クエリが入力されると、それを受け付ける。そして、検索処理部14は、情報格納部15に格納されている特徴情報の中から、検索クエリと一致又は類似する特徴情報を特定し、更に、特定した特徴情報に紐付けられた専門情報も特定する。その後、検索処理部14は、検索の結果として、特定した特徴情報及び専門情報を、外部の表示装置の画面、端末装置の画面等に表示する。
【0056】
図4を用いて、具体例について説明する。
図4は、ニュース記事、専門情報、及び特徴方法と専門情報との紐付けの結果、それぞれの一例を示す図である。
【0057】
図4の上段に示すように、サイバー攻撃の被害の事例を含むニュース記事が収集されているとする。そして、
図4の中段に示すように、専門情報データベース30に、ニュース記事と同じ月が付加された専門情報が蓄積されているとする。専門情報は、自然言語によって記述されている場合と、構造化形式で生成されている場合とがある。
【0058】
図4の上段に示すニュース記事があった場合、特徴情報抽出部11は、特徴情報として、“Wannacry”、“被害○億円”、“A社”、“B社”、“ファイルサーバ”、及び“暗号化”を抽出する。そして、特徴情報紐付け部12は、抽出された特徴情報と専門情報とを紐付ける。結果、
図4の下段に示す通りとなる。
【0059】
以上のように実施の形態によれば、ニュース記事から抽出された特徴情報と専門情報とが紐付けられる。このため、検索者は、検索クエリの入力により、特徴情報とそれに関連する専門情報とを同時に取得することができる。
【0060】
[変形例]
図5を用いて、実施の形態における情報分析装置10の変形例について説明する。
図5は、実施の形態における情報分析装置の変形例の構成を示す構成図である。
【0061】
図5に示すように、変形例においては、
図2に示した例と異なり、情報分析装置10は、検索処理部を備えていない構成となっている。これ以外の点においては、情報分析装置10は、
図2に示した例と同様である。
【0062】
変形例においては、情報分析装置10は、検索者が使用する端末装置50に、ネットワーク40を介して接続されている。そして、端末装置50は、
図2に示した検索処理部14と同様の検索処理部51と、情報格納部52とを備えている。
【0063】
そして、変形例においては、情報分析装置10は、特徴情報と専門情報との紐付けが行われると、ネットワーク40を介して、紐付けられた特徴情報と専門情報とを、端末装置50に送信する。端末装置50は、紐付けられた特徴情報と専門情報とが送信されてくると、これらを、情報格納部52に格納する。
【0064】
この構成により、検索者は、端末装置50上で、検索クエリを入力することができる。この場合、検索処理部51は、端末装置50の情報格納部52にアクセスし、情報格納部52に格納されている特徴情報の中から、検索クエリと一致又は類似する特徴情報とこれに紐付けられた専門情報とを特定する。その後、検索処理部51は、特定した特徴情報及び専門情報を、端末装置50の画面に表示する。
【0065】
変形例によれば、情報分析装置10自体に検索機能を備えさせる必要がなく、情報分析装置10におけるコストの低減が図られる。また、検索クエリが端末装置50から情報分析装置10に送信されることがないため、変形例によれば、検索クエリが、情報分析装置10の管理者に知られてしまう可能性が排除される。
【0066】
[プログラム]
実施の形態におけるプログラムは、コンピュータに、
図3に示すステップA1~A6を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、実施の形態における情報分析装置10と情報分析方法とを実現することができる。この場合、コンピュータのプロセッサは、特徴情報抽出部11、特徴情報紐付け部12、及びニュース記事収集部13として機能し、処理を行なう。コンピュータとしては、汎用のPCの他に、スマートフォン、タブレット型端末装置が挙げられる。
【0067】
また、実施の形態では、情報格納部15は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって実現されていても良いし、別のコンピュータの記憶装置によって実現されていても良い。
【0068】
実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、特徴情報抽出部11、特徴情報紐付け部12、及びニュース記事収集部13のいずれかとして機能しても良い。
【0069】
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、情報分析装置を実現するコンピュータについて
図6を用いて説明する。
図6は、実施の形態における情報分析装置を実現するコンピュータの一例を示すブロック図である。
【0070】
図6に示すように、コンピュータ110は、CPU(Central Processing Unit)11
1と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
【0071】
また、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)
を備えていても良い。この態様では、GPU又はFPGAが、実施の形態におけるプログラムを実行することができる。
【0072】
CPU111は、記憶装置113に格納された、コード群で構成された実施の形態におけるプログラムをメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。
【0073】
また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
【0074】
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
【0075】
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
【0076】
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びS
D(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
【0077】
なお、実施の形態における情報分析装置10は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェア、例えば、電子回路を用いることによっても実現可能である。更に、情報分析装置10は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
【0078】
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記21)によって表現することができるが、以下の記載に限定されるものではない。
【0079】
(付記1)
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出部と、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付け部と、
を備えている、
ことを特徴とする情報分析装置。
【0080】
(付記2)
付記1に記載の情報分析装置であって、
前記特徴情報抽出部が、前記ニュース記事から、前記特徴情報として、前記サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出する、
ことを特徴とする情報分析装置。
【0081】
(付記3)
付記1または2に記載の情報分析装置であって、
前記特徴情報抽出部が、前記ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定し、判定の結果、サイバー攻撃の被害の事例が含まれている場合に、前記ニュース記事から、前記特徴情報を抽出する、
ことを特徴とする情報分析装置。
【0082】
(付記4)
付記1~3のいずれかに記載の情報分析装置であって、
前記特徴情報紐付け部が、前記専門的な情報と、それが紐付けられた前記特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域に格納する、
ことを特徴とする情報分析装置。
【0083】
(付記5)
付記1から4のいずれかに記載の情報分析装置であって、
前記特徴情報紐付け部が、前記データベースにおける前記専門的な情報に付与されている日付と前記ニュース記事の公開日時とを比較し、前記専門的な情報に付与されている日付と前記ニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門的な情報と、を紐付ける、
ことを特徴とする情報分析装置。
【0084】
(付記6)
付記1から5のいずれかに記載の情報分析装置であって、
前記専門的な情報は、サイバー攻撃を受けたシステムの脆弱性に関する情報、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口のうち少なくとも1つを含む、
ことを特徴とする情報分析装置。
【0085】
(付記7)
付記1から6のいずれかに記載の情報分析装置であって、
前記特徴情報紐付け部が、前記専門的な情報が脆弱性に関する情報を含む場合に、前記脆弱性が引き起こす事象を特定し、特定した事象を含む前記特徴情報と、前記脆弱性に関する情報を含む前記専門的な情報と、を紐付ける、
ことを特徴とする情報分析装置。
【0086】
(付記8)
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出ステップと、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付けステップと、
を有する、
ことを特徴とする情報分析方法。
【0087】
(付記9)
付記8に記載の情報分析方法であって、
前記特徴情報抽出ステップにおいて、前記ニュース記事から、前記特徴情報として、前記サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出する、
ことを特徴とする情報分析方法。
【0088】
(付記10)
付記8または9に記載の情報分析方法であって、
前記特徴情報抽出ステップにおいて、前記ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定し、判定の結果、サイバー攻撃の被害の事例が含まれている場合に、前記ニュース記事から、前記特徴情報を抽出する、
ことを特徴とする情報分析方法。
【0089】
(付記11)
付記8~10のいずれかに記載の情報分析方法であって、
前記特徴情報紐付けステップにおいて、前記専門的な情報と、それが紐付けられた前記特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域に格納する、
ことを特徴とする情報分析方法。
【0090】
(付記12)
付記8から11のいずれかに記載の情報分析方法であって、
前記特徴情報紐付けステップにおいて、前記データベースにおける前記専門的な情報に付与されている日付と前記ニュース記事の公開日時とを比較し、前記専門的な情報に付与されている日付と前記ニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門的な情報と、を紐付ける、
ことを特徴とする情報分析方法。
【0091】
(付記13)
付記8から12のいずれかに記載の情報分析方法であって、
前記専門的な情報は、サイバー攻撃を受けたシステムの脆弱性に関する情報、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口のうち少なくとも1つを含む、
ことを特徴とする情報分析方法。
【0092】
(付記14)
付記8から13のいずれかに記載の情報分析方法であって、
前記特徴情報紐付けステップにおいて、前記専門的な情報が脆弱性に関する情報を含む場合に、前記脆弱性が引き起こす事象を特定し、特定した事象を含む前記特徴情報と、前記脆弱性に関する情報を含む前記専門的な情報と、を紐付ける、
ことを特徴とする情報分析方法。
【0093】
(付記15)
コンピュータに、
ニュース記事から、サイバー攻撃における特徴的な事項を示す特徴情報を抽出する、特徴情報抽出ステップと、
既に発生しているサイバー攻撃に関する専門的な情報を蓄積しているデータベースから、抽出された前記特徴情報に関連する前記専門的な情報を抽出し、前記特徴情報と前記専門的な情報とを紐付ける、特徴情報紐付けステップと、
を実行させる、プログラム。
【0094】
(付記16)
付記15に記載のプログラムであって、
前記特徴情報抽出ステップにおいて、前記ニュース記事から、前記特徴情報として、前記サイバー攻撃の被害者名、被害内容、及び被害額のうち少なくとも1つを抽出する、
ことを特徴とするプログラム。
【0095】
(付記17)
付記15または16に記載のプログラムであって、
前記特徴情報抽出ステップにおいて、前記ニュース記事にサイバー攻撃の被害の事例が含まれているかどうかを判定し、判定の結果、サイバー攻撃の被害の事例が含まれている場合に、前記ニュース記事から、前記特徴情報を抽出する、
ことを特徴とするプログラム。
【0096】
(付記18)
付記15~17のいずれかに記載のプログラムであって、
前記特徴情報紐付けステップにおいて、前記専門的な情報と、それが紐付けられた前記特徴情報とを、互いに紐付けた状態で、記憶装置の記憶領域に格納する、
ことを特徴とするプログラム。
【0097】
(付記19)
付記15から18のいずれかに記載のプログラムであって、
前記特徴情報紐付けステップにおいて、前記データベースにおける前記専門的な情報に付与されている日付と前記ニュース記事の公開日時とを比較し、前記専門的な情報に付与されている日付と前記ニュース記事の公開日時との差が設定範囲内にある場合に、該当するニュース記事から抽出された特徴情報と、該当する専門的な情報と、を紐付ける、
ことを特徴とするプログラム。
【0098】
(付記20)
付記15から19のいずれかに記載のプログラムであって、
前記専門的な情報は、サイバー攻撃を受けたシステムの脆弱性に関する情報、サイバー攻撃で用いられたソフトウェアの名称、サイバー攻撃の手口のうち少なくとも1つを含む、
ことを特徴とするプログラム。
【0099】
(付記21)
付記15から20のいずれかに記載のプログラムであって、
前記特徴情報紐付けステップにおいて、前記専門的な情報が脆弱性に関する情報を含む場合に、前記脆弱性が引き起こす事象を特定し、特定した事象を含む前記特徴情報と、前記脆弱性に関する情報を含む前記専門的な情報と、を紐付ける、
ことを特徴とするプログラム。
【0100】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0101】
以上のように本発明によれば、サイバー攻撃における特徴的な情報を、サイバー攻撃に関する専門的な情報と共に取得することができる。本発明は、サイバー攻撃についての分析が必要な種々の分野において有用である。
【符号の説明】
【0102】
10 情報分析装置
11 特徴情報抽出部
12 特徴情報紐付け部
13 ニュース記事収集部
14 検索処理部
15 情報格納部
20 ニュースデータベース
30 専門情報データベース
40 ネットワーク
50 端末装置
51 検索処理部
52 情報格納部
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス