IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-176519情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024176519
(43)【公開日】2024-12-19
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20241212BHJP
   G06F 40/216 20200101ALI20241212BHJP
   G06F 21/57 20130101ALI20241212BHJP
【FI】
G06F40/279
G06F40/216
G06F21/57 370
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023095089
(22)【出願日】2023-06-08
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110000279
【氏名又は名称】弁理士法人ウィルフォート国際特許事務所
(72)【発明者】
【氏名】チェッティマニ アショクマール
(72)【発明者】
【氏名】森田 伸義
(72)【発明者】
【氏名】粕谷 桃伽
(72)【発明者】
【氏名】山▲崎▼ 裕紀
(57)【要約】
【課題】複数のソースからの情報に基づいて容易且つ適切にサマリを作成できるようにする。
【解決手段】複数のソースから情報を収集してサマリを作成する情報サマリ装置10において、情報サマリ装置10は、CPU20含み、CPU20を、所定の情報を含む複数のソースの格納先を示す格納先情報を受け付け、前記格納先情報に基づいて前記複数のソースを参照し、前記複数のソースのそれぞれについて、所定の内容に関する複数の項目の情報である項目情報を抽出し、複数のソースにおける複数の項目情報に基づいて、それぞれの前記項目についてのサマリである項目毎サマリ情報を決定し、複数の前記項目についての項目毎サマリ情報を含むサマリレポートを出力するように構成する。
【選択図】図1
【特許請求の範囲】
【請求項1】
複数のソースから情報を収集してサマリを作成する情報処理装置であって、
前記情報処理装置は、プロセッサを含み、
前記プロセッサは、
所定の情報を含む複数のソースの格納先を示す格納先情報を受け付け、
前記格納先情報に基づいて前記複数のソースを参照し、前記複数のソースのそれぞれについて、所定の内容に関する複数の項目の情報である項目情報を抽出し、
複数のソースにおける複数の項目情報に基づいて、それぞれの前記項目についてのサマリである項目毎サマリ情報を決定し、
複数の前記項目についての項目毎サマリ情報を含むサマリレポートを出力する
情報処理装置。
【請求項2】
前記ソースの少なくとも一つは、前記項目情報を識別可能な所定のテンプレートに従った形式で作成されており、
前記プロセッサは、前記テンプレートに基づいて前記ソースから前記項目情報を抽出する
請求項1に記載の情報処理装置。
【請求項3】
前記情報処理装置は、少なくとも一部の前記項目情報を特定するための項目特定情報を記憶する記憶部を有し、
前記プロセッサは、前記項目特定情報に基づいて、前記ソースから前記項目に対応する前記項目情報を抽出する
請求項1に記載の情報処理装置。
【請求項4】
前記プロセッサは、
前記ソースの格納先情報に基づいて、前記ソースが前記項目情報を識別可能な所定のテンプレートに従った形式で作成されているか否かを判定し、
前記ソースが前記項目情報を識別可能な所定のテンプレートに従った形式で作成されている場合には、前記テンプレートに基づいて前記ソースから前記項目情報を抽出し、
前記ソースが前記項目情報を識別可能な所定のテンプレートに従った形式で作成されていない場合には、前記項目情報を特定するための項目特定情報に基づいて、前記ソースから前記項目に対応する前記項目情報を抽出する
請求項2に記載の情報処理装置。
【請求項5】
前記プロセッサは、
複数のソースから得られた同一の項目に対する項目情報の中から所定のキーワードの出現頻度に基づいて前記項目毎サマリ情報を決定する
請求項1に記載の情報処理装置。
【請求項6】
前記プロセッサは、
複数のソースから得られた同一の項目に対する項目情報に基づいて、ナレッジグラフを作成し、前記ナレッジグラフをテキストに変換することにより前記項目毎サマリ情報を決定する
請求項1に記載の情報処理装置。
【請求項7】
前記プロセッサは、
複数のソースから得られた同一の項目に対する項目情報がワードベースの情報である場合には、ワードの重複排除を行うことにより項目毎サマリ情報を決定し、
複数のソースから得られた同一の項目に対する項目情報がセンテンスベースの情報である場合には、複数のソースから得られた同一の項目に対する項目情報の中から所定のキーワードの出現頻度に基づいて前記項目毎サマリ情報を決定するか、又は複数のソースから得られた同一の項目に対する項目情報に基づいて、ナレッジグラフを作成し、前記ナレッジグラフをテキストに変換することにより前記項目毎サマリ情報を決定する
請求項1に記載の情報処理装置。
【請求項8】
前記所定の情報は、情報セキュリティに関する情報であり、
前記複数の項目情報は、セキュリティの脆弱性を示す識別情報、脆弱性についての
優先度、脆弱性の対象となる製品の情報、脆弱性に対する対策の情報、脆弱性を検出するための検出情報のいずれか複数を含む
請求項1に記載の情報処理装置。
【請求項9】
前記プロセッサは、
前記所定の情報を含む新たに追加するソースの格納先の格納先情報を受け付け、
追加するソースの格納先情報を受け付けた場合に、追加するソースの格納先情報を含む格納先情報に基づいて、前記項目情報を抽出し、前記項目毎サマリ情報を決定し、前記サマリレポートを出力する
請求項1に記載の情報処理装置。
【請求項10】
複数のソースから情報を収集してサマリを作成する情報処理装置による情報処理方法であって、
前記情報処理装置が、
所定の情報を含む複数のソースの格納先を示す格納先情報を受け付け、
前記格納先情報に基づいて前記複数のソースを参照し、前記複数のソースのそれぞれについて、所定の内容に関する複数の項目の情報である項目情報を抽出し、
複数のソースにおける複数の項目情報に基づいて、それぞれの前記項目についてのサマリである項目毎サマリ情報を決定し、
複数の前記項目についての項目毎サマリ情報を含むサマリレポートを出力する
情報処理方法。
【請求項11】
複数のソースから情報を収集してサマリを作成する情報処理装置を構成するコンピュータに実行させるための情報処理プログラムであって、
前記コンピュータに、
所定の情報を含む複数のソースの格納先を示す格納先情報を受け付けさせ、
前記格納先情報に基づいて前記複数のソースを参照し、前記複数のソースのそれぞれについて、所定の内容に関する複数の項目の情報である項目情報を抽出させ、
複数のソースにおける複数の項目情報に基づいて、それぞれの前記項目についてのサマリである項目毎サマリ情報を決定させ、
複数の前記項目についての項目毎サマリ情報を含むサマリレポートを出力させる
情報処理プログラム。


【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のソースからの情報を収集してサマリを作成する技術に関する。
【背景技術】
【0002】
近年、サイバーセキュリティに関するインシデントが増加している。このようなインシデントに関する各種情報は、いろいろなソースに公開される。各ソースに公開されるインシデントに関する情報の中には、ソースごとに異なる危機的な情報が含まれていることがある。
【0003】
例えば、セキュリティアナリストは、複数のソースからインシデントに関する情報を取得し、これら情報から重要な情報を特定し、特定した情報に基づいてインシデントに対応するようにしている。
【0004】
サイバーセキュリティに関する情報を収集する方法としては、例えば、サイバーアタックに関するツイートを監視し、解析するフレームワークが知られている(例えば、非特許文献1参照)。また、ニューラルネットワークモデルを使用して、悪意あるURLを認識する技術も知られている(例えば、非特許文献2参照)。
【0005】
また、文書を検索する技術としては、入力キーワードと、入力キーワードに類似する類似キーワードとにより、文書データベースの文書を検索する技術が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】国際公開第2020/071252号
【非特許文献】
【0007】
【非特許文献1】Cybertwitter: Using twitter to generate alerts for cybersecurity threats and vulnerabilities. S. Mittal et al. In Proc. of the 8th IEEE/ACM ASONAM, 2016.
【非特許文献2】"Detecting Malicious URLs via a Keyword-Based Convolutional Gated-Recurrent-Unit Neural Network," W. Yang, W. Zuo and B. Cui, in IEEE Access, vol. 7, pp. 29891-29900, 2019, doi: 10.1109/ACCESS.2019.2895751.
【発明の概要】
【発明が解決しようとする課題】
【0008】
例えば、複数のソースからインシデントに関する情報を取得し、重要な情報を特定するには、手間がかかるという問題がある。また、複数のソースからインシデントに関する情報を取得し、重要な情報を特定する作業は、セキュリティに関する詳しい情報や経験が必要であるので、経験が乏しい人が対応できる作業ではない。
【0009】
また、セキュリティに関する情報に限らず、複数のソースから情報を取得し、所望の情報を特定する必要がある情報においては、同様な問題が生じる。
【0010】
本発明は、上記事情に鑑みなされたものであり、その目的は、複数のソースからの情報に基づいて容易且つ適切にサマリを作成することのできる技術を提供することにある。
【課題を解決するための手段】
【0011】
上記目的を達成するため、一観点に係る情報処理装置は、複数のソースから情報を収集してサマリを作成する情報処理装置であって、前記情報処理装置は、プロセッサを含み、前記プロセッサは、所定の情報を含む複数のソースの格納先を示す格納先情報を受け付け、前記格納先情報に基づいて前記複数のソースを参照し、前記複数のソースのそれぞれについて、所定の内容に関する複数の項目の情報である項目情報を抽出し、複数のソースにおける複数の項目情報に基づいて、それぞれの前記項目についてのサマリである項目毎サマリ情報を決定し、複数の前記項目についての項目毎サマリ情報を含むサマリレポートを出力する。
【発明の効果】
【0012】
本発明によれば、複数のソースからの情報に基づいて容易且つ適切にサマリを作成することができる。
【図面の簡単な説明】
【0013】
図1図1は、一実施形態に係る情報サマリ装置の全体構成図である。
図2図2は、一実施形態に係る情報集約テーブルの構成を説明する図である。
図3図3は、一実施形態に係る情報サマリ装置における抽出ステップの処理の概要を示す図である。
図4図4は、一実施形態に係る情報サマリ装置におけるサマリ処理ステップの処理の概要を示す図である。
図5図5は、一実施形態に係るサマリ化情報の構成を説明する図である。
図6図6は、一実施形態に係る標準サイトのウェブページに対する抽出処理の一例を説明する図である。
図7図7は、一実施形態に係るオープンサイトのウェブページに対する抽出処理の一例を説明する図である。
図8図8は、一実施形態に係るサマリ処理の第1の例を示す図である。
図9図9は、一実施形態に係るサマリ処理の第2の例を示す図である。
図10図10は、一実施形態に係る複数ソースサマリ画面を示す図である。
【発明を実施するための形態】
【0014】
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0015】
以下の説明では、「AAAテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「AAAテーブル」を「AAA情報」と呼ぶことができる。
【0016】
また、以下の説明では、「プログラム」を動作主体として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶部及びインターフェース部のうちの少なくとも1つを用いながら行うため、処理の主語が、プロセッサ(或いは、プロセッサを有する計算機又は計算機システム)とされてもよい。プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な不揮発性の記録メディアであってもよい。また、以下の説明において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。また、プログラムが実行されることによって実現される処理のうちの少なくとも一部が、ハードウェア回路(例えばASIC(Application Specific Integrated Circuit)又はFPGA(Field-Programmable Gate Array))によって実現されてもよい。
【0017】
図1は、一実施形態に係る情報サマリ装置の全体構成図である。
【0018】
情報サマリ装置10は、情報処理装置の一例であり、例えば、PC(Personal Computer)、汎用サーバ等のコンピュータにより構成される。情報サマリ装置10は、CPU(Central Processing Unit)20と、通信インターフェース(I/F)30と、入力装置40と、表示装置50と、メモリ60と、記憶デバイス70と、を備えている。
【0019】
通信I/F30は、例えば、有線LANカードや無線LANカードなどのインターフェースであり、ネットワークを介して各種装置(インターネット上の複数のサイトのサーバ等)と通信する。
【0020】
CPU20は、プロセッサの一例であり、メモリ60及び/又は記憶デバイス70に格納されているプログラムやデータを用いて各種処理を実行する。
【0021】
メモリ60は、記憶部の一例であり、例えば、RAM(RANDOM ACCESS MEMORY)であり、CPU20で実行されるプログラムや、必要な情報を記憶する。本実施形態では、メモリ60は、標準サイト用情報抽出プログラム61と、オープンサイト用情報抽出プログラム62と、情報集約プログラム63と、ナレッジグラフ生成プログラム64と、ナレッジグラフ変換プログラム65と、有効ソース認識プログラム66と、を含む。
【0022】
標準サイト用情報抽出プログラム61は、CPU20により実行されると、所定の情報を公開するための所定のテンプレートに従って作成されたウェブページ(標準ページ)を公開するサイト(標準サイト)のウェブページから所定の情報を抽出する処理を実行する。オープンサイト用情報抽出プログラム62は、CPU20に実行されることにより、所定のテンプレートに従って作成されていないウェブページ(オープンページ)を公開するサイト(オープンサイト)のウェブページから所定の情報を抽出する処理を実行する。情報集約プログラム63は、CPU20に実行されることにより、複数のソースから得られた情報(ソース毎情報)を集約してサマリとなるレポート(サマリレポート)を作成する処理を行う。ナレッジグラフ生成プログラム64は、CPU20に実行されることにより、複数のワードからナレッジグラフを作成する処理を行う。なお、複数のワードからナレッジグラフを作成する方法は、公知であり、例えば、ナレッジグラフ生成プログラム64としては、オープンソースのプログラムを用いることができる。ナレッジグラフ変換プログラム65は、CPU20に実行されることにより、ナレッジグラフをテキストに変換する処理を行う。ナレッジグラフをテキストに変換する方法は公知であり、例えば、ナレッジグラフ変換プログラム65として、オープンソースのプログラムを用いることができる。有効ソース認識プログラム66は、CPU20に実行されることにより、複数のソースから有効であるソースを認識する処理を実行する。具体的には、サマリ化情報として選択された項目の情報に基づいてソースのスコアを算出し、スコアが最も高いソース、スコアが上位の所定個以内であるソース、又は所定の閾値以上であるソースを有効であるソースとしてもよい。
【0023】
記憶デバイス70は、記憶部の一例であり、例えば、ハードディスクやフラッシュメモリなどであり、CPU20で実行されるプログラムや、CPU20に利用されるデータを記憶する。本実施形態では、記憶デバイス70は、テンプレート群71と、データベース群72と、情報集約テーブル73とを記憶する。
【0024】
テンプレート群71は、標準サイトのウェブページが従うテンプレートを格納する。なお、テンプレートは、サイトごとに用意されてもよい。テンプレートは、例えば、各項目についての情報(項目情報)が、例えば、項目情報であることを示すタグ等(項目特定情報)によって識別できるように構成されている。
【0025】
データベース群72は、プロダクトデータベース(DB)721(図7参照)と、攻撃タイプDB722(図7参照)と、攻撃戦術DB723(図7参照)と、攻撃戦法DB724(図7参照)と、パッチキーワードDB725(図7参照)と、プロダクト-セクタマッピングDB726(図7参照)と、サイバーセキュリティキーワードDB727(図7参照)とを含む。
【0026】
プロダクトデータベース(DB)721は、プロダクトを管理するデータベースであり、プロダクトごとのエントリを格納する。プロダクトDB721のエントリは、IDと、プロダクト名と、ベンダ名と、バージョン詳細と、のフィールドを含む。IDには、エントリに対応するプロダクトのIDが格納される。プロダクト名には、エントリに対応するプロダクトの名前(プロダクト名)が格納される。ベンダ名には、エントリに対応するプロダクトのベンダ(提供会社)の名前(ベンダ名)が格納される。バージョン詳細には、エントリに対応するプロダクトに存在するバージョンが格納される。プロダクトDB721のデータは、例えば、PSIRT(Product Security Incident Response Team)のプロバイダから取得することができる。
【0027】
攻撃タイプDB722は、サイバーセキュリティにおける攻撃のタイプ(攻撃タイプ)を管理するデータベースであり、攻撃タイプごとのエントリを格納する。攻撃タイプDB722のエントリは、IDと、攻撃タイプ名と、パブリックID/インジケータと、説明と、のフィールドを含む。IDには、エントリに対応する攻撃タイプのIDが格納される。攻撃タイプ名には、エントリに対応する攻撃タイプの名前(攻撃タイプ名)が格納される。パブリックID/インジケータには、エントリに対応する攻撃タイプを一意に示す情報(パブリックID又はインジケータ)が格納される。説明には、エントリに対応する攻撃タイプの説明が格納される。攻撃タイプDB722のデータは、例えば、MITREから取得することができる。
【0028】
攻撃戦術DB723は、サイバーセキュリティにおける攻撃の戦術(攻撃戦術)を管理するデータベースであり、攻撃戦術ごとのエントリを格納する。攻撃戦術DB723のエントリは、IDと、攻撃戦術名と、パブリックID/インジケータと、説明と、のフィールドを含む。IDには、エントリに対応する攻撃戦術のIDが格納される。攻撃戦術名には、エントリに対応する攻撃戦術の名前(攻撃戦術名)が格納される。パブリックID/インジケータには、エントリに対応する攻撃戦術を一意に示す情報(パブリックID又はインジケータ)が格納される。説明には、エントリに対応する攻撃戦術の説明が格納される。攻撃戦術DB723のデータは、例えば、MITREから取得することができる。
【0029】
攻撃戦法DB724は、サイバーセキュリティにおける攻撃の戦法(攻撃戦法)を管理するデータベースであり、攻撃戦法ごとのエントリを格納する。攻撃戦法DB724のエントリは、IDと、攻撃戦法名と、パブリックID/インジケータと、説明と、のフィールドを含む。IDには、エントリに対応する攻撃戦法のIDが格納される。攻撃戦法名には、エントリに対応する攻撃戦法の名前(攻撃戦法名)が格納される。パブリックID/インジケータには、エントリに対応する攻撃戦法を一意に示す情報(パブリックID又はインジケータ)が格納される。説明には、エントリに対応する攻撃戦法の説明が格納される。攻撃戦法DB724のデータは、例えば、MITREから取得することができる。
【0030】
パッチキーワードDB725は、サイバーセキュリティにおけるパッチを管理するデータベースであり、パッチごとのエントリを格納する。パッチキーワードDB725のエントリは、IDと、パッチキーワードと、例と、説明と、のフィールドを含む。IDには、エントリに対応するパッチキーワードのIDが格納される。パッチキーワードには、エントリに対応するパッチキーワードが格納される。例には、エントリに対応するパッチキーワードの例が格納される。説明には、エントリに対応するパッチキーワードの説明が格納される。パッチキーワードDB725のデータは、例えば、セキュリティアナリストにより作成されてもよい。
【0031】
プロダクト-セクタマッピングDB726は、プロダクトとセクタ(分野)との対応関係を管理するデータベースであり、プロダクトごとのエントリを格納する。プロダクト-セクタマッピングDB726のエントリは、IDと、プロダクト名と、セクタ名と、プロダクトIDと、セクタIDと、のフィールドを含む。IDには、エントリに対応するIDが格納される。プロダクト名には、エントリに対応するプロダクトの名前(プロダクト名)が格納される。セクタ名には、エントリに対応するプロダクトに対応するセクタの名前(セクタ名)が格納される。プロダクトIDには、エントリに対応するプロダクトのIDが格納される。セクタIDには、エントリに対応するセクタのIDが格納される。プロダクト-セクタマッピングDB726のデータは、例えば、PSIRTのプロバイダから取得することができる。
【0032】
サイバーセキュリティキーワードDB727は、サイバーセキュリティに関するキーワードを管理するデータベースであり、キーワードごとのエントリを格納する。サイバーセキュリティキーワードDB727のエントリは、IDと、キーワードと、のフィールドを含む。IDには、エントリに対応するIDが格納される。キーワードには、サイバーセキュリティに関するキーワードが格納される。キーワードは、例えば、DB722~726に含まれるワードである。
【0033】
情報集約テーブル73は、各ソースから取得された情報を管理する。情報集約テーブル73の詳細は後述する。
【0034】
入力装置40は、例えば、マウス、キーボード等であり、ユーザによる情報の入力を受け付ける。表示装置50は、例えば、ディスプレイであり、各種情報を含むユーザインターフェース(例えば、複数ソースサマリ画面200(図10参照))を表示出力する。
【0035】
次に、情報集約テーブル73について説明する。
【0036】
図2は、一実施形態に係る情報集約テーブルの構成を説明する図である。
【0037】
情報集約テーブル73は、複数のリソースから得られた情報を管理するテーブルであり、各リソース毎のエントリ(リソース毎情報)を格納する。情報集約テーブル73のエントリは、パブリックIDと、優先度と、対象プロダクト詳細と、攻撃タイプと、攻撃戦術と、攻撃戦法と、パッチ情報/対策と、セクタと、サマリと、検出詳細と、タイトルとの項目のフィールドを含む。
【0038】
パブリックIDには、例えば、脆弱性のインシデントを一意に示すID(パブリックID)が格納される。パブリックIDは、CVE(Common Vulnerabilities and Exposures) idであってもよい。パブリックIDは、ソースから、パブリックIDの表現形式に基づいて特定することができる。優先度には、エントリに対応するリソースが対象としているインシデントについての対応すべき優先度が格納される。優先度は、CVSS(Common Vulnerability Scoring System)のスコアに基づく優先度としてもよい。対象プロダクト詳細には、エントリに対応するソースが対象としているプロダクトについての詳細が格納される。対象プロダクトの詳細は、ソースから、ソースのテンプレートに基づいて、又は、プロダクトDB721を用いてのキーワードマッチングにより取得することができる。
【0039】
攻撃タイプには、エントリに対応するソースで記述された攻撃タイプが格納される。攻撃タイプは、ソースからソースのテンプレートに基づいて、又は、攻撃タイプDB722を用いてのキーワードマッチングにより取得することができる。攻撃戦術には、エントリに対応するソースで記述された攻撃戦術が格納される。攻撃戦術は、ソースからソースのテンプレートに基づいて、又は、攻撃戦術DB723を用いてのキーワードマッチングにより取得することができる。攻撃戦法には、エントリに対応するソースで記述された攻撃戦法が格納される。攻撃戦法は、ソースからソースのテンプレートに基づいて、又は、攻撃戦法DB724を用いてのキーワードマッチングにより取得することができる。
【0040】
パッチ情報/対策には、エントリに対応するソースで記述されたパッチ情報又は対策が格納される。パッチ情報/対策は、ソースからソースのテンプレートに基づいて、又は、パッチキーワードDB725を用いてのキーワードマッチングにより取得することができる。セクタには、エントリに対応するソースで記述された、インシデントの影響を受けるセクタが格納される。セクタは、例えば、自動車、IT(Information Technology)、OT(Operational Technology)、エネルギー等の産業を示すものでもよい。セクタは、ソースからソースのテンプレートに基づいて、又は、プロダクト-セクタマッピングDB726を用いたプロダクトとの対応関係に基づいて取得することができる。
【0041】
サマリには、エントリに対応するソースにおけるサマリが格納される。サマリは、ソースからソースのテンプレートに基づいて、又は、サイバーセキュリティキーワードDB727を用いてのキーワードマッチングにより取得することができる。検出詳細には、エントリに対応するソースにおけるインシデントの脆弱性又は攻撃を検出するための内容(検出詳細)が格納される。検出詳細は、ソースからソースのテンプレートに基づいて、又は、キーワードマッチングにより取得することができる。タイトルには、エントリに対応するソースについてのタイトルが格納される。タイトルは、ソースからソースのテンプレートに基づいて、又は、キーワードマッチングにより取得することができる。
【0042】
次に、情報サマリ装置10の処理について説明する。
【0043】
図3は、一実施形態に係る情報サマリ装置における抽出ステップの処理の概要を示す図である。図4は、一実施形態に係る情報サマリ装置におけるサマリ処理ステップの処理の概要を示す図である。
【0044】
情報サマリ装置10は、複数のソースからサイバーセキュリティに関する情報を抽出する抽出ステップ(S1)と、複数のソースから得られた情報をサマリ化してレポートとするサマリ処理ステップ(S2)とを実行する。
【0045】
抽出ステップS1では、図3に示すように、情報サマリ装置10は、アナリストから受け付けた特定のインシデント(基本的には、同一のパブリックIDに対応するインシデント)に関する情報(情報セキュリティ情報)が含まれている格納先となるリソースのウェブページのURLのリスト(格納先情報)に基づいて、ネットワークを介して、各ウェブページを取得する(S10)。次いで、情報サマリ装置10は、これら各ウェブページを対象に必要な情報を抽出する情報抽出処理(S11)を実行する。ここで、情報抽出処理としては、所定のテンプレートに基づいて作成されている標準ウェブサイト(標準サイト)のソース(標準ソース)から情報を抽出する処理(S12)と、所定のテンプレートに従わない、標準サイト以外のウェブサイト(オープンサイト)のソースから情報を抽出する処理(S13)とを選択して実行する。標準ウェブサイトとしては、例えば、NVD(National Vulnerability Database)、Mitre CVE、CVE details等のサイトがある。また、標準ウェブサイトは、JSON、XML形式等で作成されたウェブページを含んでいてもよい。
【0046】
サマリ処理ステップS2では、図4に示すように、情報サマリ装置10は、複数のリソースから得られた複数のリソース毎情報におけるワードベースである項目の情報(ワードベース情報)に対して、複数のリソースの情報を最終的な情報にサマリ化する処理(ワードベースサマリ処理)を実行し(S20)、複数のリソースから得られた複数のリソース毎情報におけるセンテンス(文)ベースである項目の情報(センテンスベース情報)に対して、複数のリソースの情報を最終的な情報にサマリ化する処理(センテンスベースサマリ処理)を実行し(S21)、最終的なレポート(サマリ化情報、サマリレポート)を作成する。
【0047】
センテンスベースサマリ処理(S21)では、キーワードの出現頻度に基づいてデータを集約するキーワードベース集約処理(S22)と、ナレッジグラフを用いてデータを集約するナレッジグラフベース集約処理(S23)とのいずれか又は両方を実行することができる。いずれを実行するかについては、ユーザによる設定に従うようにしてもよい。
【0048】
次に、サマリ化情報について説明する。
【0049】
図5は、一実施形態に係るサマリ化情報の構成を説明する図である。
【0050】
サマリ化情報は、パブリックIDと、優先度と、対象プロダクト詳細と、攻撃タイプと、攻撃戦術と、攻撃戦法と、パッチ情報/対策と、セクタと、サマリと、検出詳細と、タイトルと、最有益と、の項目を有する。
【0051】
パブリックIDには、複数のソースから集約されたパブリックIDが格納される。優先度には、複数のソースから集約された優先度が格納される。格納される優先度としては、例えば、複数のソースで最も多く存在する優先度が選択される。対象プロダクト詳細には、複数のソースから集約された対象プロダクト詳細が格納される。対象プロダクト詳細は、例えば、ベンダ名と、プロダクト名とがくみあわされたものでよく、バージョンの情報を含んでもよい。
【0052】
攻撃タイプには、複数のソースから集約された攻撃タイプが格納される。攻撃タイプは、複数のソースから検出されたすべての攻撃タイプを含んでもよい。攻撃戦術には、複数のソースから集約された攻撃戦術が格納される。攻撃戦術は、複数のソースから検出された攻撃戦術を組み合わせたものでもよい。攻撃戦法には、複数のソースから集約された攻撃戦法が格納される。格納される攻撃戦術は、複数のソースから検出された攻撃戦法を組み合わせたものでもよく、複数の攻撃戦法の中でより詳細である攻撃戦法であってもよい。
【0053】
パッチ情報/対策には、複数のソースから集約されたパッチ情報及び又は対策が格納される。パッチ情報/対策としては、複数のソースから集約されたパッチ情報及び又は対策の全てを含んでもよい。セクタには、複数のソースから集約されたセクタの情報が格納される。セクタとしては、複数のソースから集約されたプロダクトに関連する複数のセクタを含んでもよい。サマリには、複数のソースから集約されたサマリが格納される。格納されるサマリは、例えば、複数のソースのサマリの中のセキュリティキーワードの数が最も多いサマリとしてもよい。
【0054】
検出詳細には、複数のソースから集約された検出詳細が格納される。検出詳細としては、例えば、複数のソースの検出詳細の中でセキュリティキーワード又は検出をベースとするキーワードの数が最も多い検出詳細としてもよい。タイトルには、複数のソースから集約されたタイトルが格納される。タイトルとしては、例えば、サマリ化情報内のサマリの中で最も多いキーワードを含むタイトルとしてもよい。最有益には、サマリ化情報に含められる他の項目の内容に基づいて算出された複数のソースのスコアの情報が格納される。
【0055】
次に、標準サイトのウェブページに対する抽出処理について説明する。
【0056】
図6は、一実施形態に係る標準サイトのウェブページに対する抽出処理の一例を説明する図である。
【0057】
標準サイト用情報抽出プログラム61(厳密には、標準サイト用情報抽出プログラム61を実行するCPU20)は、アナリストから入力されたURLリストに格納された複数のURLを用いて、インターネットを介してサイトにアクセスし、複数のサイトの情報、すなわち、複数のウェブコンテンツ(例えば、HTMLコンテンツ)を取得する(S10)。
【0058】
次いで、標準サイト用情報抽出プログラム61は、取得したウェブコンテンツの中の標準サイトから取得したウェブコンテンツに対して必要な情報を抽出する処理を行い、抽出した情報を情報集約テーブル73に登録する処理を行う(S12)。ここで、サイトが標準サイトであるか否かは、URLが、予め把握されている標準サイトを提供するドメイン名を含んでいるか否かにより判定することができる。
【0059】
ステップS12では、具体的には、標準サイト用情報抽出プログラム61は、ウェブコンテンツから、このウェブコンテンツを取得した標準サイトのテンプレート711の構成に基づいて、パブリックIDを取得し(S121)、優先度を取得し(S122)、対象プロダクトを取得し(S123)、攻撃タイプ、攻撃戦術、及び攻撃戦法を取得し(S124)、パッチ情報を取得し(S125)、セクタを取得し(S126)、サマリを取得し(S127)、その他の情報(検出詳細、タイトル等)を抽出し(S128)、情報集約テーブル73に登録する。
【0060】
次いで、標準サイト用情報抽出プログラム61は、ステップS12の処理を標準サイトの各ウェブコンテンツに対して実行することにより、各標準サイトのウェブコンテンツから抽出された情報を情報集約テーブル73に登録する。
【0061】
この処理によると、標準サイトのテンプレートに基づいて、URLリストに格納された1以上の標準サイトのウェブコンテンツ(リソース)から必要な情報を適切に抽出して、情報集約テーブル73に格納することができる。
【0062】
次に、オープンサイトのウェブページに対する抽出処理について説明する。
【0063】
図7は、一実施形態に係るオープンサイトのウェブページに対する抽出処理の一例を説明する図である。
【0064】
オープンサイト用情報抽出プログラム62(厳密には、オープンサイト用情報抽出プログラム62を実行するCPU20)は、取得したウェブコンテンツの中のオープンサイトから取得したウェブコンテンツに対して必要な情報を抽出する処理を行い、抽出した情報を情報集約テーブル73に登録する処理を行う(S13)。ここで、サイトがオープンサイトであるか否かは、URLが、予め把握されている標準サイトを提供するドメイン名を含んでいないか否かにより判定することができる。
【0065】
ステップS13では、具体的には、オープンサイト用情報抽出プログラム62は、パブリックIDのパターンに基づいて、ウェブコンテンツからパブリックIDを取得する(S131)。次いで、オープンサイト用情報抽出プログラム62は、優先度のパターンに基づいて、ウェブコンテンツから優先度を取得する(S132)。次いで、オープンサイト用情報抽出プログラム62は、プロダクトDB721の情報をキーワードとして用いて、ウェブコンテンツから対象プロダクトを取得する(S133)。
【0066】
次いで、オープンサイト用情報抽出プログラム62は、攻撃タイプDB722の情報をキーワードとして用いて、ウェブコンテンツから攻撃タイプを取得し、攻撃戦術DB723の情報をキーワードとして用いて、ウェブコンテンツから攻撃戦術を取得し、攻撃戦法DB724の情報をキーワードとして用いて、ウェブコンテンツから攻撃戦法を取得する(S134)。
【0067】
次いで、オープンサイト用情報抽出プログラム62は、パッチキーワードDB725の情報をキーワードとして用いて、ウェブコンテンツからパッチ情報を取得する(S135)。
【0068】
次いで、オープンサイト用情報抽出プログラム62は、プロダクト-セクタマッピングDB726を参照して、対象プロダクトに対応するセクタを取得する(S136)。
【0069】
次いで、オープンサイト用情報抽出プログラム62は、サイバーセキュリティキーワードDB727の情報をキーワードとして用いて、ウェブコンテンツからサマリを取得し(S137)、その他の情報(検出詳細、タイトル等)を抽出し(S138)、情報集約テーブル73に登録する。
【0070】
この処理によると、URLリストに格納された1以上のオープンサイトのウェブコンテンツ(リソース)から必要な情報を適切に抽出して、情報集約テーブル73に格納することができる。
【0071】
次に、サマリ処理(S2)について詳細に説明する。
【0072】
図8は、一実施形態に係るサマリ処理の第1の例を示す図である。
【0073】
このサマリ処理においては、情報集約プログラム63は、リソース毎情報におけるワードベース情報である、パブリックID、優先度、対象プロダクト、及びセクタの項目の情報については、複数のリソースから得られた情報をマージし、重複する情報については重複排除して、最終的なサマリ化情報の該当する項目の内容(項目毎サマリ情報)とする(S20)。
【0074】
次いで、情報集約プログラム63は、リソース毎情報におけるセンテンスベース情報である、攻撃タイプ、攻撃戦術、攻撃戦法、バッチ情報、サマリ、及び検出詳細の項目のそれぞれの情報について、複数のリソース毎情報のそれぞれにおける所定のキーワードの数を認識する(S222)。例えば、情報集約プログラム63は、ソース1、ソース2・・・ソースnのそれぞれのリソース毎情報の攻撃タイプの項目について所定のキーワードのカウント(数)を認識する。
【0075】
次いで、情報集約プログラム63は、各項目について、最大数のキーワードを含むソース(ソースx)の項目の情報を選択し、その情報とキーワードとを含めた情報を最終的なサマリ化情報の該当する項目の内容(項目毎サマリ情報)とする(S224)。
【0076】
このサマリ処理によると、複数のソースから得られたソース毎情報を適切にサマリ化情報に集約できる。
【0077】
次に、サマリ処理の第2の例について説明する。
【0078】
図9は、一実施形態に係るサマリ処理の第2の例を示す図である。
【0079】
このサマリ処理においては、情報集約プログラム63は、リソース毎情報におけるワードベース情報に対しては、図8に示す処理と同様な処理を実行する(S20)。
【0080】
次いで、情報集約プログラム63は、リソース毎情報におけるセンテンスベース情報である、攻撃タイプ、攻撃戦術、攻撃戦法、バッチ情報、サマリ、検出詳細の項目のそれぞれの情報について、複数のリソース毎情報のそれぞれの項目のテキストをマージする(S231)。次いで、情報集約プログラム63は、ナレッジグラフ生成プログラム64により、各項目のそれぞれについて、マージしたテキストに基づいてナレッジグラフを作成させる(S232)。次いで、情報集約プログラム63は、ナレッジグラフ変換プログラム65により、各項目に対して作成されたナレッジグラフをテキストに変換し(S233)、そのテキストの内容をサマリ化情報の該当する項目の内容(項目毎サマリ情報)とする(S233)。
【0081】
このサマリ処理によると、複数のソースから得られたソース毎情報を適切にサマリ化情報に集約することができる。
【0082】
次に、複数ソースサマリ画面について説明する。
【0083】
図10は、一実施形態に係る複数ソースサマリ画面を示す図である。
【0084】
複数ソースサマリ画面200は、例えば、複数のリソースからの情報を集約したサマリ化情報を取得及び表示させるために、情報サマリ装置10の表示装置50に表示される画面である。
【0085】
複数ソースサマリ画面200は、ID選択入力領域201と、検索条件入力領域202と、サーチボタン203と、サマリ化情報表示領域204と、ソースリスト表示領域205と、新ソース追加ボタン206とを含む。
【0086】
ID選択入力領域201は、パブリックIDでの一例であるCVE IDをCVEリストから選択入力するための領域である。ID選択入力領域201によりCVE IDが選択されると、CVE IDに対応するソースリストに含まれる複数のソースの情報に基づいて、抽出処理(S1)及びサマリ処理(S2)が実行される。
【0087】
検索条件入力領域202は、CVE IDを選択するための条件となるCVEを入力する領域である。サーチボタン203は、検索条件入力領域202に入力された条件に対応するCVE IDを検索する処理を受け付けるボタンである。サーチボタン203が押下されると、情報サマリ装置10は、検索条件入力領域202に入力された条件に対応するCVE IDを検索し、CVE IDに対応するソースリストに含まれる複数のソースの情報に基づいて、抽出処理(S1)及びサマリ処理(S2)を実行する。
【0088】
サマリ化情報表示領域204は、対象となる所定のCVD IDに関するサマリ化情報を表示する領域である。本実施形態では、初期状態では、番号及び項目については、対象の内容が表示されるが、各項目に対応する詳細及びサマリは空白となっており、抽出処理及びサマリ処理が実行された後に、各項目に対応する詳細及びサマリに該当する情報が表示される。
【0089】
ソースリスト表示領域205は、対象となるパブリックIDのサマリ化情報を集約するソースのURLのリストを表示する領域である。新ソース追加ボタン206は、対象となるパブリックIDのサマリ化情報を集約するソースとして新たなソースのURLを追加する際に押下されるボタンである。新ソース追加ボタン206が押下されると、新たなソースのURLを入力するための画面が表示され、その画面において、URLを入力することができる。なお、新たなソースのURLが入力されると、新たなリソースのURLを含むソースリストに基づいて、抽出処理(S1)及びサマリ処理(S2)が実行され、ソースリスト表示領域205には、追加されたURLが追加されたリストが表示される。
【0090】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。
【0091】
例えば、上記実施形態では、URLリストに、標準ソースと、それ以外のソースとのURLが含まれる例を示していたが、URLリストに、標準ソース又はそれ以外ノースのいずれか一方の種類のソースのURLのみが含まれるようにしてもよい。
【0092】
また、上記実施形態におけるサマリ化情報を構成する項目は、上記項目に限られず、例えば、セキュリティの脆弱性を示す識別情報(パブリックID)、脆弱性についての優先度(プライオリティ)、脆弱性の対象となる製品の情報(対象プロダクト詳細)、脆弱性に対する対策の情報(パッチ情報/対策)、脆弱性を検出するための検出情報(検出詳細)のいずれか複数を含んでもよい。
【符号の説明】
【0093】
10…情報サマリ装置、20…CPU、30…通信1/F、40…入力装置、50…表示装置、60…メモリ、61…標準サイト用情報抽出プログラム、62…オープンサイト用情報抽出プログラム、63…情報集約プログラム、64…ナレッジグラフ生成プログラム、65…ナレッジグラフ変換プログラム、66…有効ソース認識プログラム、70…記憶デバイス、71…テンプレート群、72…データベース群、73…情報集約テーブル73



図1
図2
図3
図4
図5
図6
図7
図8
図9
図10