IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特許7267044データ処理装置、データ処理方法及びデータ処理プログラム
<>
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図1
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図2
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図3
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図4
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図5
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図6
  • 特許-データ処理装置、データ処理方法及びデータ処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-21
(45)【発行日】2023-05-01
(54)【発明の名称】データ処理装置、データ処理方法及びデータ処理プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20230424BHJP
   G06N 3/04 20230101ALI20230424BHJP
   G06T 7/00 20170101ALI20230424BHJP
【FI】
G06N20/00
G06N3/04
G06T7/00 350C
【請求項の数】 6
(21)【出願番号】P 2019048834
(22)【出願日】2019-03-15
(65)【公開番号】P2020149601
(43)【公開日】2020-09-17
【審査請求日】2021-06-24
(73)【特許権者】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】浅野 秀平
(72)【発明者】
【氏名】切通 恵介
(72)【発明者】
【氏名】泉谷 知範
【審査官】加藤 優一
(56)【参考文献】
【文献】米国特許出願公開第2018/0336466(US,A1)
【文献】特開2017-068710(JP,A)
【文献】特開2019-023858(JP,A)
【文献】特開2010-054685(JP,A)
【文献】特開2006-043007(JP,A)
【文献】国際公開第2018/105194(WO,A1)
【文献】特開2020-042645(JP,A)
【文献】山室 冴,深層学習を用いた時系列データの要約と分類,第10回データ工学と情報マネジメントに関するフォーラム (第16回日本データベース学会年次大会) [Online] ,日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2018年04月17日
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 -99/00
G06T 7/00 - 7/90
G06V 10/00 -20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する生成部と、
前記生成部によって生成された各重みを、各特徴量に対応付けて出力する出力部と、
を有し、
前記生成部は、学習済みの前記モデルが複数ある場合には、その中からいずれかを選択して使用し
または、
前記生成部は、最後に学習されたモデルを用い
前記モデルは、多変量時系列データの特徴量毎の特徴ベクトルとして、多変量時系列データである入力データXを置換した置換データX に、学習した重みW (∈R F×T )を乗じたfeature map V(∈R F×C )を出力する第1のニューラルネットワークと、多変量時系列データの特徴量毎に前記attention機構を用いて重みを生成する第2のニューラルネットワークと、前記第2のニューラルネットワークから出力された重みと、前記第1のニューラルネットワークから出力されたFeature Map Vと、を掛け合わせたベクトルを求める出力計算ネットワークと、を含むニューラルネットワークであり、
前記出力部は、前記出力計算ネットワークが求めたベクトルを基に、各重みを、各特徴量に対応付けて出力することを特徴とするデータ処理装置。
【請求項2】
記第1のニューラルネットワークに学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させ、前記第2のニューラルネットワークに前記学習用の多変量時系列データの特徴量毎に重みを生成させ、抽出結果、生成結果及びこれらから計算されたタスクに対する出力結果を基に、前記モデルのうちの前記第2のニューラルネットワークに多変量時系列データの特徴量毎の重みの生成を学習させる学習部
をさらに有することを特徴とする請求項1に記載のデータ処理装置。
【請求項3】
前記出力部は、各特徴量と各重みとの対応付けを示すデータとして、特徴量毎に、重みの大小を色の濃淡で表現した画像データを出力することを特徴とする請求項1または2に記載のデータ処理装置。
【請求項4】
前記出力部は、各特徴量と各重みとの対応付けを示すデータとして、前記特徴量と前記重みとの関係をグラフ化した画像データを出力することを特徴とする請求項1または2に記載のデータ処理装置。
【請求項5】
データ処理装置が実行するデータ処理方法であって、
多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する工程と、
前記生成する工程によって生成された各重みを、各特徴量に対応付けて出力する工程と、
を含み、
前記生成する工程は、学習済みの前記モデルが複数ある場合には、その中からいずれかを選択して使用し
または、
前記生成する工程は、最後に学習されたモデルを用い
前記モデルは、多変量時系列データの特徴量毎の特徴ベクトルとして、多変量時系列データである入力データXを置換した置換データX に、学習した重みW (∈R F×T )を乗じたfeature map V(∈R F×C )を出力する第1のニューラルネットワークと、多変量時系列データの特徴量毎に前記attention機構を用いて重みを生成する第2のニューラルネットワークと、前記第2のニューラルネットワークから出力された重みと、前記第1のニューラルネットワークから出力されたFeature Map Vと、を掛け合わせたベクトルを求める出力計算ネットワークと、を含むニューラルネットワークであり、
前記出力する工程は、前記出力計算ネットワークが求めたベクトルを基に、各重みを、各特徴量に対応付けて出力することを特徴とするデータ処理方法。
【請求項6】
多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成するステップと、
前記生成するステップによって生成された各重みを、各特徴量に対応付けて出力するステップと、
をコンピュータに実行させ、
前記生成するステップは、学習済みの前記モデルが複数ある場合には、その中からいずれかを選択して使用し
または、
前記生成するステップは、最後に学習されたモデルを用い
前記モデルは、多変量時系列データの特徴量毎の特徴ベクトルとして、多変量時系列データである入力データXを置換した置換データX に、学習した重みW (∈R F×T )を乗じたfeature map V(∈R F×C )を出力する第1のニューラルネットワークと、多変量時系列データの特徴量毎に前記attention機構を用いて重みを生成する第2のニューラルネットワークと、前記第2のニューラルネットワークから出力された重みと、前記第1のニューラルネットワークから出力されたFeature Map Vと、を掛け合わせたベクトルを求める出力計算ネットワークと、を含むニューラルネットワークであり、
前記出力するステップは、前記出力計算ネットワークが求めたベクトルを基に、各重みを、各特徴量に対応付けて出力することを特徴とするデータ処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理方法及びデータ処理プログラムに関する。
【背景技術】
【0002】
近年、画像処理分野、音声処理分野、自然言語分野といった幅広い分野において、ニューラルネットワークが適用されている。例えば、工場、プラント、ビル、データセンタ等の対象機器に設けられたセンサが取得したセンサデータを、ニューラルネットワークに入力し、その出力結果を基に、対象機器の異常を検知することが行われている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2017-142654号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、機械学習モデルを使って問題を解かせる際、どの入力(特徴量)が重要であったか、モデルはどこを見て判断を下したのか(判断根拠)を特定することは、産業への応用において重要となる。
【0005】
従来でも、線形モデルなどの構造が単純なモデルであれば、内部のパラメータを確認することによって、どの特徴量が出力に寄与する重要な特徴量であったかを得られるものの、ニューラルネットワークのような高い性能や表現力を同時に得ることはできなかった。
【0006】
これに対し、ニューラルネットワークは、例えば異常検知などの様々なタスクで優れた性能を示すが、学習したモデルがブラックボックスであるという課題がある。言い換えると、ニューラルネットワークは、入出力の過程が自明でなく、高い性能の結果を得ることができても、その判断根拠となる入力、例えば、その原因や要因に関係する入力がどの入力であるか分からないという課題がある。
【0007】
本発明は、上記に鑑みてなされたものであって、ニューラルネットワークを用いるモデルにおいて、出力に寄与した特徴量を得ることができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明のデータ処理装置は、多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する生成部と、生成部によって生成された各重みを、各特徴量に対応付けて出力する出力部と、を有することを特徴とする。
【0009】
また、本発明のデータ処理方法は、データ処理装置が実行するデータ処理方法であって、多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する工程と、生成する工程によって生成された各重みを、各特徴量に対応付けて出力する工程と、を含んだことを特徴とする。
【0010】
また、本発明のデータ処理プログラムは、多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成するステップと、生成するステップによって生成された各重みを、各特徴量に対応付けて出力するステップと、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、ニューラルネットワークを用いるモデルにおいて、出力に寄与した特徴量を得ることができるという効果を奏する。
【図面の簡単な説明】
【0012】
図1図1は、実施の形態に係るデータ処理装置の構成例を示すブロック図である。
図2図2は、実施の形態におけるモデルの概要を説明する図である。
図3図3は、アトリビューションマップの出力例を示す図である。
図4図4は、アトリビューションマップの出力例を示す図である。
図5図5は、実施の形態に係る学習処理の処理手順の一例を示すフローチャートである。
図6図6は、実施の形態に係る特徴attentionの生成処理の処理手順の一例を示すフローチャートである。
図7図7は、データ処理プログラムを実行するコンピュータを示す図である。
【発明を実施するための形態】
【0013】
以下に、本願に係るデータ処理装置、データ処理方法及びデータ処理プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係るデータ処理装置、データ処理方法及びデータ処理プログラムが限定されるものではない。
【0014】
[実施の形態]
本実施の形態に係るデータ処理装置10の構成、データ処理装置10の処理の流れを順に説明し、本実施の形態による効果を説明する。
【0015】
[データ処理装置の構成]
実施の形態に係るデータ処理装置10は、与えられたタスク(異常検知など)に応じた問題を解き、最終的な出力を計算する。実施の形態に係るデータ処理装置10は、出力の解釈性を高めるための補助として、多変量時系列データの特徴量毎に、モデルの出力に対する寄与度を表す重みを生成する。具体的には、データ処理装置10は、attention機構を有するニューラルネットワークを用いたモデルを用いて、多変量時系列データの特徴量毎に、重みとして、attention(以降、特徴attentionとする。)を生成し、モデルの出力に寄与する特徴量を選別する。なお、寄与度を、その特徴量の、モデルの出力に対する重要度や、その特徴量の、モデルの出力に関する影響度と言い換えてもよい。
【0016】
図1は、実施の形態に係るデータ処理装置の構成例を示すブロック図である。図1に示すように、このデータ処理装置10は、通信部11、記憶部12、制御部13及び出力部14を有する。以下にデータ処理装置10が有する各部の処理を説明する。
【0017】
通信部11は、各種情報に関する通信を行う。例えば、通信部11は、他の装置から、多変量時系列データ及び該データの処理要求を受信する。また、通信部11は、他の装置に対して処理結果を送信する。なお、データ処理装置10は、他の装置と通信ネットワークを介して通信を行ってもよく、他の装置と接続することなくローカルな環境で動作してもよい。
【0018】
記憶部12は、制御部13による各種処理に必要なデータ及びプログラムを格納し、多変量時系列データ記憶部121及びモデル122を有する。例えば、記憶部12は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
【0019】
多変量時系列データ記憶部121は、処理対象或いは学習対象の多変量時系列データを記憶する。多変量時系列データは、例えば、工場、プラント、ビル、データセンタ等の対象機器に設けられたセンサのデータ(例えば、温度や圧力、音、振動等のデータ)である。また、多変量時系列データは、ウェブサイト(銀行のサイトやニュースサイト)における通信ネットワークトラフィックに関するデータ等、どのようなデータであってもよい。データ処理装置10は、例えば、多変量時系列データを、通信機器やセンサからリアルタイムで取得し、多変量時系列データ記憶部121に格納する。この際、データ処理装置10は、多変量時系列データに対し、空値補完処理や正規化処理等の既存のデータ前処理を行ってから、多変量時系列データ記憶部121に格納してもよい。
【0020】
モデル122は、多変量時系列データの特徴量毎に、attention機構を用いて特徴attentionを生成するとともに、生成した特徴attentionを基にタスクを解くように学習されたモデルである。モデル122は、多変量時系列データが入力されると、この多変量時系列データの特徴量毎に特徴attentionを生成する。モデル122は、全体で一つのニューラルネットワークのモデルであり、多変量時系列データの特徴量毎の特徴ベクトルを抽出する特徴抽出ネットワーク(第2のニューラルネットワーク)と、多変量時系列データの特徴量毎にattention機構を用いて特徴attentionを生成するattentionネットワーク(第1のニューラルネットワーク)と、を少なくとも含む。モデル122は、ニューラルネットワークの一種であるCNN(Convolutional Neural Network)などによって構成される。
【0021】
制御部13は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、受付部131、学習部132、生成部133及び出力計算部134を有する。ここで、制御部13は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
【0022】
制御部13の各機能部によって実行される処理は、モデル122の学習を行う学習フェーズと、学習フェーズにおいて学習されたモデル122を用いて多変量時系列データの特徴量毎の特徴attentionを生成する運用フェーズとに大別される。制御部13における学習部132は、学習フェーズにおける処理を行う機能部であり、制御部13における生成部133は、運用フェーズにおける処理を行う機能部である。
【0023】
なお、実施の形態に係るデータ処理装置10は、学習フェーズにおける学習処理及び運用フェーズにおけるデータ処理の両方を行う装置として説明するが、これに限定されるものではなく、運用フェーズにおけるデータ処理のみを行うようにしてもよい。この場合には、データ処理装置10は、事前に学習処理が行われ最適化されたモデル122を有するものとする。
【0024】
受付部131は、多変量時系列データの入力を受け付ける。例えば、受付部131は、他の装置から、多変量時系列データの入力を受け付け、多変量時系列データを多変量時系列データ記憶部121に格納する。
【0025】
学習部132は、学習用の多変量時系列データを入力として、特徴抽出ネットワークに学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる。学習部132は、多変量時系列データの特徴量毎の特徴ベクトルを抽出させる際に、データが持つ情報が混ざらないように、特徴量(例えば、センサ)ごとに独立して特徴ベクトルの抽出を行う。そして、学習部132は、attentionネットワークに学習用の多変量時系列データの特徴量毎に特徴attentionを生成させる。学習部132は、抽出結果、生成結果及びこれらから計算されたタスクに対する出力結果を基に、モデル122に、多変量時系列データの特徴量毎の特徴attentionの生成を学習させて、モデル122を最適化する。
【0026】
生成部133は、モデル122を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを生成する。生成部133は、生成した特徴量毎の特徴attentionを基に、各特徴量と各特徴attentionとの対応付けを示したアトリビューションマップを生成する。また、生成部133は、処理対象の多変量時系列データを入力として、特徴抽出ネットワークに、処理対象の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる。生成部133は、タスクに応じて特徴抽出ネットワークが多変量時系列データから抽出した特徴量毎の特徴ベクトルと、attentionネットワークが生成した特徴量毎の特徴attentionと、を出力計算部134に出力する。生成部133は、多変量時系列データの特徴量毎の特徴ベクトルを抽出させる際に、データが持つ情報が混ざらないように、特徴量(例えば、センサ)ごとに独立して特徴ベクトルの抽出を行う。
【0027】
出力計算部134は、生成部133の出力を基に、タスクに応じた問題を解いて、最終的な出力を計算する。出力計算部134は、例えば、分類問題や回帰問題を解いて、異常検知や状態予測を行う。
【0028】
出力部14は、例えば、液晶ディスプレイなどの表示装置、プリンタ等の印刷装置、情報通信装置等によって実現される。出力部14は、生成部133によって生成された各特徴attentionを、各特徴量に対応付けて出力する。出力部14は、各特徴attentionを、各特徴量に対応付けたアトリビューションマップを出力する。
【0029】
[モデル]
次に、モデル122について説明する。図2は、実施の形態におけるモデルの概要を説明する図である。図2では、多変量時系列データとして、複数のセンサデータを処理するモデルMeを例に説明する。
【0030】
図2に示すように、モデルMeは、全体で一つのニューラルネットワークである。モデルMeは、attentionネットワークN1、特徴抽出ネットワークN2及び出力計算ネットワークN3を有する。ここで、入力するデータXの系列長さをT、特徴量の数をCとしたとき、出力する特徴attentionは、長さCのベクトルαとなる。なお、本例では、多変量時系列データは、複数のセンサデータであるため、各特徴量は、各センサが対応することとなる。
【0031】
AttentionネットワークN1は、CNNなどによって構成され、例えば、出力層の活性化関数にsoftmax関数を使用する。このattentionネットワークN1は、入力データである多変量時系列データ(矢印Y11参照)を、CNNに入力し、CNNによる出力(矢印Y12参照)を基に、特徴量毎の重みである特徴attention αを生成する。特徴attention αによって、データ処理装置10は、いずれの特徴量にタスクを解くうえでの重要な情報が有るかを示すことができる。
【0032】
特徴抽出ネットワークN2は、多変量時系列データについて、データが持つ情報が混ざらないように、全結合や特徴量間を跨るような畳み込みを行わず、特徴量(例えば、センサ)毎に独立して特徴ベクトルの抽出を行う。特徴抽出ネットワークN2は、入力データを置換したデータX(矢印Y21,Y22参照)を基にfeature map Vを求める。Feature Map Vは、attentionを掛け合わせる対象である。特徴抽出ネットワークN2は、feature map V(∈RF×C)を、V=Wによって得る。ここで、W(∈RF×T)は、学習した重みを表す。この処理は、入力されたデータXに対し、特徴量方向にカーネルサイズを1としたF個の畳み込みを行う処理と同一である。カーネルサイズを1に限定することによって、特徴量間でデータが持つ情報が混ざることを防ぎ、アトリビューションの解析を容易とする。
【0033】
そして、出力計算ネットワークN3は、タスクに応じた最終的な出力を行うニューラルネットワークである。出力計算ネットワークN3は、attentionネットワークN1から出力された特徴attention α(矢印Y13参照)と、特徴抽出ネットワークN2から出力されたFeature Map V(矢印Y23参照)とを掛け合わせて、長さFのベクトルmを求める。出力計算ネットワークN3では、得られたmは、全結合層などを介して、タスクに対する最終的な出力に使用される。
【0034】
学習フェーズでは、attentionネットワークN1、特徴抽出ネットワークN2及び出力計算ネットワークN3を含むネットワーク全体は、タスクに応じた損失の誤差逆伝播によって学習する。
【0035】
そして、運用フェーズでは、学習したモデルMeを用い、タスクを解かせるとともに、モデルMe内部の特徴attentionを取り出す。運用フェーズで使用する学習モデルは、最後に学習したモデルでもよい。また、学習済みのモデルが複数ある場合には、その中からいずれかを、運用フェーズで使用する学習モデルとして選択してもよい。入力データXに対するattentionの平均を求めることで、各特徴量と各特徴attentionとの対応付けを示すアトリビューションマップを求める。データ処理装置10は、例えば、通信部11を介して、他の装置に、各特徴量のアトリビューションマップのデータを出力する。或いは、データ処理装置10は、ディスプレイやプリンタ等で構成される出力部14から、各特徴量のアトリビューションマップの画像データを出力してもよい。
【0036】
図3及び図4は、アトリビューションマップの出力例を示す図である。図3に示すように、データ処理装置10は、アトリビューションマップとして、特徴量であるセンサの番号毎に、それぞれ対応する重みの大小を、色の濃淡で表現した画像データを出力して、可視化する。図3の画像データでは、色が濃いほど重みが大きく、色が薄いほど重みが小さくなるように表現している。また、図4に示すように、データ処理装置10は、アトリビューションマップとして、特徴量であるセンサの番号と重みとの関係をグラフ化した画像データを出力して、可視化する。図4の画像データでは、22番目のセンサと0番目のセンサとが重みが大きく、重要度が高いことを示す。
【0037】
[学習処理]
次に、データ処理装置10における学習処理の処理手順について説明する。図5は、実施の形態に係る学習処理の処理手順の一例を示すフローチャートである。
【0038】
図5に示すように、データ処理装置10では、受付部131が、学習用の多変量時系列データの入力を受け付ける(ステップS1)。例えば、学習部132は、まとまった量の多変量時系列データを取得したタイミングで学習を実施する。学習部132は、学習用の多変量時系列データを入力として、特徴抽出ネットワークN2に学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる(ステップS2)。
【0039】
そして、学習部132は、attentionネットワークN1に学習用の多変量時系列データの特徴量毎に特徴attentionを生成させる(ステップS3)。学習部132は、特徴抽出ネットワークN2において抽出された特徴量毎の特徴ベクトル、及び、attentionネットワークN1に生成された特徴attentionを基にタスクを解くようにモデル122を学習させて、モデル122を最適化する(ステップS4)。
【0040】
[運用処理]
次に、データ処理装置10における特徴attentionの生成処理の処理手順について説明する。運用時には、モデル122にタスクを自動で解かせつつ、アトリビューションマップによってその判断根拠となった特徴量を確認する。図6は、実施の形態に係る特徴attentionの生成処理の処理手順の一例を示すフローチャートである。
【0041】
図6に示すように、データ処理装置10では、受付部131が、処理対象の多変量時系列データの入力を受け付ける(ステップS11)。例えば、生成部133は、所定時間ごとに、処理対象の多変量時系列データを取得して、特徴attentionの生成を実施する。
【0042】
生成部133は、処理対象の多変量時系列データを入力として、特徴抽出ネットワークN2に、処理対象の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる(ステップS12)。生成部133は、モデル122を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを生成する(ステップS13)。出力計算部134は、生成部による抽出結果、生成結果を基に、タスクに対する出力の計算を行う(ステップS14)。また、生成部133は、各特徴attentionを各特徴量に対応付けたアトリビューションマップを生成して(ステップS15)、出力部14から出力する。例えば、問題が発生した場合には、出力計算部134による出力結果と、その時の特徴attentionを示すアトリビューションマップとを照合することによって、原因の解明が実行される。
【0043】
[実施の形態の効果]
ここで、近年、主に自然言語処理の領域において、attentionと呼ばれる技術がニューラルネットで使われている。このattention機構は、従来の再帰型ニューラルネットでは捉えきれないより長期的な単語系列間の依存関係を捉えることに使われる。そして、attention機構は、その副次的な恩恵として、attentionを観察することで、どの単語がタスクにおいて重要であったかを可視化することが可能である。
【0044】
本実施の形態では、attention機構を特徴量方向に対して適用し、モデルの出力に対する寄与度を表す重みとして、特徴量毎の特徴attentionを求め、どの特徴量がモデルの出力に寄与したかの推測を可能にする。
【0045】
すなわち、実施の形態に係るデータ処理装置10では、多変量時系列データの特徴量毎に、attention機構を用いて特徴attentionを生成するとともに、生成した特徴attentionを基にタスクを解くように学習されたモデル122を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを生成し、出力する。したがって、データ処理装置10によれば、処理対象の多変量時系列データの特徴量毎の特徴attentionを可視化することができるため、管理者等は、出力された特徴attentionを確認することによって、いずれの特徴量が出力に寄与しているかを認識することができる。
【0046】
例えば、本実施の形態によれば、製造業などの産業へ応用した場合、いずれの特徴量(センサや機器等)が出力に対して重要な役割を持つかを抽出することができ、モデルの信頼性や起きている事象を、管理者等が把握することが可能になる。
【0047】
また、本実施の形態は、産業で利用される温度や圧力といったセンサから収集される多変量時系列データに限らず、他の多変量時系列データにも適用が可能である。例えば、多変量時系列データとして、通信ネットワークのトラヒックデータに対する処理も可能である。この際、データ処理装置10は、TCP/UDP等の各プロトコルを特徴量として処理を行う。或いは、データ処理装置10は、HTTP(Web)、メールなどの各アプリケーションを特徴量として処理を行う。そして、データ処理装置10は、タスクとして分類問題や回帰問題を解いて、通信ネットワークの異常検知処理や、通信ネットワークの異常予測処理を行う。
【0048】
この際、データ処理装置10は、各特徴量と各特徴attentionとの対応付けを示すデータとして、特徴量毎に、重みの大小を色の濃淡で表現した画像データや、特徴量と重みとの関係をグラフ化した画像データを出力する。このため、管理者等は、いずれの特徴量(センサや機器等)が出力に対して重要な役割を持つかを迅速に把握することができる。
【0049】
また、データ処理装置10によれば、ニューラルネットワークの出力から入力までの勾配を遡っていくことによってどの入力が重要であるかを推測する従来の方法とは異なり、データのノイズに弱い勾配を安定化させるための統計的な処理も不要である。
【0050】
また、データ処理装置10は、多変量時系列データの特徴量毎の特徴ベクトルを抽出する特徴抽出ネットワークと、多変量時系列データの特徴量毎にattention機構を用いて特徴attentionを生成するattentionネットワークと、を少なくとも含むニューラルネットワークであるモデル122を用いる。そして、データ処理装置10は、特徴抽出ネットワークに学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させ、attentionネットワークに学習用の多変量時系列データの特徴量毎に特徴attentionを生成させる。データ処理装置10は、抽出結果、生成結果及びこれらから計算されたタスクに対する出力結果を基に、モデル122のうちのattentionネットワークに、多変量時系列データの特徴量毎の特徴attentionの生成を学習させる。
【0051】
このため、データ処理装置10は、学習用の多変量時系列データを用いて最適化されたモデル122を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを適正に生成することができる。これにともない、データ処理装置10は、特徴抽出ネットワークによる抽出結果、attentionネットワークによる生成結果を基に、タスクに対する出力の計算を適正に行うことができる。
【0052】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUやGPU及び当該CPUやGPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0053】
また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0054】
[プログラム]
また、上記実施の形態において説明したデータ処理装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施の形態に係るデータ処理装置10が実行する処理をコンピュータが実行可能な言語で記述したデータ処理プログラムを作成することもできる。この場合、コンピュータがデータ処理プログラムを実行することにより、上記実施の形態と同様の効果を得ることができる。さらに、かかるデータ処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたデータ処理プログラムをコンピュータに読み込ませて実行することにより上記実施の形態と同様の処理を実現してもよい。
【0055】
図7は、データ処理プログラムを実行するコンピュータを示す図である。図7に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
【0056】
メモリ1010は、図7に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図7に例示するように、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、図7に例示するように、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、図7に例示するように、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、図7に例示するように、例えばディスプレイ1130に接続される。
【0057】
ここで、図7に例示するように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の、データ処理プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1090に記憶される。
【0058】
また、上記実施の形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
【0059】
なお、データ処理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、データ処理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0060】
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0061】
10 データ処理装置
11 通信部
12 記憶部
13 制御部
14 出力部
121 多変量時系列データ記憶部
122 モデル
131 受付部
132 学習部
133 生成部
134 出力計算部
図1
図2
図3
図4
図5
図6
図7