特許7267044 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特許7267044データ処理装置、データ処理方法及びデータ処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-04-21

(45)【発行日】2023-05-01

(54)【発明の名称】データ処理装置、データ処理方法及びデータ処理プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230424BHJP

G06N 3/04 20230101ALI20230424BHJP

G06T 7/00 20170101ALI20230424BHJP

【ＦＩ】

G06N20/00

G06N3/04

G06T7/00 350C

【請求項の数】 6

(21)【出願番号】P 2019048834

(22)【出願日】2019-03-15

(65)【公開番号】P2020149601

(43)【公開日】2020-09-17

【審査請求日】2021-06-24

(73)【特許権者】

【識別番号】399035766

【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】浅野秀平

(72)【発明者】

【氏名】切通恵介

(72)【発明者】

【氏名】泉谷知範

【審査官】加藤優一

(56)【参考文献】

【文献】米国特許出願公開第２０１８／０３３６４６６（ＵＳ，Ａ１）

【文献】特開２０１７－０６８７１０（ＪＰ，Ａ）

【文献】特開２０１９－０２３８５８（ＪＰ，Ａ）

【文献】特開２０１０－０５４６８５（ＪＰ，Ａ）

【文献】特開２００６－０４３００７（ＪＰ，Ａ）

【文献】国際公開第２０１８／１０５１９４（ＷＯ，Ａ１）

【文献】特開２０２０－０４２６４５（ＪＰ，Ａ）

【文献】山室冴，深層学習を用いた時系列データの要約と分類，第１０回データ工学と情報マネジメントに関するフォーラム（第１６回日本データベース学会年次大会）［Ｏｎｌｉｎｅ］，日本，電子情報通信学会データ工学研究専門委員会日本データベース学会情報処理学会データベースシステム研究会，2018年04月17日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

(57)【特許請求の範囲】

【請求項1】

多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する生成部と、
前記生成部によって生成された各重みを、各特徴量に対応付けて出力する出力部と、
を有し、
前記生成部は、学習済みの前記モデルが複数ある場合には、その中からいずれかを選択して使用し、
または、
前記生成部は、最後に学習されたモデルを用い、
前記モデルは、多変量時系列データの特徴量毎の特徴ベクトルとして、多変量時系列データである入力データＸを置換した置換データＸ ^Ｔに、学習した重みＷ _ｆ（∈Ｒ ^Ｆ×Ｔ）を乗じたfeature map Ｖ（∈Ｒ ^Ｆ×Ｃ）を出力する第１のニューラルネットワークと、多変量時系列データの特徴量毎に前記attention機構を用いて重みを生成する第２のニューラルネットワークと、前記第２のニューラルネットワークから出力された重みと、前記第１のニューラルネットワークから出力されたFeature Map Ｖと、を掛け合わせたベクトルを求める出力計算ネットワークと、を含むニューラルネットワークであり、
前記出力部は、前記出力計算ネットワークが求めたベクトルを基に、各重みを、各特徴量に対応付けて出力することを特徴とするデータ処理装置。

【請求項2】

前記第１のニューラルネットワークに学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させ、前記第２のニューラルネットワークに前記学習用の多変量時系列データの特徴量毎に重みを生成させ、抽出結果、生成結果及びこれらから計算されたタスクに対する出力結果を基に、前記モデルのうちの前記第２のニューラルネットワークに多変量時系列データの特徴量毎の重みの生成を学習させる学習部
をさらに有することを特徴とする請求項１に記載のデータ処理装置。

【請求項3】

前記出力部は、各特徴量と各重みとの対応付けを示すデータとして、特徴量毎に、重みの大小を色の濃淡で表現した画像データを出力することを特徴とする請求項１または２に記載のデータ処理装置。

【請求項4】

前記出力部は、各特徴量と各重みとの対応付けを示すデータとして、前記特徴量と前記重みとの関係をグラフ化した画像データを出力することを特徴とする請求項１または２に記載のデータ処理装置。

【請求項5】

データ処理装置が実行するデータ処理方法であって、
多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する工程と、
前記生成する工程によって生成された各重みを、各特徴量に対応付けて出力する工程と、
を含み、
前記生成する工程は、学習済みの前記モデルが複数ある場合には、その中からいずれかを選択して使用し、
または、
前記生成する工程は、最後に学習されたモデルを用い、
前記モデルは、多変量時系列データの特徴量毎の特徴ベクトルとして、多変量時系列データである入力データＸを置換した置換データＸ ^Ｔに、学習した重みＷ _ｆ（∈Ｒ ^Ｆ×Ｔ）を乗じたfeature map Ｖ（∈Ｒ ^Ｆ×Ｃ）を出力する第１のニューラルネットワークと、多変量時系列データの特徴量毎に前記attention機構を用いて重みを生成する第２のニューラルネットワークと、前記第２のニューラルネットワークから出力された重みと、前記第１のニューラルネットワークから出力されたFeature Map Ｖと、を掛け合わせたベクトルを求める出力計算ネットワークと、を含むニューラルネットワークであり、
前記出力する工程は、前記出力計算ネットワークが求めたベクトルを基に、各重みを、各特徴量に対応付けて出力することを特徴とするデータ処理方法。

【請求項6】

多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成するステップと、
前記生成するステップによって生成された各重みを、各特徴量に対応付けて出力するステップと、
をコンピュータに実行させ、
前記生成するステップは、学習済みの前記モデルが複数ある場合には、その中からいずれかを選択して使用し、
または、
前記生成するステップは、最後に学習されたモデルを用い、
前記モデルは、多変量時系列データの特徴量毎の特徴ベクトルとして、多変量時系列データである入力データＸを置換した置換データＸ ^Ｔに、学習した重みＷ _ｆ（∈Ｒ ^Ｆ×Ｔ）を乗じたfeature map Ｖ（∈Ｒ ^Ｆ×Ｃ）を出力する第１のニューラルネットワークと、多変量時系列データの特徴量毎に前記attention機構を用いて重みを生成する第２のニューラルネットワークと、前記第２のニューラルネットワークから出力された重みと、前記第１のニューラルネットワークから出力されたFeature Map Ｖと、を掛け合わせたベクトルを求める出力計算ネットワークと、を含むニューラルネットワークであり、
前記出力するステップは、前記出力計算ネットワークが求めたベクトルを基に、各重みを、各特徴量に対応付けて出力することを特徴とするデータ処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ処理装置、データ処理方法及びデータ処理プログラムに関する。

【背景技術】

【0002】

近年、画像処理分野、音声処理分野、自然言語分野といった幅広い分野において、ニューラルネットワークが適用されている。例えば、工場、プラント、ビル、データセンタ等の対象機器に設けられたセンサが取得したセンサデータを、ニューラルネットワークに入力し、その出力結果を基に、対象機器の異常を検知することが行われている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１７－１４２６５４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ここで、機械学習モデルを使って問題を解かせる際、どの入力（特徴量）が重要であったか、モデルはどこを見て判断を下したのか（判断根拠）を特定することは、産業への応用において重要となる。

【0005】

従来でも、線形モデルなどの構造が単純なモデルであれば、内部のパラメータを確認することによって、どの特徴量が出力に寄与する重要な特徴量であったかを得られるものの、ニューラルネットワークのような高い性能や表現力を同時に得ることはできなかった。

【0006】

これに対し、ニューラルネットワークは、例えば異常検知などの様々なタスクで優れた性能を示すが、学習したモデルがブラックボックスであるという課題がある。言い換えると、ニューラルネットワークは、入出力の過程が自明でなく、高い性能の結果を得ることができても、その判断根拠となる入力、例えば、その原因や要因に関係する入力がどの入力であるか分からないという課題がある。

【0007】

本発明は、上記に鑑みてなされたものであって、ニューラルネットワークを用いるモデルにおいて、出力に寄与した特徴量を得ることができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

上述した課題を解決し、目的を達成するために、本発明のデータ処理装置は、多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する生成部と、生成部によって生成された各重みを、各特徴量に対応付けて出力する出力部と、を有することを特徴とする。

【0009】

また、本発明のデータ処理方法は、データ処理装置が実行するデータ処理方法であって、多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成する工程と、生成する工程によって生成された各重みを、各特徴量に対応付けて出力する工程と、を含んだことを特徴とする。

【0010】

また、本発明のデータ処理プログラムは、多変量時系列データの特徴量毎に、attention機構を用いて、モデルの出力に対する寄与度を表す重みを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に重みを生成するステップと、生成するステップによって生成された各重みを、各特徴量に対応付けて出力するステップと、をコンピュータに実行させることを特徴とする。

【発明の効果】

【0011】

本発明によれば、ニューラルネットワークを用いるモデルにおいて、出力に寄与した特徴量を得ることができるという効果を奏する。

【図面の簡単な説明】

【0012】

【図1】図１は、実施の形態に係るデータ処理装置の構成例を示すブロック図である。

【図2】図２は、実施の形態におけるモデルの概要を説明する図である。

【図3】図３は、アトリビューションマップの出力例を示す図である。

【図4】図４は、アトリビューションマップの出力例を示す図である。

【図5】図５は、実施の形態に係る学習処理の処理手順の一例を示すフローチャートである。

【図6】図６は、実施の形態に係る特徴attentionの生成処理の処理手順の一例を示すフローチャートである。

【図7】図７は、データ処理プログラムを実行するコンピュータを示す図である。

【発明を実施するための形態】

【0013】

以下に、本願に係るデータ処理装置、データ処理方法及びデータ処理プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係るデータ処理装置、データ処理方法及びデータ処理プログラムが限定されるものではない。

【0014】

［実施の形態］
本実施の形態に係るデータ処理装置１０の構成、データ処理装置１０の処理の流れを順に説明し、本実施の形態による効果を説明する。

【0015】

［データ処理装置の構成］
実施の形態に係るデータ処理装置１０は、与えられたタスク（異常検知など）に応じた問題を解き、最終的な出力を計算する。実施の形態に係るデータ処理装置１０は、出力の解釈性を高めるための補助として、多変量時系列データの特徴量毎に、モデルの出力に対する寄与度を表す重みを生成する。具体的には、データ処理装置１０は、attention機構を有するニューラルネットワークを用いたモデルを用いて、多変量時系列データの特徴量毎に、重みとして、attention（以降、特徴attentionとする。）を生成し、モデルの出力に寄与する特徴量を選別する。なお、寄与度を、その特徴量の、モデルの出力に対する重要度や、その特徴量の、モデルの出力に関する影響度と言い換えてもよい。

【0016】

図１は、実施の形態に係るデータ処理装置の構成例を示すブロック図である。図１に示すように、このデータ処理装置１０は、通信部１１、記憶部１２、制御部１３及び出力部１４を有する。以下にデータ処理装置１０が有する各部の処理を説明する。

【0017】

通信部１１は、各種情報に関する通信を行う。例えば、通信部１１は、他の装置から、多変量時系列データ及び該データの処理要求を受信する。また、通信部１１は、他の装置に対して処理結果を送信する。なお、データ処理装置１０は、他の装置と通信ネットワークを介して通信を行ってもよく、他の装置と接続することなくローカルな環境で動作してもよい。

【0018】

記憶部１２は、制御部１３による各種処理に必要なデータ及びプログラムを格納し、多変量時系列データ記憶部１２１及びモデル１２２を有する。例えば、記憶部１２は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

【0019】

多変量時系列データ記憶部１２１は、処理対象或いは学習対象の多変量時系列データを記憶する。多変量時系列データは、例えば、工場、プラント、ビル、データセンタ等の対象機器に設けられたセンサのデータ（例えば、温度や圧力、音、振動等のデータ）である。また、多変量時系列データは、ウェブサイト（銀行のサイトやニュースサイト）における通信ネットワークトラフィックに関するデータ等、どのようなデータであってもよい。データ処理装置１０は、例えば、多変量時系列データを、通信機器やセンサからリアルタイムで取得し、多変量時系列データ記憶部１２１に格納する。この際、データ処理装置１０は、多変量時系列データに対し、空値補完処理や正規化処理等の既存のデータ前処理を行ってから、多変量時系列データ記憶部１２１に格納してもよい。

【0020】

モデル１２２は、多変量時系列データの特徴量毎に、attention機構を用いて特徴attentionを生成するとともに、生成した特徴attentionを基にタスクを解くように学習されたモデルである。モデル１２２は、多変量時系列データが入力されると、この多変量時系列データの特徴量毎に特徴attentionを生成する。モデル１２２は、全体で一つのニューラルネットワークのモデルであり、多変量時系列データの特徴量毎の特徴ベクトルを抽出する特徴抽出ネットワーク（第２のニューラルネットワーク）と、多変量時系列データの特徴量毎にattention機構を用いて特徴attentionを生成するattentionネットワーク（第１のニューラルネットワーク）と、を少なくとも含む。モデル１２２は、ニューラルネットワークの一種であるＣＮＮ（Convolutional Neural Network）などによって構成される。

【0021】

制御部１３は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、受付部１３１、学習部１３２、生成部１３３及び出力計算部１３４を有する。ここで、制御部１３は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

【0022】

制御部１３の各機能部によって実行される処理は、モデル１２２の学習を行う学習フェーズと、学習フェーズにおいて学習されたモデル１２２を用いて多変量時系列データの特徴量毎の特徴attentionを生成する運用フェーズとに大別される。制御部１３における学習部１３２は、学習フェーズにおける処理を行う機能部であり、制御部１３における生成部１３３は、運用フェーズにおける処理を行う機能部である。

【0023】

なお、実施の形態に係るデータ処理装置１０は、学習フェーズにおける学習処理及び運用フェーズにおけるデータ処理の両方を行う装置として説明するが、これに限定されるものではなく、運用フェーズにおけるデータ処理のみを行うようにしてもよい。この場合には、データ処理装置１０は、事前に学習処理が行われ最適化されたモデル１２２を有するものとする。

【0024】

受付部１３１は、多変量時系列データの入力を受け付ける。例えば、受付部１３１は、他の装置から、多変量時系列データの入力を受け付け、多変量時系列データを多変量時系列データ記憶部１２１に格納する。

【0025】

学習部１３２は、学習用の多変量時系列データを入力として、特徴抽出ネットワークに学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる。学習部１３２は、多変量時系列データの特徴量毎の特徴ベクトルを抽出させる際に、データが持つ情報が混ざらないように、特徴量（例えば、センサ）ごとに独立して特徴ベクトルの抽出を行う。そして、学習部１３２は、attentionネットワークに学習用の多変量時系列データの特徴量毎に特徴attentionを生成させる。学習部１３２は、抽出結果、生成結果及びこれらから計算されたタスクに対する出力結果を基に、モデル１２２に、多変量時系列データの特徴量毎の特徴attentionの生成を学習させて、モデル１２２を最適化する。

【0026】

生成部１３３は、モデル１２２を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを生成する。生成部１３３は、生成した特徴量毎の特徴attentionを基に、各特徴量と各特徴attentionとの対応付けを示したアトリビューションマップを生成する。また、生成部１３３は、処理対象の多変量時系列データを入力として、特徴抽出ネットワークに、処理対象の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる。生成部１３３は、タスクに応じて特徴抽出ネットワークが多変量時系列データから抽出した特徴量毎の特徴ベクトルと、attentionネットワークが生成した特徴量毎の特徴attentionと、を出力計算部１３４に出力する。生成部１３３は、多変量時系列データの特徴量毎の特徴ベクトルを抽出させる際に、データが持つ情報が混ざらないように、特徴量（例えば、センサ）ごとに独立して特徴ベクトルの抽出を行う。

【0027】

出力計算部１３４は、生成部１３３の出力を基に、タスクに応じた問題を解いて、最終的な出力を計算する。出力計算部１３４は、例えば、分類問題や回帰問題を解いて、異常検知や状態予測を行う。

【0028】

出力部１４は、例えば、液晶ディスプレイなどの表示装置、プリンタ等の印刷装置、情報通信装置等によって実現される。出力部１４は、生成部１３３によって生成された各特徴attentionを、各特徴量に対応付けて出力する。出力部１４は、各特徴attentionを、各特徴量に対応付けたアトリビューションマップを出力する。

【0029】

［モデル］
次に、モデル１２２について説明する。図２は、実施の形態におけるモデルの概要を説明する図である。図２では、多変量時系列データとして、複数のセンサデータを処理するモデルＭｅを例に説明する。

【0030】

図２に示すように、モデルＭｅは、全体で一つのニューラルネットワークである。モデルＭｅは、attentionネットワークＮ１、特徴抽出ネットワークＮ２及び出力計算ネットワークＮ３を有する。ここで、入力するデータＸの系列長さをＴ、特徴量の数をＣとしたとき、出力する特徴attentionは、長さＣのベクトルαとなる。なお、本例では、多変量時系列データは、複数のセンサデータであるため、各特徴量は、各センサが対応することとなる。

【0031】

AttentionネットワークＮ１は、ＣＮＮなどによって構成され、例えば、出力層の活性化関数にsoftmax関数を使用する。このattentionネットワークＮ１は、入力データである多変量時系列データ（矢印Ｙ１１参照）を、ＣＮＮに入力し、ＣＮＮによる出力（矢印Ｙ１２参照）を基に、特徴量毎の重みである特徴attention αを生成する。特徴attention αによって、データ処理装置１０は、いずれの特徴量にタスクを解くうえでの重要な情報が有るかを示すことができる。

【0032】

特徴抽出ネットワークＮ２は、多変量時系列データについて、データが持つ情報が混ざらないように、全結合や特徴量間を跨るような畳み込みを行わず、特徴量（例えば、センサ）毎に独立して特徴ベクトルの抽出を行う。特徴抽出ネットワークＮ２は、入力データを置換したデータＸ^Ｔ（矢印Ｙ２１，Ｙ２２参照）を基にfeature map Ｖを求める。Feature Map Ｖは、attentionを掛け合わせる対象である。特徴抽出ネットワークＮ２は、feature map Ｖ（∈Ｒ^Ｆ×Ｃ）を、Ｖ＝Ｗ_ｆＸ^Ｔによって得る。ここで、Ｗ_ｆ（∈Ｒ^Ｆ×Ｔ）は、学習した重みを表す。この処理は、入力されたデータＸに対し、特徴量方向にカーネルサイズを１としたＦ個の畳み込みを行う処理と同一である。カーネルサイズを１に限定することによって、特徴量間でデータが持つ情報が混ざることを防ぎ、アトリビューションの解析を容易とする。

【0033】

そして、出力計算ネットワークＮ３は、タスクに応じた最終的な出力を行うニューラルネットワークである。出力計算ネットワークＮ３は、attentionネットワークＮ１から出力された特徴attention α（矢印Ｙ１３参照）と、特徴抽出ネットワークＮ２から出力されたFeature Map Ｖ（矢印Ｙ２３参照）とを掛け合わせて、長さＦのベクトルｍを求める。出力計算ネットワークＮ３では、得られたｍは、全結合層などを介して、タスクに対する最終的な出力に使用される。

【0034】

学習フェーズでは、attentionネットワークＮ１、特徴抽出ネットワークＮ２及び出力計算ネットワークＮ３を含むネットワーク全体は、タスクに応じた損失の誤差逆伝播によって学習する。

【0035】

そして、運用フェーズでは、学習したモデルＭｅを用い、タスクを解かせるとともに、モデルＭｅ内部の特徴attentionを取り出す。運用フェーズで使用する学習モデルは、最後に学習したモデルでもよい。また、学習済みのモデルが複数ある場合には、その中からいずれかを、運用フェーズで使用する学習モデルとして選択してもよい。入力データＸに対するattentionの平均を求めることで、各特徴量と各特徴attentionとの対応付けを示すアトリビューションマップを求める。データ処理装置１０は、例えば、通信部１１を介して、他の装置に、各特徴量のアトリビューションマップのデータを出力する。或いは、データ処理装置１０は、ディスプレイやプリンタ等で構成される出力部１４から、各特徴量のアトリビューションマップの画像データを出力してもよい。

【0036】

図３及び図４は、アトリビューションマップの出力例を示す図である。図３に示すように、データ処理装置１０は、アトリビューションマップとして、特徴量であるセンサの番号毎に、それぞれ対応する重みの大小を、色の濃淡で表現した画像データを出力して、可視化する。図３の画像データでは、色が濃いほど重みが大きく、色が薄いほど重みが小さくなるように表現している。また、図４に示すように、データ処理装置１０は、アトリビューションマップとして、特徴量であるセンサの番号と重みとの関係をグラフ化した画像データを出力して、可視化する。図４の画像データでは、２２番目のセンサと０番目のセンサとが重みが大きく、重要度が高いことを示す。

【0037】

［学習処理］
次に、データ処理装置１０における学習処理の処理手順について説明する。図５は、実施の形態に係る学習処理の処理手順の一例を示すフローチャートである。

【0038】

図５に示すように、データ処理装置１０では、受付部１３１が、学習用の多変量時系列データの入力を受け付ける（ステップＳ１）。例えば、学習部１３２は、まとまった量の多変量時系列データを取得したタイミングで学習を実施する。学習部１３２は、学習用の多変量時系列データを入力として、特徴抽出ネットワークＮ２に学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる（ステップＳ２）。

【0039】

そして、学習部１３２は、attentionネットワークＮ１に学習用の多変量時系列データの特徴量毎に特徴attentionを生成させる（ステップＳ３）。学習部１３２は、特徴抽出ネットワークＮ２において抽出された特徴量毎の特徴ベクトル、及び、attentionネットワークＮ１に生成された特徴attentionを基にタスクを解くようにモデル１２２を学習させて、モデル１２２を最適化する（ステップＳ４）。

【0040】

［運用処理］
次に、データ処理装置１０における特徴attentionの生成処理の処理手順について説明する。運用時には、モデル１２２にタスクを自動で解かせつつ、アトリビューションマップによってその判断根拠となった特徴量を確認する。図６は、実施の形態に係る特徴attentionの生成処理の処理手順の一例を示すフローチャートである。

【0041】

図６に示すように、データ処理装置１０では、受付部１３１が、処理対象の多変量時系列データの入力を受け付ける（ステップＳ１１）。例えば、生成部１３３は、所定時間ごとに、処理対象の多変量時系列データを取得して、特徴attentionの生成を実施する。

【0042】

生成部１３３は、処理対象の多変量時系列データを入力として、特徴抽出ネットワークＮ２に、処理対象の多変量時系列データの特徴量毎の特徴ベクトルを抽出させる（ステップＳ１２）。生成部１３３は、モデル１２２を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを生成する（ステップＳ１３）。出力計算部１３４は、生成部による抽出結果、生成結果を基に、タスクに対する出力の計算を行う（ステップＳ１４）。また、生成部１３３は、各特徴attentionを各特徴量に対応付けたアトリビューションマップを生成して（ステップＳ１５）、出力部１４から出力する。例えば、問題が発生した場合には、出力計算部１３４による出力結果と、その時の特徴attentionを示すアトリビューションマップとを照合することによって、原因の解明が実行される。

【0043】

［実施の形態の効果］
ここで、近年、主に自然言語処理の領域において、attentionと呼ばれる技術がニューラルネットで使われている。このattention機構は、従来の再帰型ニューラルネットでは捉えきれないより長期的な単語系列間の依存関係を捉えることに使われる。そして、attention機構は、その副次的な恩恵として、attentionを観察することで、どの単語がタスクにおいて重要であったかを可視化することが可能である。

【0044】

本実施の形態では、attention機構を特徴量方向に対して適用し、モデルの出力に対する寄与度を表す重みとして、特徴量毎の特徴attentionを求め、どの特徴量がモデルの出力に寄与したかの推測を可能にする。

【0045】

すなわち、実施の形態に係るデータ処理装置１０では、多変量時系列データの特徴量毎に、attention機構を用いて特徴attentionを生成するとともに、生成した特徴attentionを基にタスクを解くように学習されたモデル１２２を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを生成し、出力する。したがって、データ処理装置１０によれば、処理対象の多変量時系列データの特徴量毎の特徴attentionを可視化することができるため、管理者等は、出力された特徴attentionを確認することによって、いずれの特徴量が出力に寄与しているかを認識することができる。

【0046】

例えば、本実施の形態によれば、製造業などの産業へ応用した場合、いずれの特徴量（センサや機器等）が出力に対して重要な役割を持つかを抽出することができ、モデルの信頼性や起きている事象を、管理者等が把握することが可能になる。

【0047】

また、本実施の形態は、産業で利用される温度や圧力といったセンサから収集される多変量時系列データに限らず、他の多変量時系列データにも適用が可能である。例えば、多変量時系列データとして、通信ネットワークのトラヒックデータに対する処理も可能である。この際、データ処理装置１０は、ＴＣＰ／ＵＤＰ等の各プロトコルを特徴量として処理を行う。或いは、データ処理装置１０は、ＨＴＴＰ（Ｗｅｂ）、メールなどの各アプリケーションを特徴量として処理を行う。そして、データ処理装置１０は、タスクとして分類問題や回帰問題を解いて、通信ネットワークの異常検知処理や、通信ネットワークの異常予測処理を行う。

【0048】

この際、データ処理装置１０は、各特徴量と各特徴attentionとの対応付けを示すデータとして、特徴量毎に、重みの大小を色の濃淡で表現した画像データや、特徴量と重みとの関係をグラフ化した画像データを出力する。このため、管理者等は、いずれの特徴量（センサや機器等）が出力に対して重要な役割を持つかを迅速に把握することができる。

【0049】

また、データ処理装置１０によれば、ニューラルネットワークの出力から入力までの勾配を遡っていくことによってどの入力が重要であるかを推測する従来の方法とは異なり、データのノイズに弱い勾配を安定化させるための統計的な処理も不要である。

【0050】

また、データ処理装置１０は、多変量時系列データの特徴量毎の特徴ベクトルを抽出する特徴抽出ネットワークと、多変量時系列データの特徴量毎にattention機構を用いて特徴attentionを生成するattentionネットワークと、を少なくとも含むニューラルネットワークであるモデル１２２を用いる。そして、データ処理装置１０は、特徴抽出ネットワークに学習用の多変量時系列データの特徴量毎の特徴ベクトルを抽出させ、attentionネットワークに学習用の多変量時系列データの特徴量毎に特徴attentionを生成させる。データ処理装置１０は、抽出結果、生成結果及びこれらから計算されたタスクに対する出力結果を基に、モデル１２２のうちのattentionネットワークに、多変量時系列データの特徴量毎の特徴attentionの生成を学習させる。

【0051】

このため、データ処理装置１０は、学習用の多変量時系列データを用いて最適化されたモデル１２２を用いて、処理対象の多変量時系列データの特徴量毎に特徴attentionを適正に生成することができる。これにともない、データ処理装置１０は、特徴抽出ネットワークによる抽出結果、attentionネットワークによる生成結果を基に、タスクに対する出力の計算を適正に行うことができる。

【0052】

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵやＧＰＵ及び当該ＣＰＵやＧＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0053】

また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0054】

［プログラム］
また、上記実施の形態において説明したデータ処理装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施の形態に係るデータ処理装置１０が実行する処理をコンピュータが実行可能な言語で記述したデータ処理プログラムを作成することもできる。この場合、コンピュータがデータ処理プログラムを実行することにより、上記実施の形態と同様の効果を得ることができる。さらに、かかるデータ処理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたデータ処理プログラムをコンピュータに読み込ませて実行することにより上記実施の形態と同様の処理を実現してもよい。

【0055】

図７は、データ処理プログラムを実行するコンピュータを示す図である。図７に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

【0056】

メモリ１０１０は、図７に例示するように、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図７に例示するように、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、図７に例示するように、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、図７に例示するように、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、図７に例示するように、例えばディスプレイ１１３０に接続される。

【0057】

ここで、図７に例示するように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の、データ処理プログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ１０９０に記憶される。

【0058】

また、上記実施の形態で説明した各種データは、プログラムデータとして、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

【0059】

なお、データ処理プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、データ処理プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【0060】

上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0061】

１０データ処理装置
１１通信部
１２記憶部
１３制御部
１４出力部
１２１多変量時系列データ記憶部
１２２モデル
１３１受付部
１３２学習部
１３３生成部
１３４出力計算部

【図1】