特許7397377 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧

特許7397377情報処理装置、情報処理方法、および、情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-05

(45)【発行日】2023-12-13

(54)【発明の名称】情報処理装置、情報処理方法、および、情報処理プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20231206BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】 6

(21)【出願番号】P 2022543827

(86)(22)【出願日】2020-08-17

(86)【国際出願番号】 JP2020031001

(87)【国際公開番号】W WO2022038660

(87)【国際公開日】2022-02-24

【審査請求日】2023-01-06

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】100083806

【弁理士】

【氏名又は名称】三好秀和

(74)【代理人】

【識別番号】100129230

【弁理士】

【氏名又は名称】工藤理恵

(72)【発明者】

【氏名】孫晶玉

(72)【発明者】

【氏名】竹内亨

(72)【発明者】

【氏名】前大道浩之

(72)【発明者】

【氏名】山崎育生

【審査官】藤原敬利

(56)【参考文献】

【文献】特開２０１８－１４７４７４（ＪＰ，Ａ）

【文献】特表２０１８－５２５７３４（ＪＰ，Ａ）

【文献】特開２０１８－０８１４４２（ＪＰ，Ａ）

【文献】WENG, Shuchen et al.，DUAL-STREAM CNN FOR STRUCTURED TIME SERIES CLASSIFICATION，2019 IEEE International Conference on Accoustics, Speech and Signal Processing，英国，IEEE Signal Processing Society，2019年05月12日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

時系列データを学習ネットワークで学習または分類する情報処理装置において、
前記学習ネットワークは、
異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第１のインセプションニューラルネットワークを用いて、サポートセットに指定された異なる複数の教師データの各特徴ベクトルをそれぞれ抽出する第１の抽出部と、
異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第２のインセプションニューラルネットワークを用いて、クエリセットに指定された教師データの特徴ベクトルを抽出する第２の抽出部と、
前記複数の教師データの各特徴ベクトルと前記教師データの特徴ベクトルとを用いて、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致または類似するポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致および類似しないネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、前記学習ネットワークのネットワークパラメータを更新する学習部と、
を備える情報処理装置。

【請求項2】

前記ネットワークパラメータが更新された前記学習ネットワークを用いて、前記サポートセットに指定された複数の教師データに対する、前記クエリセットに指定された分類対象の時系列データの分類先を推定計算する分類部をさらに備える請求項１に記載の情報処理装置。

【請求項3】

前記第２の抽出部は、
前記複数の畳み込み層を並列的に用いて前記クエリセットに指定された一の教師データについて複数の特徴ベクトルを抽出し、
前記第１の抽出部は、
前記複数の畳み込み層を並列的に用いて前記サポートセットに指定された一の教師データについて複数の特徴ベクトルを抽出し、前記第１の抽出部が抽出した前記複数の特徴ベクトルと前記第２の抽出部が抽出した前記複数の特徴ベクトルとの類似度に基づく各アテンションスコアをそれぞれ計算し、前記第１の抽出部が抽出した前記複数の特徴ベクトルに対して前記各アテンションスコアをそれぞれ付与する請求項１または２に記載の情報処理装置。

【請求項4】

時系列データを学習ネットワークで学習または分類する情報処理方法において、
前記学習ネットワークは、
異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第１のインセプションニューラルネットワークを用いて、サポートセットに指定された異なる複数の教師データの各特徴ベクトルをそれぞれ抽出するステップと、
異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第２のインセプションニューラルネットワークを用いて、クエリセットに指定された教師データの特徴ベクトルを抽出するステップと、
前記複数の教師データの各特徴ベクトルと前記教師データの特徴ベクトルとを用いて、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致または類似するポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致および類似しないネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、前記学習ネットワークのネットワークパラメータを更新するステップと、
を行う情報処理方法。

【請求項5】

前記ネットワークパラメータが更新された前記学習ネットワークを用いて、前記サポートセットに指定された複数の教師データに対する、前記クエリセットに指定された分類対象の時系列データの分類先を推定計算するステップをさらに行う請求項４に記載の情報処理方法。

【請求項6】

請求項１ないし３のうちいずれかに記載の情報処理装置としてコンピュータを機能させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、および、情報処理プログラムに関する。

【背景技術】

【0002】

従来、IoT（Internet of Things）など多様なデバイスから収集した実世界上のデータを活用することにより、様々な社会的課題を解決できることが知られている。特に、様々な場面では時間的に変化したデータ値を持つ時系列データが用いられており、ある事象についての異常検知や傾向分析などを行う際に、その事象に関する時系列データを適切に分類することが重要な課題となっている。

【0003】

伝統的な時系列データの分類手法には、ARIMA（Auto Regressive Integrated Moving Average）モデルなど、様々な分類モデル（例えば、統計モデル、回帰モデル）が用いられている。このような分類モデルでは、入力された時系列データの特徴に基づき分類を行う。分類モデルを上手く活用するには、分類モデルおよび分類モデルのパラメータに関する知識が必要である。しかし、複数の種類の分類モデルの中から要求を満たす分類モデルを選択し、かつ、その分類モデルのパラメータを設定することを人手で行う必要があり、多大な労力が必要になるため、分類の精度は不安定である。また、時系列データに多くのノイズ成分が含まれる場合、時系列データの特徴を正確に捉えることができず、分類モデルに上手く適合しない場合もある。

【0004】

一方、機械学習を用いて複数の時系列データの様々な特徴を予め自動学習しておき、入力された時系列データの特徴がどの特徴に類似するかに基づき分類を行う手法もある。しかし、機械学習を用いて時系列データを分類可能にするためには、時系列データの特徴を学習する際に大量の教師データが必要になり、現実的に難しい場合が多い。

【0005】

例えば、機械学習には、畳み込みニューラルネットワーク（CNN：Convolutional Neural Network）、回帰型ニューラルネットワーク（RNN：Recurrent Neural Network）がある。

【0006】

CNNは、画像または映像を分類するために用いられ、入力層と出力層との間に畳み込み演算を行う複数の畳み込み層を直列的に配置し、入力された画像に対して各畳み込み層のフィルタをかけて特徴マップを段階的に生成していき、最終的に得られた特徴マップの特徴に基づき画像を分類する手法である。しかし、通常、畳み込み層のフィルタサイズは固定されており、そのフィルタサイズを動的に変更できない。また、畳み込み層の設計によっては分類結果が大きく異なる可能性が高い。

【0007】

RNNは、文章を分類するために用いられ、ある層Ａの出力が遡って次の層Ａに入力される再帰結合構造を備え、文脈に着目して文章を分類する手法である。しかし、文字を再帰的に処理するため、処理全体を並列化することは難しい。また、文章が長すぎる場合には、連続する文字または単語の文脈の特徴を正確に把握できず、適切に分類できない場合がある。さらに、層Ａの設計によっては分類結果が大きく異なる可能性が高い。

【0008】

一方、非特許文献１では、インセプションモジュール（Inception Module）を取り入れた機械学習手法を提案している。インセプションモジュールとは、ネットワークを分岐させ、異なるフィルタサイズの各畳み込み層でそれぞれ畳み込み演算を並列的に行った後、それにより抽出された複数の特徴を最後に連結する処理を行うニューラルネットワークである。

【0009】

非特許文献１の図１では、左側の時系列データに対して、それぞれの長さが｛10｝、｛20｝、｛40｝であるフィルタサイズの各畳み込み層を並列に適用し、それぞれの畳み込み演算の結果を最後に連結している。このように、非特許文献１では、時系列データに対して異なるフィルタサイズの各畳み込み層を並列に適用して複数の特徴を抽出するため、畳み込み層のフィルタサイズを動的に変更できないCNNや処理全体を並列化することが難しいRNNよりも分類精度が高い。

【先行技術文献】

【非特許文献】

【0010】

【文献】Hassan Ismail Fawaz、外９名、“InceptionTime: Finding AlexNet for Time Series Classification”、arXiv:1909.04939v2 [cs.LG] 13 Sep 2019、p.1-p.27

【発明の概要】

【発明が解決しようとする課題】

【0011】

非特許文献１では、一の時系列データに対して異なるフィルタサイズの各畳み込み層を並列に適用して複数の特徴を抽出するため、複数の特徴を活用することで時系列データを高精度に分類できる。しかしながら、非特許文献１の機械学習手法であっても、大量の教師データが必要である。また、非特許文献１では、各畳み込み層を並列に適用して得られた複数の特徴をそのまま連結するため、時系列データを効率的に分類できない。

【0012】

本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、少数の教師データで精度よく時系列データを分類可能な技術を提供することである。

【課題を解決するための手段】

【0013】

本発明の一態様の情報処理装置は、時系列データを学習ネットワークで学習または分類する情報処理装置において、前記学習ネットワークは、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第１のインセプションニューラルネットワークを用いて、サポートセットに指定された異なる複数の教師データの各特徴ベクトルをそれぞれ抽出する第１の抽出部と、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第２のインセプションニューラルネットワークを用いて、クエリセットに指定された教師データの特徴ベクトルを抽出する第２の抽出部と、前記複数の教師データの各特徴ベクトルと前記教師データの特徴ベクトルとを用いて、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致または類似するポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致および類似しないネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、前記学習ネットワークのネットワークパラメータを更新する学習部と、を備える。

【0014】

本発明の一態様の情報処理方法は、時系列データを学習ネットワークで学習または分類する情報処理方法において、前記学習ネットワークは、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第１のインセプションニューラルネットワークを用いて、サポートセットに指定された異なる複数の教師データの各特徴ベクトルをそれぞれ抽出するステップと、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第２のインセプションニューラルネットワークを用いて、クエリセットに指定された教師データの特徴ベクトルを抽出するステップと、前記複数の教師データの各特徴ベクトルと前記教師データの特徴ベクトルとを用いて、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致または類似するポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致および類似しないネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、前記学習ネットワークのネットワークパラメータを更新するステップと、を行う。

【0015】

本発明の一態様の情報処理プログラムは、上記情報処理装置としてコンピュータを機能させる。

【発明の効果】

【0016】

本発明によれば、少数の教師データで精度よく時系列データを分類可能な技術を提供できる。

【図面の簡単な説明】

【0017】

【図1】図１は、本実施形態に係る情報処理装置の構成を示す図である。

【図2】図２は、学習ネットワークに入力する時系列データおよび学習ネットワークから出力する分類結果を示す図である。

【図3】図３は、学習ネットワークの構成を示す図である。

【図4】図４は、第１のインセプションニューラルネットワークの構成を示す図である。

【図5】図５は、第２のインセプションニューラルネットワークの構成を示す図である。

【図6】図６は、第１および第２のインセプションニューラルネットワークの配置例を示す図である。

【図7】図７は、スコア付与部の動作イメージを示す図である。

【図8】図８は、ポジティブサンプルおよびネガティブサンプルの例を示す図である。

【図9】図９は、情報処理装置の動作イメージを示す図である。

【図10】図１０は、情報処理装置のハードウェア構成を示す図である。

【発明を実施するための形態】

【0018】

以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。

【0019】

［発明の概要］
［１つ目の特徴］
非特許文献１の機械学習手法であっても、大量の教師データが必要であった。

【0020】

そこで、本発明では、時系列データの特徴値を異なるフィルタサイズの各畳み込み層で抽出するインセプションニューラルネットワークを複数配置し、これをPrototypical分類フレームワークのサポートセットとクエリセットとにそれぞれ適用することによって、少数の教師データだけで学習および推論が可能なアーキテクチャを実現する。

【0021】

具体的には、非特許文献１のインセプションニューラルネットワークと原則同じ構成を備えるインセプションニューラルネットワークを少なくとも２つ用意（以下、第１および第２のインセプションニューラルネットワーク）する。また、複数の教師データが指定されたサポートセットを用意する。さらに、１つの教師データが指定されたクエリセットを用意する。そして、サポートセットに指定された複数の教師データに対して第１のインセプションニューラルネットワークを適用し、その複数の教師データの各特徴ベクトルをそれぞれ抽出する。同様に、クエリセットに指定された１つの教師データに対して第２のインセプションニューラルネットワークを適用し、その１つの教師データの特徴ベクトルを抽出する。その後、クエリセットの教師データとサポートセットの教師データのうちポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、クエリセットの教師データとサポートセットの教師データのうちネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、学習ネットワークのネットワークパラメータを更新する。これにより、少数の教師データで精度よく時系列データを分類可能となる。

【0022】

［２つ目の特徴］
非特許文献１の機械学習手法では、時系列データを効率的に分類できなかった。

【0023】

そこで、本発明では、異なるフィルタサイズの各畳み込み層を並列的に処理し、サポートセットに対応する第１のインセプションニューラルネットワークの各畳み込み層でそれぞれ抽出された教師データの各特徴値を、クエリセットに対応する第２のインセプションニューラルネットワークの各畳み込み層でそれぞれ抽出された教師データの各特徴値とそれぞれ比較し、その比較結果に基づくスコアをそれぞれ計算して、第１のインセプションニューラルネットワークの各畳み込み層に対して各スコアを付与することによって、分類タスクに有効な畳み込み層を重み付け、効率的な学習プロセスを実現する。

【0024】

具体的には、第１のインセプションニューラルネットワークの並列的な各畳み込み層でそれぞれ抽出された一の教師データの特徴ベクトルと、第２のインセプションニューラルネットワークの並列的な各畳み込み層でそれぞれ抽出された一の特徴ベクトルとの類似度、関連度、関係度に基づく各アテンションスコアをそれぞれ計算し、各アテンションスコアを重みとしてそれぞれ付与する。これにより、時系列データを効率的に分類可能となる。

【0025】

［情報処理装置の構成］
図１は、本実施形態に係る情報処理装置の構成を示す図である。

【0026】

情報処理装置１は、時系列データを学習ネットワークθで学習する時系列データ学習装置であり、かつ、時系列データを学習ネットワークθで分類する時系列データ分類装置である。時系列データとは、時間的に変化したデータ値を持つデータである。例えば、正常と認定される電圧変化の電圧値を記録したデータ、異常と認定される電圧変化の電圧値を記録したデータである。

【0027】

学習ネットワークθは、第１の抽出部１１と、第２の抽出部１２と、学習部１３と、分類部１４と、を備える。第１の抽出部１１、第２の抽出部１２、学習部１３が、時系列データ学習装置を構成する。第１の抽出部１１、第２の抽出部１２、分類部１４が、時系列データ分類装置を構成する。情報処理装置１は、学習ネットワークθを記憶する記憶部１５を備える。

【0028】

［入出力データ］
図２は、学習ネットワークに入力する時系列データおよび学習ネットワークから出力する分類結果を示す図である。

【0029】

学習ネットワークθに入力する教師データとして、サポートセットおよびクエリセットを用意する。教師データとは、正解である学習データ、または、正解のフラグが付与された学習データである。

【0030】

ユーザは、手動で各クラスＣ_ｎの教師データＸ_ｎ ^ｎｍをサポートセットに指定する。各クラスの教師データの数は、５～１００個のサンプルで足りる。例えば、異常検出クラスＣ_１の場合、１００個の異常パターンの教師データを指定する。データ分類クラスＣ_２の場合、５０個の分類パターンの教師データを指定する。サポートセットに指定された複数の教師データＳ＝｛（Ｘ_１ ^１，Ｃ_１），…，（Ｘ_ｎ ^ｎｍ，Ｃ_ｎ）｝は、学習ネットワークθを構成する第１の抽出部１１に入力される。

【0031】

サポートセットに指定される複数の教師データの指定パターンは、例えば、１つのクラスのみについて、複数の教師データを指定する第１の指定パターン、複数のクラスについて、各クラスごとに１つの教師データのみを指定する第２の指定パターン、複数のクラスについて、各クラスごとに複数の教師データを指定する第３の指定パターンが考えられる。図２では、第２の指定パターンを示している。

【0032】

クエリセットには、学習時には、サポートセットに指定された複数の教師データＳの中から抽出した所定クラスＣ_ｑの教師データＸ_ｑ ^ｉが指定される。学習を繰り返すごとに、サポートセットから異なる一の教師データＸ_ｑ ^ｉ＋１が順次指定され、個々の教師データＸ_ｑ ^ｉについて学習がそれぞれ行われる。一方、分類先推論時には、推論ターゲットとなる分類対象の時系列データＸ_ｑが指定される。クエリセットに指定された学習時の教師データ（Ｘ_ｑ ^ｉ，Ｃ_ｑ）、または、分類先推論時の時系列データＸ_ｑは、学習ネットワークθを構成する第２の抽出部１２に入力される。

【0033】

分類先推論時には、学習ネットワークθを構成する分類部１４から、クエリセットに指定された分類対象の時系列データＸ_ｑが、サポートセットに指定された複数の教師データのうちどの教師データに属するかについて推定計算した分類結果が出力される。例えば、上記第１の指定パターンの場合、各教師データＸ_ｎ ^ｎｍに対する時系列データＸ_ｑの類似度が出力される。上記第２の指定パターンの場合、各クラスＣ_ｎに対する時系列データＸ_ｑの類似度が出力される。類似度の出力方法は、例えば、数字（％）、文字、グラフである。

【0034】

［学習ネットワークの構成］
図３は、学習ネットワークの構成を示す図である。

【0035】

第１の抽出部１１は、第１のインセプションニューラルネットワークを備える。第１の抽出部１１は、第１のインセプションニューラルネットワークを用いて、サポートセットに指定された異なる複数の教師データの各特徴ベクトルをそれぞれ抽出する機能を備える。例えば、第１の抽出部１１は、第１のインセプションニューラルネットワークを用いて、サポートセットに指定されたクラスＣ_１の教師データＸ_１ ^１の特徴ベクトルＯ_１を抽出し、クラスＣ_２の教師データＸ_２ ^１の特徴ベクトルＯ_２を抽出する。

【0036】

第２の抽出部１２は、第１のインセプションニューラルネットワークと原則同じ構成を備える第２のインセプションニューラルネットワークを備える。第２の抽出部１２は、第２のインセプションニューラルネットワークを用いて、クエリセットに指定された学習時の教師データ（Ｘ_ｑ ^ｉ，Ｃ_ｑ）、または、分類先推論時の時系列データＸ_ｑの特徴ベクトルＯを抽出する機能を備える。

【0037】

第１および第２のインセプションニューラルネットワークは、いずれも、入力側に畳み込み層および出力側に連結層を備える。第１のインセプションニューラルネットワークは、アテンション用のアテンションスコアを付与するスコア付与部（CBA；Cross Branch Attention）をさらに備える。第２のインセプションニューラルネットワークは、スコア付与部を備えていない。

【0038】

スコア付与部は、第１のインセプションニューラルネットワークの第１の畳み込み層を構成する並列的な各畳み込み層（Branch）に対して、第２のインセプションニューラルネットワークの第２の畳み込み層を構成する並列的な各畳み込み層（Branch）との特徴ベクトルの類似度に関する関係性を表すアテンション（Cross Attention）スコアを計算し、サポートセットに指定された複数の時系列データの各特徴ベクトルの連結時における重みを調整する。図３以降の図面では、第１のインセプションニューラルネットワークを「Inception NN with CBA」と示し、第２のインセプションニューラルネットワークを「Inception NN」と示す。

【0039】

第１および第２のインセプションニューラルネットワークの詳細については、後述する。

【0040】

学習部１３は、第１の抽出部１１で抽出された複数の教師データの各特徴ベクトルＯ_ｎと、第２の抽出部１２で抽出された教師データの特徴ベクトルＯとを用いて、学習ネットワークθのネットワークパラメータを調整する学習処理を行う機能を備える。ネットワークパラメータとは、例えば、第１および第２のインセプションニューラルネットワークを構成している各畳み込み層の重み変数、バイアス変数である。

【0041】

分類部１４は、サポートセットに指定されていた複数の教師データの各特徴ベクトルＯ_ｎと、クエリセットに指定された推論ターゲットである分類対象の時系列データの特徴ベクトルＯとの類似度をそれぞれ計算し、当該分類対象の時系列データに関する分類ラベルベクトルを計算する機能を備える。分類ラベルベクトルの計算には、例えばソフトマックス（Softmax）関数を用いる。

【0042】

具体的には、分類部１４は、ネットワークパラメータが更新された学習済みの学習ネットワークθを用いて、サポートセットに指定された複数の教師データに対する、クエリセットに指定された分類対象の時系列データの分類先を推定計算する。例えば、分類対象の時系列データが教師データＡである確率は７２％、教師データＢである確率は２８％が計算される。

【0043】

［第１および第２のインセプションニューラルネットワークの構成］
図４は、第１のインセプションニューラルネットワークの構成を示す図である。

【0044】

第１のインセプションニューラルネットワークは、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を並列的に用いて、サポートセットに指定された教師データの特徴ベクトルを抽出するニューラルネットワークである。例えば、第１のインセプションニューラルネットワークは、第１の畳み込み層（Convolution Layers）１１１と、スコア付与部（CBA）１１２と、第１の連結層（Depth Concatenation）１１３と、を備える。

【0045】

第１の畳み込み層１１１では、例えば、｛1×10｝のフィルタで畳み込み演算を行う第１畳み込み層Ｌ１１と、｛1×20｝のフィルタで畳み込み演算を行う第２畳み込み層Ｌ１２と、｛1×50｝のフィルタで畳み込み演算を行う第３畳み込み層Ｌ１３と、｛1×1｝のフィルタで畳み込み演算を行う第４畳み込み層Ｌ１４と、が並列に実行される。

【0046】

第１畳み込み層Ｌ１１は、サポートセットに指定された教師データについて、前段の｛1×1｝の畳み込み層で抽出された当該教師データの特徴ベクトルを、｛1×10｝のフィルタでさらに畳み込み演算を行い、畳み込み演算により抽出された特徴ベクトルＳ₁を、スコア付与部１１２を介して第１の連結層１１３に出力する。

【0047】

第２畳み込み層Ｌ１２は、サポートセットに指定された教師データについて、前段の｛1×1｝の畳み込み層で抽出された当該教師データの特徴ベクトルを、｛1×20｝のフィルタでさらに畳み込み演算を行い、畳み込み演算により抽出された特徴ベクトルＳ_２を、スコア付与部１１２を介して第１の連結層１１３に出力する。

【0048】

第３畳み込み層Ｌ１３は、サポートセットに指定された教師データについて、前段の｛1×1｝の畳み込み層で抽出された当該教師データの特徴ベクトルを、｛1×50｝のフィルタでさらに畳み込み演算を行い、畳み込み演算により抽出された特徴ベクトルＳ_３を、スコア付与部１１２を介して第１の連結層１１３に出力する。

【0049】

第４畳み込み層Ｌ１４は、サポートセットに指定された教師データについて、前段のマックスプーリング層で抽出された当該教師データの教師ベクトルを、｛1×1｝のフィルタで畳み込み演算を行い、畳み込み演算により抽出された特徴ベクトルＳ_４を、スコア付与部１１２を介して第１の連結層１１３に出力する。

【0050】

第１の連結層１１３は、スコア付与部１１２を介して第１～第４畳み込み層Ｌ１１～Ｌ１４からそれぞれ出力された全ての特徴ベクトルＳ_１～Ｓ_４を連結して一の特徴ベクトルＯ_ｎを出力する。この一の特徴ベクトルＯ_ｎは、サポートセットに指定された複数の教師データのうち一の教師データの特徴ベクトルである。

【0051】

図５は、第２のインセプションニューラルネットワークの構成を示す図である。

【0052】

第２のインセプションニューラルネットワークは、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を並列的に用いて、クエリセットに指定された学習時の教師データまたは分類先推論時の時系列データの特徴ベクトルを抽出するニューラルネットワークである。例えば、第２のインセプションニューラルネットワークは、第２の畳み込み層１２１と、第２の連結層１２３と、を備える。

【0053】

第２の畳み込み層１２１は、第１のインセプションニューラルネットワークの第１の畳み込み層１１１と同じ構成を備え、第１～第４畳み込み層Ｌ２１～Ｌ２４が並列に実行される。第１～第４畳み込み層Ｌ２１～Ｌ２４は、クエリセットに指定された学習時の教師データまたは分類先推論時の時系列データについて、畳み込み演算により特徴ベクトルＱ₁～Ｑ_４をそれぞれ抽出し、その特徴ベクトルＱ₁～Ｑ_４を第２の連結層１２３に出力し、かつ、第１のインセプションニューラルネットワークのスコア付与部１１２にも出力する。

【0054】

第２の連結層１２３は、第１～第４畳み込み層Ｌ１～Ｌ４からそれぞれ出力された全ての特徴ベクトルＱ_１～Ｑ_４を連結して一の特徴ベクトルＯを出力する。

【0055】

ここで、第１のインセプションニューラルネットワークのスコア付与部１１２について説明する（図４参照）。スコア付与部１１２は、前段の第１の畳み込み層１１１からサポートセットに指定された一の教師データについての特徴ベクトルＳ₁～Ｓ_４（＝Ｓ_ｉ）を入力し、第２のインセプションニューラルネットワークの第２の畳み込み層１２１からクエリセットに指定された一の教師データまたは時系列データについての特徴ベクトルＱ₁～Ｑ_４（＝Ｑ_ｉ）を入力する。スコア付与部１１２は、入力された各特徴ベクトルＳ_ｉと各特徴ベクトルＱ_ｉとを用いて、サポートセットとクエリセットとの間の時系列データの類似的関係性を考慮してそれぞれのアテンションスコアを計算し、各畳み込み層Ｌ１１～Ｌ１４でそれぞれ抽出された各特徴ベクトルＳ₁～Ｓ_４、または、各畳み込み層Ｌ１１～Ｌ１４に対して、計算した各アテンションスコアを重みとしてそれぞれ付与する。

【0056】

図６は、第１および第２のインセプションニューラルネットワークの配置例を示す図である。

【0057】

第１および第２のインセプションニューラルネットワークは、互いを対として、直列的にｊ個（ｊ≧１）配置される。また、サポートセットにはｎ個（ｎ≧２）の教師データが指定されており、第１インセプションニューラルネットワークのスコア付与部１１２は、そのｎ個の教師データについてそれぞれ抽出された各ｉ個の特徴ベクトルＳ_ｉをそれぞれ入力し、第２インセプションニューラルネットワークから出力された教師データまたは時系列データのｉ個の特徴ベクトルＱ_ｉを用いて、各アテンションスコアをそれぞれ計算する。

【0058】

［スコア付与部の動作］
図７は、スコア付与部の動作イメージを示す図である。

【0059】

スコア付与部１１２は、既に説明した通り、分類に有効な畳み込み層（Branch）を効率に重み付けられるクロスブランチアテンション（Cross Branch Attention）を付与する処理を行う。以下、詳述する。

【0060】

まず、スコア付与部１１２は、第１の畳み込み層１１１の各畳み込み層Ｌ１１～Ｌ１４でそれぞれ抽出された各特徴ベクトルＳ_ｉ ^ｊと、第２の畳み込み層１２１の各畳み込み層Ｌ２１～Ｌ２４でそれぞれ抽出された各特徴ベクトルＱ_ｉ ^ｊとを、例えば式（１）のようにモデル定義したスコア関数に代入し、各畳み込み層ごとに対応する各一対の特徴ベクトル（Ｓ_ｉ ^ｊ，Ｑ_ｉ ^ｊ）のアテンションスコアＳｃｏｒｅ_ｉ ^ｊをそれぞれ算出する。ｖ_ａ ^ＴとＷ_ａは、モデルのパラメータである。Ｗ_ａは、Ｓ_ｉ ^ｊとＱ_ｉ ^ｊとの行列関数である。

【0061】

【数1】

【0062】

式（１）は、アテンション用のスコアを算出するスコア関数の例である。スコア付与部１１２は、式（１）のスコア関数に代えて、特徴ベクトル間の類似度に基づくスコアを算出可能な任意の関数を用いることができる。

【0063】

次に、スコア付与部１１２は、各アテンションスコアＳｃｏｒｅ_ｉ ^ｊを式（２）に代入し、アテンションスコアの総スコアに対する各アテンションスコアの割合ａ_ｉ ^ｊをそれぞれ算出する。

【0064】

【数2】

【0065】

次に、スコア付与部１１２は、式（３）を用いて、第１の畳み込み層１１１の各畳み込み層Ｌ１１～Ｌ１４でそれぞれ抽出された各特徴ベクトルＳ_ｉ ^ｊに対して、各アテンションスコアの割合ａ_ｉ ^ｊをそれぞれ重み付けする。

【0066】

【数3】

【0067】

最後に、第１の連結層１１３は、式（４）を用いて、各アテンションスコアの割合ａ_ｉ ^ｊがそれぞれ重み付けられた各特徴ベクトルＳ_ｉ ^ｊを連結する。

【0068】

【数4】

【0069】

式（４）では、ａ_１ ^ｊ×Ｓ_１ ^ｊ＋ａ_２ ^ｊ×Ｓ_２ ^ｊ＋ａ_３ ^ｊ×Ｓ_３ ^ｊ…が計算される。つまり、各特徴ベクトルＳ_ｉ ^ｊに対して、対応する特徴ベクトル（Ｓ_ｉ ^ｊ，Ｑ_ｉ ^ｊ）間の類似度に基づくスコアを重みとして乗算し、それらの連結した一の特徴ベクトルを、サポートセットに指定された一の教師データの特徴ベクトルＯ^ｊとしている。

【0070】

［学習部の動作］
学習部１３は、サポートセットに指定された複数の教師データの各特徴ベクトルＯ_ｎと、クエリセットに指定された学習時の教師データの特徴ベクトルＯとについて、例えば式（５）のようにモデル定義したロス関数（損失関数）を用いて、Ｎペアロス（N-pair-ms Loss）を算出し、算出するロスが小さくなるように、学習ネットワークθのネットワークパラメータを繰り返し更新する。

【0071】

【数5】

【0072】

ｘは、サポートセットに指定された複数の教師データの各特徴ベクトルである。ｘ^＋は、サポートセット内のポジティブサンプル（図８参照）の特徴ベクトルである。｛ｘ_ｉ｝_ｉ＝１ ^ｎ－１は、サポートセット内のネガティブサンプル（図８参照）の特徴ベクトルである。ｆは、学習ネットワークθのネットワークパラメータ（Embedding Kernel）である。

【0073】

具体的には、学習部１３は、クエリセットの教師データとサポートセットのポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、クエリセットの教師データとサポートセットのネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、学習ネットワークθのネットワークパラメータを更新する。ポジティブサンプルとは、サポートセットの教師データであってクエリセットの教師データに一致または類似する教師データである。ネガティブサンプルとは、サポートセットの教師データであってクエリセットの教師データに一致および類似しない教師データである。

【0074】

学習部１３は、サポートセットから抽出してクエリセットに指定された各一の教師データについて、それぞれ学習処理を繰り返し行う。

【0075】

［全体動作］
図９は、情報処理装置の動作イメージを示す図である。図９（ａ）は学習時の動作イメージであり、図９（ｂ）は分類先推論時の動作イメージである。

【0076】

［学習時の動作］
学習部１３は、Forward Propagationにより、例えば式（６）のようにモデル定義したロス関数を用いて、学習ネットワークθのロスＥを計算する（ステップＳ１）。

【0077】

【数6】

【0078】

学習ネットワークθは、デープニューラルネットワークであり、各ニューロンには、重み変数およびバイアス変数がある。この重み変数およびバイアス変数が、学習ネットワークθのネットワークパラメータである。

【0079】

Ｗ_ｃｏｎｖは、サポートセット側の各畳み込み層Ｌ１１～Ｌ１４の重み変数である。Ｂ_ｃｏｎｖは、サポートセット側の各畳み込み層Ｌ１１～Ｌ１４のバイアス変数である。Ｗ_ａは、式（１）のＷ_ａである。Ｖ_ａは、式（１）のｖ_ａ ^Ｔである。Ｗ_ｆｃは、スコア付与部（CBA）１１２内のFully Connect層（図７参照）の重み変数である。ｂ_ｆｃは、スコア付与部（CBA）１１２内のFully Connect層（図７参照）のバイアス変数である。なお、スコア付与部（CBA）１１２内のFully Connect層は、第１の畳み込み層１１１から出力された特徴ベクトルに対して当該特徴ベクトルの次元数を削減する層である。

【0080】

Ｗは、サポートセット側の第１の連結層１１３の重み変数である。ｂは、サポートセット側の第１の連結層１１３のバイアス変数である。Ｗ’は、クエリセット側の第２の連結層１２３の重み変数である。ｂ’は、クエリセット側の第２の連結層１２３のバイアス変数である。Ｗ_ｆｃ１は、第１の連結層１１３内のFully Connect層の重み変数である。Ｂ_ｆｃ１は、第１の連結層１１３内のFully Connect層のバイアス変数である。

【0081】

式（６）の変数ｓは、サポートセットに指定された教師データ（input）に対して畳み込み演算を行うことで抽出された教師データの特徴ベクトルである。変数ｖは、その変数ｓに対してアテンションスコアの重み付けを行った値である。式（６）では、各変数ｖを連結してロスＥを計算している。

【0082】

次に、学習部１３は、Back Propagationにより、例えば式（７）のようにモデル定義したネットワークパラメータの更新関数を用いて、学習ネットワークθのネットワークパラメータであるＷ_ｃｏｎｖ，ｂ_ｃｏｎｖ，Ｗ_ａ，Ｖ_ａ，Ｗ_ｆｃ，ｂ_ｆｃ，Ｗ，ｂ，Ｗ’，ｂ’，Ｗ_ｆｃ１，ｂ_ｆｃ１をそれぞれ更新する。τは、学習率である（ステップＳ２）。

【0083】

【数7】

【0084】

なお、式（６）は、ロス関数の例である。学習部１３は、他のロス関数を用いてもよい。

【0085】

［分類先推論時の動作］
分類部１４は、例えば式（８）のようにソフトマックス（Softmax）関数を用いてモデル定義した分類ラベルベクトルの計算関数を用いて、学習済みの学習ネットワークθでone hot label vectorを計算する。

【0086】

【数8】

【0087】

なお、式（８）は、分類ラベルベクトルの計算関数の例である。分類部１４は、他の計算関数を用いてもよい。

【0088】

［実施形態の効果］
本実施形態によれば、学習ネットワークθは、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第１のインセプションニューラルネットワークを用いて、サポートセットに指定された異なる複数の教師データの各特徴ベクトルをそれぞれ抽出する第１の抽出部１１と、異なるフィルタサイズで畳み込み演算をそれぞれ行う複数の畳み込み層を用いて時系列データの特徴ベクトルを抽出する第２のインセプションニューラルネットワークを用いて、クエリセットに指定された教師データの特徴ベクトルを抽出する第２の抽出部１２と、前記複数の教師データの各特徴ベクトルと前記教師データの特徴ベクトルとを用いて、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致または類似するポジティブサンプルとの特徴ベクトル間の相対距離を小さくし、前記クエリセットの教師データと前記サポートセットの教師データであって前記クエリセットの教師データに一致および類似しないネガティブサンプルとの特徴ベクトル間の相対距離を大きくするように、前記学習ネットワークのネットワークパラメータを更新する学習部１３と、を備えるので、少数の教師データで精度よく時系列データを分類可能となる。

【0089】

つまり、解析者は、各業界の知識を生かしながら、少数の正解である学習データのサポートセットを作るだけで学習処理の設定を完了できる。特殊な回帰モデルや各モデルのパラメータ設定などの知識は不要である。ニューラルネットワークの構成が共通化されるため、時系列データの入出力の仕方も一義に決められ、分類の作業も簡単になり、各種分類技術に精通していない解析者でも分類解析を簡便に行うことができる。

【0090】

また、本実施形態によれば、前記第２の抽出部１２は、前記複数の畳み込み層を並列的に用いて前記クエリセットに指定された一の教師データについて複数の特徴ベクトルを抽出し、前記第１の抽出部１１は、前記複数の畳み込み層を並列的に用いて前記サポートセットに指定された一の教師データについて複数の特徴ベクトルを抽出し、前記第１の抽出部が抽出した前記複数の特徴ベクトルと前記第２の抽出部が抽出した前記複数の特徴ベクトルとの類似度に基づく各アテンションスコアをそれぞれ計算し、前記第１の抽出部が抽出した前記複数の特徴ベクトルに対して前記各アテンションスコアをそれぞれ付与するので、時系列データを効率的に分類可能となる。

【0091】

［その他］
本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。

【0092】

上記説明した本実施形態の情報処理装置１は、例えば、図１０に示すように、ＣＰＵ（Central Processing Unit、プロセッサ）９０１と、メモリ９０２と、ストレージ（ＨＤＤ：Hard Disk Drive、ＳＳＤ：Solid State Drive）９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ９０２及びストレージ９０３は、記憶装置である。当該コンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、情報処理装置１の各機能が実現される。

【0093】

情報処理装置１は、１つのコンピュータで実装されてもよい。情報処理装置１は、複数のコンピュータで実装されてもよい。情報処理装置１は、コンピュータに実装される仮想マシンであってもよい。情報処理装置１用のプログラムは、ＨＤＤ、ＳＳＤ、ＵＳＢ（Universal Serial Bus）メモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）などのコンピュータ読取り可能な記録媒体に記憶できる。情報処理装置１用のプログラムは、通信ネットワークを介して配信することもできる。

【符号の説明】

【0094】

１：情報処理装置
１１：第１の抽出部
１２：第２の抽出部
１３：学習部
１４：分類部
１５：記憶部
１１１：第１の畳み込み層
１１２：スコア付与部
１１３：第１の連結層
１２１：第２の畳み込み層
１２３：第２の連結層
９０１：ＣＰＵ
９０２：メモリ
９０３：ストレージ
９０４：通信装置
９０５：入力装置
９０６：出力装置

【図1】