特許7755753 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セールスフォース　ドット　コム　インコーポレイティッドの特許一覧

特許7755753オンライン時系列予測のためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6-1
6-2
6-3
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-10-07

(45)【発行日】2025-10-16

(54)【発明の名称】オンライン時系列予測のためのシステムおよび方法

(51)【国際特許分類】

G06N 3/09 20230101AFI20251008BHJP

G06F 18/27 20230101ALI20251008BHJP

G06N 3/0464 20230101ALI20251008BHJP

G06F 123/02 20230101ALN20251008BHJP

【ＦＩ】

G06N3/09

G06F18/27

G06N3/0464

G06F123:02

【請求項の数】 20

(21)【出願番号】P 2024545160

(86)(22)【出願日】2023-01-13

(65)【公表番号】

(43)【公表日】2025-02-12

(86)【国際出願番号】 US2023060618

(87)【国際公開番号】W WO2023147227

(87)【国際公開日】2023-08-03

【審査請求日】2024-07-30

(31)【優先権主張番号】63/305,145

(32)【優先日】2022-01-31

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/871,819

(32)【優先日】2022-07-22

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】506332063

【氏名又は名称】セールスフォースインコーポレイテッド

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(72)【発明者】

【氏名】ファム，ホン－クアン

(72)【発明者】

【氏名】リウ，チェンハオ

(72)【発明者】

【氏名】サフー，ドイアン

(72)【発明者】

【氏名】ホイ，チュホン

【審査官】佐藤直樹

(56)【参考文献】

【文献】特開２０１９－０４５９０５（ＪＰ，Ａ）

【文献】国際公開第２０２１／２５２７９８（ＷＯ，Ａ１）

【文献】佐野隼乙ほか，ＬＳＴＮｅｔに基づく多変量時系列予測精度改善法，電子情報通信学会技術研究報告，日本，一般社団法人電子情報通信学会，2021年12月09日，Vol.121，No.304，pp.71-76

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｆ１８／００－１８／４０

Ｇ０６Ｆ１２３／０２

(57)【特許請求の範囲】

【請求項1】

動的システムにおいて将来のタイムスタンプにおける時系列データを予測する方法であって、前記方法は、コンピュータによって実行され、
データインターフェースを介して、ルックバック時間ウィンドウ内の複数のタイムスタンプに対応する複数のデータポイントを含む時系列データセットを受信することと、
畳み込み層のスタックの第１の畳み込み層において、前記第１の畳み込み層に対応する勾配の指数移動平均に基づいて第１の勾配を計算することと、
前記第１の畳み込み層に対応する第１の適応パラメータを、前記第１の適応パラメータの要素への前記第１の勾配の部分のマッピングに基づいて決定することと、
適応された特徴マップを、前記第１の適応パラメータと、先行する畳み込み層からの前の適応された特徴マップとに少なくとも部分的に基づいて計算することと、
リグレッサを介して、前記ルックバック時間ウィンドウ内の前記時系列データに対応する前記畳み込み層のスタックから出力された最終特徴マップに基づいて、将来の時間ウィンドウに対応する時系列予測データを生成することと、
前記将来の時間ウィンドウに対応する前記生成された時系列予測データとグラウンドトゥルースデータとに基づいて予測損失を計算することと、
逆伝搬を介して前記予測損失に基づいて前記畳み込み層のスタックを更新することと
を含む方法。

【請求項2】

前記第１の適応パラメータは、第１の重み適応成分と第１の特徴適応成分とを含む、請求項１に記載の方法。

【請求項3】

時間畳み込みニューラルネットワークの少なくとも１つの畳み込み層について、
前記複数のデータポイントに基づいて、前記複数のデータポイントにしたがった全体的な予測損失に対するそれぞれの畳み込み層の損失寄与を示す層予測損失を決定することと、
前記層予測損失に基づいて前記少なくとも１つの畳み込み層を更新することと
をさらに含む、請求項２に記載の方法。

【請求項4】

前記更新された畳み込み層の前記第１の勾配と、前記少なくとも１つの畳み込み層に関連付けられた長期的な勾配との間のコサイン類似度を計算することと、
前記コサイン類似度が予め定義されたしきい値よりも大きいという決定を決定したことに応答して、
前記第１の畳み込み層に対応するインデックス付きメモリから、現在の適応パラメータを取り出すことと、
前記現在の適応パラメータと前記第１の適応パラメータとに基づいて、前記インデックス付きメモリに記憶されたコンテンツを更新することと、
前記取り出された現在の適応パラメータとの加重平均をとることによって前記第１の適応パラメータを更新することと
をさらに含む、請求項３に記載の方法。

【請求項5】

前記第１の重み適応成分と前記第１の層に対応する層パラメータとに基づいて第１の適応された重みを生成することに基づいて、適応された層パラメータを計算することと、
前記第１の特徴適応成分を用いて前記第１の畳み込み層の特徴マップを生成することと
をさらに含む、請求項４に記載の方法。

【請求項6】

前記適応された特徴マップは、前記第１の特徴適応成分と前記第１の畳み込み層の第１の特徴マップとに基づいて計算され、前記第１の特徴マップは、前記適応された層パラメータと前の層からの前の適応された特徴マップとの畳み込みである、請求項５に記載の方法。

【請求項7】

前記畳み込み層のスタックおよび前記リグレッサは、
確率的勾配降下法を介して前記リグレッサを更新することと、
前記第１の畳み込み層において、前記第１の勾配および前記第１の適応パラメータを更新することと
によって更新される、
請求項６に記載の方法。

【請求項8】

前記コサイン類似度が予め定義されたしきい値よりも大きいという決定を決定したことに応答して、
勾配の現在のパターンをキャプチャするメモリ読取りまたは書込み動作をトリガすること
をさらに含む、請求項４に記載の方法。

【請求項9】

前記現在のパターンは、
前記メモリの現在のコンテンツと現在の適応パラメータとに基づいてアテンションを計算することと、
前記計算されたアテンションから関連性の高いアテンションのセットを選択することと、
前記関連性の高いアテンションのセットによって重み付けされた前記メモリの前記現在のコンテンツの加重和をとることによって、前記現在の適応パラメータを更新することと
によってキャプチャされる、請求項８に記載の方法。

【請求項10】

前記更新された現在の適応パラメータに基づいて前記メモリの前記現在のコンテンツを更新および蓄積するために書込み動作を実行すること
をさらに含む、請求項９に記載の方法。

【請求項11】

動的システムにおいて将来のタイムスタンプにおける時系列データを予測するためのシステムであって、
ルックバック時間ウィンドウ内の複数のタイムスタンプに対応する複数のデータポイントを含む時系列データセットを受信するデータインターフェースと、
複数のプロセッサ実行可能命令を記憶するメモリと、
前記メモリから前記命令を読み出し、動作を実行するために前記命令を実行するプロセッサと
を備え、前記動作は、
畳み込み層のスタックの第１の畳み込み層において、前記第１の畳み込み層に対応する勾配の指数移動平均に基づいて第１の勾配を計算することと、
前記第１の畳み込み層に対応する第１の適応パラメータを、前記第１の適応パラメータの要素への前記第１の勾配の部分のマッピングに基づいて決定することと、
適応された特徴マップを、前記第１の適応パラメータと、先行する畳み込み層からの前の適応された特徴マップとに少なくとも部分的に基づいて計算することと、
リグレッサを介して、前記ルックバック時間ウィンドウ内の前記時系列データに対応する前記畳み込み層のスタックから出力された最終特徴マップに基づいて、将来の時間ウィンドウに対応する時系列予測データを生成することと、
前記将来の時間ウィンドウに対応する前記生成された時系列予測データとグラウンドトゥルースデータとに基づいて予測損失を計算することと、
逆伝搬を介して前記予測損失に基づいて前記畳み込み層のスタックを更新することと
を含む、システム。

【請求項12】

前記第１の適応パラメータは、第１の重み適応成分と第１の特徴適応成分とを含む、請求項１１に記載のシステム。

【請求項13】

前記動作は、
時間畳み込みニューラルネットワークの少なくとも１つの畳み込み層について、
前記複数のデータポイントに基づいて、前記複数のデータポイントにしたがった全体的な予測損失に対するそれぞれの畳み込み層の損失寄与を示す層予測損失を決定することと、
前記層予測損失に基づいて前記少なくとも１つの畳み込み層を更新することと
をさらに含む、請求項１２に記載のシステム。

【請求項14】

前記動作は、
前記更新された畳み込み層の前記第１の勾配と、前記少なくとも１つの畳み込み層に関連付けられた長期的な勾配との間のコサイン類似度を計算することと、
前記コサイン類似度が予め定義されたしきい値よりも大きいという決定を決定したことに応答して、
前記第１の畳み込み層に対応するインデックス付きメモリから、現在の適応パラメータを取り出すことと、
前記現在の適応パラメータと前記第１の適応パラメータとに基づいて、前記インデックス付きメモリに記憶されたコンテンツを更新することと、
前記取り出された現在の適応パラメータとの加重平均をとることによって前記第１の適応パラメータを更新することと
をさらに含む、請求項１３に記載のシステム。

【請求項15】

前記動作は、
前記第１の重み適応成分と前記第１の層に対応する層パラメータとに基づいて第１の適応された重みを生成することに基づいて、適応された層パラメータを計算することと、
前記第１の特徴適応成分を用いて前記第１の畳み込み層の特徴マップを生成することと
をさらに含む、請求項１４に記載のシステム。

【請求項16】

前記適応された特徴マップは、前記第１の特徴適応成分と前記第１の畳み込み層の第１の特徴マップとに基づいて計算され、前記第１の特徴マップは、前記適応された層パラメータと前の層からの前の適応された特徴マップとの畳み込みである、請求項１５に記載のシステム。

【請求項17】

前記畳み込み層のスタックおよび前記リグレッサは、
確率的勾配降下法を介して前記リグレッサを更新することと、
前記第１の畳み込み層において、前記第１の勾配および前記第１の適応パラメータを更新することと
によって更新される、請求項１６に記載のシステム。

【請求項18】

前記動作は、
前記コサイン類似度が予め定義されたしきい値よりも大きいという決定を決定したことに応答して、
勾配の現在のパターンをキャプチャするメモリ読取りまたは書込み動作をトリガすること
をさらに含む、請求項１４に記載のシステム。

【請求項19】

【請求項20】

動的システムにおいて将来のタイムスタンプにおける時系列データを予測するためのプロセッサ可読命令を記憶する非一時的プロセッサ可読記憶媒体であって、前記命令は、動作を実行するためにプロセッサによって実行され、前記動作は、
データインターフェースを介して、ルックバック時間ウィンドウ内の複数のタイムスタンプに対応する複数のデータポイントを含む時系列データセットを受信することと、
畳み込み層のスタックの第１の畳み込み層において、前記第１の畳み込み層に対応する勾配の指数移動平均に基づいて第１の勾配を計算することと、
前記第１の畳み込み層に対応する第１の適応パラメータを、前記第１の適応パラメータの要素への前記第１の勾配の部分のマッピングに基づいて決定することと、
適応された特徴マップを、前記第１の適応パラメータと、先行する畳み込み層からの前の適応された特徴マップとに少なくとも部分的に基づいて計算することと、
リグレッサを介して、前記ルックバック時間ウィンドウ内の前記時系列データに対応する前記畳み込み層のスタックから出力された最終特徴マップに基づいて、将来の時間ウィンドウに対応する時系列予測データを生成することと、
前記将来の時間ウィンドウに対応する前記生成された時系列予測データとグラウンドトゥルースデータとに基づいて予測損失を計算することと、
逆伝搬を介して前記予測損失に基づいて前記畳み込み層のスタックを更新することと
を含む、非一時的プロセッサ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［相互参照］
本開示は、２０２２年７月２２日に出願された米国非仮特許出願第１７／８７１，８１９号、および２０２２年１月３１日に出願された米国仮特許出願第６３／３０５，１４５号に対する優先権を主張するものであり、参照によりその全体が本明細書に明示的に組み込まれる。

【0002】

［技術分野］
実施形態は、一般に、機械学習システムに関し、より具体的には、オンライン時系列予測に関する。

【背景技術】

【0003】

ディープニューラルネットワークモデルは、時系列予測において広く使用されている。例えば、学習モデルは、将来のある期間にわたる連続的な市場データ、気象データ、および／または同様のものなどの時系列データを予測するために使用され得る。既存のディープモデルは、時系列予測タスクのためにバッチ学習を採用する。そのようなモデルは、トレーニング中にルックバックウィンドウおよび予測ウィンドウをランダムにサンプリングし、評価中にモデルをフリーズさせることが多く、時系列の時変（非定常）性質を破壊する。

【0004】

したがって、オンライン時間予測のために効率的かつ適応的なディープラーニングフレームワークが必要とされている。

【図面の簡単な説明】

【0005】

【図1】本明細書で説明される実施形態による、時系列を予測するためのＦＳＮｅｔフレームワークの例示的な構造を示す簡略図である。

【図2】本明細書で説明される実施形態による、図１に記載のＦＳＮｅｔフレームワークのＴＣＮ層（ブロック）の例示的な構造を示す簡略図である。

【図3】本明細書で説明される実施形態による、図２に記載のＴＣＮ層（ブロック）中の拡張畳み込み層の例示的な構造を示す簡略図である。

【図4】本明細書で説明されるいくつかの実施形態による、ＦＳＮｅｔフレームワークを実装するコンピューティングデバイスの簡略図である。

【図5】本明細書で説明される実施形態による、図１～図３に記載のＦＳＮｅｔフレームワークにおいて実装される高速学習ネットワークおよび低速学習ネットワークのための簡略化された擬似コードセグメントである。

【図6】本明細書で説明される実施形態による、図５の擬似コードアルゴリズムに対応する例示的なプロセスを示す簡略化された論理フロー図である。

【図7】本明細書で説明される実施形態による、例示的なデータ実験におけるＦＳＮｅｔの性能を示す例示的なデータチャートおよびプロットである。

【図8】本明細書で説明される実施形態による、例示的なデータ実験におけるＦＳＮｅｔの性能を示す例示的なデータチャートおよびプロットである。

【図9】本明細書で説明される実施形態による、例示的なデータ実験におけるＦＳＮｅｔの性能を示す例示的なデータチャートおよびプロットである。

【0006】

図において、同じ名称を有する要素は、同じまたは同様の機能を有する。

【発明を実施するための形態】

【0007】

本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワークもしくはシステム、ニューラルネットワークもしくはシステム、および／またはその上にもしくはそれとともに実装される任意のトレーニングもしくは学習モデルを含む、任意のハードウェアまたはソフトウェアベースのフレームワークを備え得る。

【0008】

本明細書で使用される場合、「モジュール」という用語は、１つまたは複数の機能を実行するハードウェアまたはソフトウェアベースのフレームワークを備え得る。いくつかの実施形態では、モジュールは、１つまたは複数のニューラルネットワーク上に実装され得る。

【0009】

時系列とは、異なる時点における関心のあるパラメータに対応する値のセットである。パラメータの例としては、株価、温度測定値などを挙げることができる。時系列予測とは、時系列における値のセットを超えて将来のデータポイントまたは将来のデータポイントのセットを決定するプロセスである。ディープラーニングによる動的データの時系列予測は依然として困難である。

【0010】

実施形態は、高速学習ネットワークと低速学習ネットワークとを組み合わせたフレームワーク（「ＦＳＮｅｔ」と呼ばれる）を提供して、オンライン時系列予測のためにオンザフライでディープニューラル予測器をレーニングする。ＦＳＮｅｔは、新しい概念と再帰的概念の両方への高速適応を容易にするために２つの相補的構成要素を有するディープニューラルネットワークバックボーン（低速学習器）上に構築される。この目的のために、ＦＳＮｅｔは層ごとのアダプタを採用し、その偏導関数を介して予測損失への各層の寄与を監視する。アダプタは、各層の重みおよび特徴を、その最近の勾配に基づいて各ステップで変換し、現在の損失を最適化するために層ごとの細粒の高速適応を可能にする。加えて、ＦＳＮｅｔは、トレーニング中に観察された重要な繰り返しパターンを記憶するために、第２の相補的な連想メモリ（associative memory）構成要素を採用する。アダプタは、メモリと対話して、前の変換の記憶、更新、および取り出しを行い、そのようなパターンの高速学習を容易にする。

【0011】

このようにして、ＦＳＮｅｔフレームワークは、時系列における高速変化するパターンおよび長期的な繰り返しパターンに適応することができる。具体的には、ＦＳＮｅｔでは、ディープニューラルネットワークは新皮質の役目を果たし、一方、アダプタおよびそのメモリは海馬構成要素として作用する。
ＦＳＮｅｔフレームワークの概要

【0012】

図１は、本明細書で説明される実施形態による、時系列を予測するためのＦＳＮｅｔフレームワーク１００の例示的な構造を示す簡略図である。

【0013】

ＦＳＮｅｔフレームワーク１００は、リグレッサ１０５に接続された複数の畳み込みブロック１０４ａ～ｎを備える。ＦＳＮｅｔフレームワーク１００は、メモリまたはネットワークアダプタなどの入力インターフェースから、各々がｎ次元を有するＴ個の観測値の時系列として

【数1】

と表される時系列データ１０２を受信し得る。いくつかの実施形態では、時系列データ１０２は、時間ｉから始まる長さｅのルックバックウィンドウ内のデータであり得る：χ_ｉ，ｅ＝（ｘ_ｉ，...，ｘ_ｉ＋ｅ）。モデル１００は、ＧＰＵメモリなどのメモリの利用可能性に基づいて、時系列データのサイズに基づいて、またはデータの季節性などに基づいて、ルックバックウィンドウを使用し得る。モデル１００は、入力された時系列データ１０２に基づいて時系列の次のＨステップを予測するオンライン予測１０６、例えば、ｆ_ω（Ｘ_ｉ，Ｈ）＝（ｘ_{ｉ＋ｅ＋１}...ｘ_{ｉ＋ｅ＋Ｈ}）を生成し得、ここで、ｗは予測モデルのパラメータを示す。ここでは、トレーニングサンプルとして、ルックバックウィンドウと予測ウィンドウのデータのペアを考える。複数ステップ予測（Ｈ＞１）の場合、線形リグレッサ１０５を採用して、ホライズン内のすべてのＨステップを同時に予測する。

【0014】

一実施形態では、ＦＳＮｅｔフレームワーク１００は、パラメータ

【数2】

をもつＬ層（例えば、ブロック１～Ｌ１０４ａ～ｎ）を有する時間畳み込みニューラルネットワーク（ＴＣＮ）バックボーンを含み得る。ＴＣＮバックボーン１０４ａ～ｎは、時系列データ１０２などの入力を受信し、時系列データ１０２内の様々な態様／オブジェクトに重要度（学習可能な重みおよびバイアス）を割り当て、時系列データ１０２内の様々な態様／オブジェクトを時系列データ１０２内の他の態様／オブジェクトと区別するディープラーニングアルゴリズム（オンラインでゆっくりと学習し、ディープニューラルネットワークである）を実装し得る。ＴＣＮバックボーン１０４ａ～ｎは、時系列データ１０２から時系列特徴表現を抽出し得る。

【0015】

ＴＣＮバックボーン１０４ａ～ｎに基づいて、ＦＳＮｅｔフレームワーク１００は、各ＴＣＮ層１０４ａ～ｎのための層ごとのアダプタφ_１（図３に３１５で示す）および各ＴＣＮ層１０４ａ～ｎのための層ごとの連想メモリ（associate memory）Ｍ_１（図３に３１８で示す）という２つの相補的な構成要素をさらに含む。したがって、フレームワークのトレーニング可能な全パラメータは、ω＝｛θ_ｌ，φ_ｌ｝であり、すべての連想メモリは、Ｍ＝｛Ｍ_ｌ｝_{ｌ＝１，...，Ｌ}である。

【0016】

図２は、本明細書で説明される実施形態による、図１に記載のＦＳＮｅｔフレームワークのＴＣＮ層（ブロック）１０４ａの例示的な構造を示す簡略図である。各ＴＣＮ層（ブロック）、例えば１０４ａにおいて、ブロック入力２０２は、いくつかの拡張畳み込み層２０４、２０６によって処理され得、畳み込み出力が元のブロック入力２０２に加算されて、ブロック出力２０８が生成される。図２には２つの拡張畳み込み層２０４および２０６が説明のためだけに示されているが、任意の他の数の拡張畳み込み層がＴＣＮブロック中で使用されてもよいことに留意されたい。

【0017】

一実施形態では、各ＴＣＮブロック１０４ａは、そのアダプタ３１５および連想メモリ３１８に依存して、時系列データ１０２の変化に迅速に適応するか、または限られたデータでより効率的に学習し得る。各ブロックまたは層１０４ａ～１０４ｎは、適応を、ネットワークの深さ、すなわち、ネットワーク１０４ａ～ｎの深さにわたる勾配降下に制限するのではなく、独立して適応し得る。各層１０４ａ～ｎの偏導関数

【数3】

は、予測損失ｌに対する畳み込み層θ_ｌ１０４ａ～ｎの寄与を特徴付ける。

【数4】

は、ｌ番目の層θ_ｌを更新するために使用され得る。いくつかの実施形態では、各畳み込み層に関連付けられた勾配は、偏導関数

【数5】

に基づいて計算され得る。そのような勾配は、図３に関連して説明されるように、拡張畳み込み２０４または２０６内の指数移動（ＥＭＡ）平均を使用してさらに平滑化され得る。

【0018】

したがって、各畳み込みフィルタスタックには、アダプタおよび連想メモリが付随する。図３に関連してさらに示されるように、各層において、アダプタは勾配ＥＭＡを受信し、それに応じてメモリおよび畳み込みフィルタと対話する。

【0019】

図３は、本明細書で説明される実施形態による、図２に記載のＴＣＮ層（ブロック）１０４ａ中の拡張畳み込み層２０４（または２０６）の例示的な構造を示す簡略図である。拡張畳み込み層２０４は、畳み込みフィルタ３１０と、層ごとのアダプタ３１５と、層ごとのメモリ３１８とを備え得る。拡張畳み込み層２０４への入力２０２は、畳み込みフィルタ３１０に供給され得、畳み込みフィルタが、ＴＣＮバックボーンの勾配の指数移動平均（ＥＭＡ）３１３を計算する。具体的には、単一のサンプルの勾配は大きく変動し、適応パラメータにノイズを導入する可能性があるので、以下によってオンライントレーニングのノイズを平滑化するＥＭＡが使用される：

【数6】

【0020】

いくつかの実施形態では、高速アダプタ３１５は、継続学習のためのその効率により、適応プロセスとして要素ごとの変換を使用し得る。結果として得られる適応パラメータｕ_ｌ３１６は、ｕ_ｌ＝［α_ｌ；β_ｌ］として連結された、（ｉ）重み適応パラメータα_ｌおよび（ｉｉ）特徴適応パラメータβ_ｌという２つの成分を含み得る。いくつかの実施形態では、高速アダプタ３１５は、簡潔にするために、バイアス変換パラメータをα_１に吸収し得る。

【0021】

一実施形態では、層θ_ｌのための適応は、３１９に示されるように、重み適応および特徴適応を含み得る。まず、重み適応パラメータα_ｌは、以下のように、要素ごとの乗算を介してバックボーンネットワークの対応する重みに作用する。

【数7】

ここで、θは、Ｃ個のチャネルおよび長さＬのＩ個の特徴マップのスタックであり、θ_ｌは、適応された重みを示し、ｔｉｌｅ（α_ｌ）は、重みアダプタがタイル関数を介してすべてのフィルタに対してチャネルごとに適用されることを示し、

【数8】

は、要素ごとの乗算を示す。

【0022】

同様に、勾配の特徴適応成分β_ｌであり、特徴適応パラメータは、特徴適応成分と第１の畳み込み層特徴マップとの間の要素ごとの乗算に基づいて畳み込み層特徴マップを変更する。例えば、特徴適応β_ｌはまた、次のように、出力特徴マップｈ_ｌと対話し、以下として出力３２２を生成する：

【数9】

【0023】

このようにして、畳み込み層θ_ｌは、重み適応成分α_ｌと特徴適応成分β_ｌとに基づいて更新され得る。

【0024】

いくつかの実施形態では、勾配は、要素ごとの適応パラメータに直接マッピングされ得、これは、非常に高次元のマッピングをもたらし得る。

【0025】

いくつかの実施形態では、Ω（・；Φ_ｌ），と示されるチャンキング動作を実施して、勾配を等しいサイズのチャンクに分割してから、各チャンクを適応パラメータの要素にマッピングし得る。具体的には、チャンキング動作は、（１）ＴＣＮモデル１２０の対応するブロックの勾配ＥＭＡをベクトルに平坦化すること、（２）勾配ベクトルをｄ個のチャンクに分割すること、（３）各チャンクを隠れ表現にマッピングすること、および（４）各隠れ表現をターゲット適応パラメータｕの座標にマッピングすることとして実施され得る。例えば、テンソルをベクトルに平坦化するベクトル化演算（ｖｅｃ（・））と、ベクトルｅを、各々がサイズｄｉｍ（ｅ）／Ｂを有するＢ個のセグメントに分割する分割演算（ｅ，Ｂ）と使用することで、ＴＣＮバックボーンのバックボーンの層のＥＭＡ勾配３１３は、次のようにチャンキングプロセスを介して適応係数

【数10】

となる：

【数11】

このようにして、チャネルごとに適応が適用され得、これは、メモリオーバーヘッドを大幅に低減し、圧縮および一般化を提供する。

【0026】

要約すると、

【数12】

が畳み込み演算を示すものとすると、ステップｔにおいて、ＦＳＮｅｔアダプタは、ｌ番目の層に対して高速適応手順を使用し得、以下のように要約される：

【数13】

【0027】

一実施形態では、時系列で、古いパターンが将来再び現れることがあり、学習をさらに容易にするために過去の同様の知識を思い出すことが有益である。元のデータを記憶することでこの問題を軽減することができるが、プライバシーの問題から、多くのドメインにおいて適用可能ではない場合がある。したがって、連想メモリ３１８を実装して、学習中に遭遇する反復イベントの適応係数を記憶し得る。アダプタ３１５は、短い時間スケールにわたって高速の最近の変化を処理することができるが、再帰的パターンは、メモリ３１８に記憶され、それらが将来再び現れたときに取り出される。この目的のために、各アダプタ３１５は、

【数14】

で示される連想メモリ３１８を備え、ここで、ｄはｕ_ｌの次元性を示し、Ｎは要素の数を示す。連想メモリ３１８は、このような重要なイベントの記憶、取り出し、および更新を行うために、アダプタと疎らにしか対話しない。

【0028】

具体的には、すべてのステップでメモリ３１８と対話することは高価であり、ノイズの影響を受けやすいので、メモリ対話は、表現の実質的な変化が検出されたときのみトリガされ得る。現在の表現と過去の表現との間の干渉は、勾配間のドット積によって特徴付けることができる。したがって、干渉がしきい値を下回ったとき（これはパターンが著しく変化したことを示し得る）にメモリ対話をトリガするために、最近の勾配と長期的な勾配との間のコサイン類似度が計算および監視され得る。この目的のために、勾配ＥＭＡ

【数15】

（３１３）を計算することに加えて、より小さい係数γ’＜γを有する第２の勾配ＥＭＡ

【数16】

が計算され、メモリ対話をトリガするためのそれらのコサイン類似度は、以下のようになる：

【数17】

ここで、τ＞０は、干渉の有意な程度を決定するハイパーパラメータである。さらに、τは、比較的高い値（例えば、０.７）に設定され得、これにより、メモリは、重要であり得、再び現れる可能性がある有意な変化パターンのみを記憶する。例えば、例示的なＥＭＡハイパーパラメータは、次のように設定され得る：アダプタのＥＭＡ係数γ＝０．９、メモリ対話をトリガするための勾配ＥＭＡγ’＝０.３、メモリトリガしきい値τ＝０．７５。

【0029】

一実施形態では、現在の適応パラメータが、いくつかのサンプルに及び得るイベント全体をキャプチャしない可能性があるとき、メモリ読取りおよび書込み動作は、現在のパターンを完全にキャプチャするために適応パラメータのＥＭＡ（係数γ’を有する）を使用して実行され得る。ｕ_ｌのＥＭＡは、ｇ^{^} _lと同じ方法で計算される。メモリ対話がトリガされると、アダプタは、メモリ項目にわたる加重和であるアテンション読取り動作を介して過去の最も類似する変換を照会し、取り出す：

【数18】

メモリは競合するパターンを記憶する可能性があるので、上位ｋ個（例えばｋ＝２）の最も関連性のあるメモリ項目を取り出すことによって、疎なアテンションが適用される。取り出された適応パラメータは、過去に現在のパターンに適応する際の古い経験を特徴付けるものであり、次のように現在のパラメータとの重み付け和をとることによって現時点での学習を改善することができる：

【数19】

ここで、同じしきい値τを使用して、疎らなメモリ対話および適応パラメータの加重和を決定することができる。次に、Ｍ_１に記憶された知識を更新し、蓄積するために書込み動作が実行される：

【数20】

ここで、

【数21】

は外積演算子を表し、これは、

【数22】

によって示される最も関連性のある位置に新しい知識を効率的に書き込むことを可能にする。次いで、メモリは、その値が指数関数的にスケーリングすることを回避するために正規化される。

【0030】

一実施形態では、図１～図３に関連して説明されたＦＳＮｅｔフレームワークは、明示的にタスクがいつ切り替わるかを検出する必要がないので、タスクフリーのオンライン継続学習シナリオに適している。代わりに、タスク境界定義を緩和して、モデルが現在のサンプルに対するその学習を連続的に改善することを可能にすることができる。
コンピューティング環境

【0031】

図４は、本明細書で説明されるいくつかの実施形態による、ＦＳＮｅｔフレームワークを実装するコンピューティングデバイスの簡略図である。図４に示すように、コンピューティングデバイス４００は、メモリ４２０に結合されたプロセッサ４１０を含む。コンピューティングデバイス４００の動作は、プロセッサ４１０によって制御される。コンピューティングデバイス４００は、１つのみのプロセッサ４１０とともに示されているが、プロセッサ４１０は、コンピューティングデバイス４００内の１つまたは複数の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、グラフィックス処理ユニット（ＧＰＵ）および／または同様のものを代表するものであり得ることが理解される。コンピューティングデバイス４００は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加された基板として、および／または仮想マシンとして実装され得る。

【0032】

メモリ４２０は、コンピューティングデバイス４００によって実行されるソフトウェアおよび／またはコンピューティングデバイス４００の動作中に使用される１つまたは複数のデータ構造を記憶するために使用され得る。メモリ４２０は、１つまたは複数のタイプの機械可読媒体を含み得る。機械可読媒体のいくつかの一般的な形態は、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、および／またはプロセッサもしくはコンピュータがそこから読み取るように適合された任意の他の媒体を含み得る。

【0033】

プロセッサ４１０および／またはメモリ４２０は、任意の適切な物理的配置で配置され得る。いくつかの実施形態では、プロセッサ４１０および／またはメモリ４２０は、同じ基板上、同じパッケージ（例えば、システムインパッケージ）内、同じチップ（例えば、システムオンチップ）上などに実装され得る。いくつかの実施形態では、プロセッサ４１０および／またはメモリ４２０は、分散、仮想化、および／またはコンテナ化されたコンピューティングリソースを含み得る。そのような実施形態と一致して、プロセッサ４１０および／またはメモリ４２０は、１つまたは複数のデータセンターおよび／またはクラウドコンピューティング施設内に位置し得る。

【0034】

いくつかの例では、メモリ４２０は、１つまたは複数のプロセッサ（例えば、プロセッサ４１０）によって実行されると、１つまたは複数のプロセッサに、本明細書でさらに詳細に説明される方法を実行させ得る実行可能コードを含む非一時的有形機械可読媒体を含み得る。例えば、示されるように、メモリ４２０は、システムおよびモデルを実装および／もしくはエミュレートするために、ならびに／または本明細書でさらに説明される方法のうちのいずれかを実装するために使用され得る、オンライン時系列予測モジュール４３０のための命令を含む。いくつかの例では、オンライン時系列予測モジュール４３０は、データインターフェース４１５を介して、例えばルックバックウィンドウ内の時系列データなどの入力４４０を受信し得る。データインターフェース４１５は、アップロードされた時系列データを受信するユーザインターフェース、またはルックバックウィンドウおよび予測ウィンドウの以前に記憶されたサンプルをデータベースから受信または取り出し得る通信インターフェースのいずれかであり得る。時系列予測モジュール４３０は、入力４４０に対する予測などの出力４５０を生成し得る。

【0035】

いくつかの実施形態では、時系列予測モジュール４３０は、一連のＴＣＮブロック４３１ａ～ｎ（図１に示す１０４ａ～ｎと同様）と、リグレッサ４３２（図１に示す１０５と同様）とをさらに含み得る。一実装形態では、時系列予測モジュール４３０およびそのサブモジュール４３１～４３２は、ソフトウェア、ハードウェア、および／またはそれらの組合せを介して実装され得る。

【0036】

コンピューティングデバイス４００などのコンピューティングデバイスのいくつかの例は、１つまたは複数のプロセッサ（例えば、プロセッサ４１０）によって実行されると、１つまたは複数のプロセッサに、本開示全体にわたって説明される方法のプロセスを実行させ得る実行可能コードを含む非一時的有形機械可読媒体を含み得る。方法のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、および／またはプロセッサもしくはコンピュータがそこから読み取るように適合された任意の他の媒体である。
ワークフローの例

【0037】

図５は、本明細書で説明される実施形態による、図１～図３に記載のＦＳＮｅｔフレームワークにおいて実装される高速学習ネットワークおよび低速学習ネットワークのための簡略化された擬似コードセグメントである。例えば、Ｌ層（例えば、図１中の１０４ａ～ｎ）のスタックの場合、各層における重み適応成分α_ｌと特徴適応成分β_ｌとを含む適応パラメータを計算するために、順方向計算が実行され得る。メモリ読取りおよび書込み動作は、チャンキングプロセスを介して実行され得、適応パラメータは、現在の適応パラメータと過去の適応パラメータの加重和によって更新され得る。

【0038】

次に、式（５）にしたがって重み適応および特徴適応が実行され得る。Ｌ層にわたる順方向計算によって適応パラメータを更新した後、リグレッサ（例えば、図１の１０５）を介して予測データを生成することができる。次いで、予測データを、トレーニングサンプルからのグラウンドトゥルースの将来のデータと比較して予測損失を計算し、その後、予測損失を使用して、逆伝搬を介してＬ層のスタックを更新する。リグレッサはまた、確率的勾配降下法（ＳＧＤ）を介して更新され得る。次に、適応パラメータおよびＥＭＡ適応パラメータが後方に更新される。

【0039】

図６は、本明細書で説明される実施形態による、図５の擬似コードアルゴリズムに対応する例示的なプロセス６００を示す簡略化された論理フロー図である。方法６００のプロセスのうちの１つまたは複数は、少なくとも部分的に、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、プロセスのうちの１つまたは複数を実行させ得る、非一時的有形機械可読媒体上に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法６００は、動的システムにおいて将来のタイムスタンプにおける時系列データを予測するためのＦＳＮｅｔフレームワーク１００（図１）の動作に対応する。

【0040】

ステップ６０２において、ルックバック時間ウィンドウ（例えば、図１の１０２）内の複数のタイムスタンプに対応する複数のデータポイントを含む時系列データセットが、データインターフェース（例えば、図４の４１５）を介して受信され得る。

【0041】

ステップ６０４において、畳み込み層のスタック（例えば、図１のブロック１０４ａ～ｎ）からの畳み込み層（例えば、図１～図２のブロック１０４ａ）は、例えば、式（１）にしたがって、それぞれの畳み込み層に対応する勾配の指数移動平均に基づいて第１の勾配を計算し得る。

【0042】

ステップ６０６において、畳み込み層に対応する第１の適応パラメータｕ_１が、第１の勾配の部分を第１の適応パラメータの要素にマッピングすることによって決定され得る。例えば、第１の適応パラメータは、第１の重み適応成分α_ｌおよび第１の特徴適応成分β_ｌを含む。

【0043】

ステップ６０８において、時間畳み込みニューラルネットワークの少なくとも１つの畳み込み層について、複数のデータポイントにしたがった全体的な予測損失に対するそれぞれの畳み込み層の損失寄与を示す層予測損失が、複数のデータポイントに基づいて任意選択で決定され得る。例えば、層予測損失は、偏導関数

【数23】

を介して計算され得る。

【0044】

ステップ６１０において、任意選択で、少なくとも１つの畳み込み層が、層予測損失に基づいて更新され得る。このように、各層を独立して監視および修正して、層予測損失を通じて学習することによって現在の損失を学習し得る。

【0045】

ステップ６１２において、更新された畳み込み層の第１の勾配と少なくとも１つの第１の畳み込み層に関連付けられた長期的な勾配との間のコサイン類似度が、例えば、式（６）にしたがって計算され得る。

【0046】

ステップ６１４において、コサイン類似度が予め定義されたしきい値よりも大きい場合、方法６００はステップ６１６に進み、メモリ読出しおよび書込みのためのチャンキングプロセスを実行する。具体的には、ステップ６１６において、畳み込み層に対応するインデックス付きメモリ（例えば、図３の３１８）から現在の適応パラメータが取り出される。ステップ６１８において、インデックス付きメモリ（例えば、図３の３１８）に記憶されたコンテンツが、現在の適応パラメータと第１の適応パラメータとに基づいて更新される。ステップ６２０において、第１の適応パラメータは、取り出された現在の適応パラメータとの加重平均をとることによって更新される。

【0047】

ステップ６２２において、例えば、式（５）にしたがって、第１の重み適応成分α_ｌと第１の層に対応する層パラメータθ_ｌとに基づいて、適応された層パラメータ

【数24】

が計算される。

【0048】

ステップ６２４において、第１の畳み込み層の特徴マップｈ_ｌが、第１の特徴適応成分β_ｌを用いて生成される。例えば、第１の特徴マップは、適応された層パラメータと前の層からの前の適応された特徴マップとの畳み込みである。ステップ６２６において、第１の特徴適応成分β_ｌと第１の畳み込み層の第１の特徴マップｈ_ｌとに基づいて、適応された特徴マップ

【数25】

が計算される。

【0049】

ステップ６２８において、リグレッサ（例えば、図１の１０５）は、ルックバック時間ウィンドウ内の時系列データに対応する畳み込み層のスタックから出力された最終特徴マップに基づいて、将来の時間ウィンドウに対応する時系列予測データを生成し得る。

【0050】

ステップ６３０において、生成された時系列予測データと将来の時間ウィンドウに対応するグラウンドトゥルースデータとに基づいて、予測損失が計算され得る。

【0051】

次いで、畳み込み層のスタックおよびリグレッサが、逆伝搬を介して予測損失に基づいて更新され得る。ステップ６３２において、リグレッサは、確率的勾配降下法を介して更新され得る。次いで、ステップ６３４において、スタックの各層の勾配および適応パラメータが後方に更新され得る。
性能の例

【0052】

以下の仮説を検証するためにデータ実験を実施した：（ｉ）ＦＳＮｅｔは、既存のストラテジと比較して、新しい概念と再帰的概念の両方へのより高速な適応を容易にする；（ｉｉ）ＦＳＮｅｔは、他の方法よりも高速かつ良好な収束を達成する；（ｉｉｉ）偏導関数をモデル化することは、高速適応のための重要な要素である。

【0053】

具体的には、広範囲の時系列予測データセットをデータ実験に使用した：（ｉ）ＥＴＴ１（Zhou et al., Informer: Beyond efficient transformer for long sequence time-series forecasting, in Proceedings of AAAI, 2021）は、２年間にわたって「油温」の目標値および６つの電力負荷特徴を記録したものである。ＥＴＴｈ２およびＥＴＴｍ１ベンチマークが使用され、それぞれ１時間間隔および１５分間隔で観測値が記録される。（ｉｉ）ＥＣＬ（Electricty Consuming Load）２データセットは、２０１２年から２０１４年までの３２１人のクライアントの電気消費量を収集したものである。（ｉｉｉ）Traffic３データセットは、サンフランシスコ湾岸地帯の高速道路の道路占有率を記録したものである。（ｉｖ）Ｗｅａｔｈｅｒ４データセットは、２０１０年から２０１３年まで１時間間隔で、米国の約１，６００箇所の１１の気候特徴を記録したものである。

【0054】

加えて、２つの合成データセットを構築して、新たなおよび再帰的概念ドリフトに対処するモデルの能力を明示的に試験する。タスクは、係数φを有する一次自己回帰プロセスＡＲφ（１）から１，０００個のサンプルをサンプリングすることによって合成され得、ここで、異なるタスクは異なるφ値に対応する。第１の合成データＳ－Ａｂｒｕｐｔは、サンプルが、ＡＲ０.１（１）、ＡＲ０．４（１）、ＡＲ０．６（１）、ＡＲ０．１（１）、ＡＲ０．３（１）、ＡＲ０．６（１）という順序であるＡＲプロセスから別のＡＲプロセスに突然切り替わる、突然および再帰的概念を含む。第２のデータＳ－Ｇｒａｄｕａｌは、段階的で漸進的なシフトを含み、このシフトは、各タスクの最後の２０％から開始する。このシナリオでは、タスクの最後の２０％のサンプルは、上記のような順序で２つのＡＲプロセスから平均化される。

【0055】

実装時に、データは、２５：７５の比でウォームアップフェーズとオンライントレーニングフェーズとに分割され、Ｉｎｆｏｒｍｅｒベースラインを除いて、実験のためのＴＣＮバックボーンを考慮する。ＡｄａｍＷオプティマイザを用いてｌ_２（ＭＳＥ）損失を最適化することによる、Zhang et al., Informer: Beyond efficient transformer for long sequence time-series forecasting, in Proceedings of AAAI, 2021に記載の最適化の詳細。エポックおよびバッチサイズの両方は、オンライン学習設定に従うように１に設定される。すべてのベースラインがＦＳＮｅｔと同じ総メモリバジェットを使用することを保証することによって公正な比較が実施され、これには、ネットワークサイズの３倍、すなわち、１つの作業モデルおよびその勾配の２つのＥＭＡが含まれる。したがって、ＥＲ、ＭＩＲ、およびＤＥＲ＋＋については、このバジェットを満たすために、以前のサンプルを記憶するエピソード記憶を使用する。残りのベースラインについては、代わりに、バックボーンサイズを増加させることができる。最後に、ウォームアップフェーズにおいて、平均および標準偏が計算されて、オンライントレーニングサンプルを正規化し、ハイパーパラメータ相互検証を実行する。すべてのベンチマークについて、ルックバックウィンドウ長は６０に設定され、予測ホライズンはＨ＝１に設定される。Ｈ∈｛１，２４，４８｝を変化させることによって、より長いホライズンを予測するモデルの能力を試験する。

【0056】

比較のために、継続学習および時系列予測の両方からの一連のトレーニングが採用される。１つ目は、単に連続的にトレーニングするOnlineTCNストラテジ（Zinkevich, Online convex programming and generalized infinitesimal gradient ascent, in Proceedings of the 20th international conference on machine learning (icml-03), pages 928-936,461, 2003に記載）である。２つ目は、Experience Replay（ＥＲ）ストラテジ（Lin, Self-improving reactive agents based on reinforcement learning, planning and teaching, Machine learning, 8(3-4):293-321, 1992に記載）であり、ここでは、以前のデータを記憶し、より新しいサンプルの学習中に古いサンプルをインターリーブするためにバッファが採用される。ＥＲの３つの最近の高度な変形例。まず、ＴＦＣＬ（Aljundi et al., Task-free continual learning, in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11254-11263,325, 2019）が、ネットワークの出力を正則化することによって、タスク境界検出メカニズムおよび知識統合ストラテジを導入する。次に、ＭＩＲ（Aljundi et al., Online continual learning with maximal interfered retrieval. Advances in Neural Information Processing Systems, 32:11849-11860, 2019）が、ＥＲにおけるランダムサンプリングを、最も多くの忘却を引き起こすサンプルを選択することに置き換える。最後に、ＤＥＲ＋＋（Buzzega et al., Dark experience for general continual learning: a strong, simple baseline, in 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020）は、知識蒸留ストラテジ（Hinton et al., Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015に記載）で標準的なＥＲを強化する。ＥＲおよびその変形は、単一のサンプルからのノイズを大幅に低減し、より高速で良好な収束を提供するミニバッチでのトレーニングの利益を享受するので、オンライン設定における強力なベースラインである（Bottou et al., Online learning and stochastic approximations, Online learning in neural networks, 17(9):142, 1998を参照されたい）。前述のベースラインは、ＴＣＮバックボーン、Ｉｎｆｏｒｍｅｒを使用するが、トランスフォーマアーキテクチャに基づく時系列予測方法（Vaswani et al., Attention is all you need. Advances in neural information processing systems, 30, 2017）も含まれる。

【0057】

まず、単に連続的にトレーニングするOnline Gradient Descent（ＯＧＤ）（Zinkevich, Online convex and generalized infinitesimal gradient ascent, in proceedings of the 20^th international conference on machine learning, pp. 928-936, 2003に記載）ストラテジである。層ごとに２倍のＴＣＮのフィルタを有するＯＧＤの大きな変形であるＯＧＤ（Ｌ）も含まれ、おおよそ２倍の数のparameters5をもたらす。もう１つのベースラインは、以前のデータを記憶し、より新しいサンプルの学習中に古いサンプルをインターリーブするためにバッファが採用されるExperiment Repla（Chaudhry et al., On tiny episodic memories in continual learning, arXiv preprint arXiv:1902.10486, 2019に記載）ストラテジを含む。もう１つのベースラインは、知識蒸留（Hinton et al., Distilling the knowledge in a neural network, arXiv preprint arXiv:1503.02531, 2015に記載）損失をＥＲにさらに追加するＤＥＲ＋＋（Buzzega et al., Dark experience for general continual learning: a strong, simple baseline, in proceedings of 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020）を含む。ＥＲおよびＤＥＲ＋＋は、単一のサンプルからのノイズを大幅に低減し、より高速で良好な収束を提供するミニバッチでのトレーニングの利益を享受するので、オンライン設定における強力なベースラインである。

【0058】

図７は、トレーニング終了時の累積平均二乗誤差（ＭＳＥ）および平均絶対誤差（ＭＡＥ）を報告する。ＥＲおよびＤＥＲ＋＋は強力な競合相手であり、ＯＧＤストラテジよりも大幅に改善できることが観察される。しかしながら、そのような方法は、複数のタスクの切り替え（Ｓ－Ａｂｒｕｐｔ）の下では依然としてうまく機能することができない。さらに、明確なタスク境界がないこと場合（Ｓ－Ｇｒａｄｕａ）、さらに困難な問題が生じ、ほとんどのモデルのエラーが増加する。一方、ＦＳＮｅｔは、すべてのデータセットで有望な結果を示しており、異なる予測ホライズンにわたってほとんどの競合ベースラインを上回る。さらに、この改善は、合成ベンチマークに対して有意であり、ＬＳＦＮｅｔが、明確なタスク境界がなくても、非定常環境に迅速に適応し、以前の知識を思い出すことができることを示している。

【0059】

図８は、検討された方法に関する収束挙動を報告する。その結果は、ＯＧＤと比較して学習中の収束がより速いことによるＥＲの利点を示すものである。しかしながら、元のデータを記憶することは、多くのドメインに適用されない場合があることに留意することが重要である。Ｓ－Ａｂｒｕｐｔでは、ほとんどのベースラインが、概念ドリフトから迅速に回復することができないことを実証しており、増加するエラー曲線によって示される。また、ほとんどのデータセットでＦＳＮｅｔの有望な結果が観察され、ＥＴＴ、ＷＴＨ、およびＳ－Ａｂｒｕｐｔデータセットではベースラインよりも大幅に改善されている。ＥＣＬデータセットは、欠損値があり（Li et al., 2019）、次元内および次元にわたる変動が大きいためより困難であり、より良好なデータ正規化を計算することを必要とし得る。ＦＳＮｅｔは、ＥＣＬに対して有望な結果を達成したが、上記の課題に対処することで、その性能をさらに向上させることができる。全体として、この結果は、オンライン時系列予測の課題を明らかにし、ＦＳＮｅｔの有望な結果を実証する。

【0060】

Ｓ－Ａｂｒｕｐｔに関するモデルの予測品質は、単変量時系列であるため、図８に示されるように視覚化される。残りの実世界データセットは多変量であり、視覚化することが困難である。特に、２つの時点、すなわち、図９のｔ＝９００および学習終了時であるｔ＝５９００におけるモデルの予測がプロットされている。タスクごとのサンプルが限られており、複数の概念ドリフトが存在するので、標準的なオンライン最適化は、ゼロ付近のランダムノイズを予測する素朴なソリューションに崩壊した。しかしながら、ＦＳＮｅｔは、時系列パターンをうまくキャプチャし、より良好な予測を提供することができる。

【0061】

発明的な態様、実施形態、実装形態、または適用例を示すこの説明および添付の図面は、限定的なものとして解釈されるべきではない。本明細書および特許請求の範囲の趣旨および範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、および動作上の変更が行われ得る。いくつかの事例では、周知の回路、構造、または技法は、本開示の実施形態を不明瞭にしないために、詳細に示されていないか、または説明されていない。２つ以上の図における同様の番号は、同じまたは類似の要素を表す。

【0062】

この説明では、本開示と一致するいくつかの実施形態を説明する具体的な詳細が記載される。実施形態の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、いくつかの実施形態は、これらの具体的な詳細の一部または全部がなくても実施され得ることが当業者には明らかであろう。本明細書中に開示される特定の実施形態は、例示的なものであり、限定的であることを意味するものではない。当業者は、本明細書で具体的に説明されていないが、本開示の範囲および趣旨内にある他の要素を認識し得る。加えて、不必要な繰り返しを避けるために、一実施形態に関連して示され、説明される１つまたは複数の特徴は、特に別様に説明されない限り、または１つまたは複数の特徴が実施形態を非機能的にする場合、他の実施形態に組み込まれ得る。

【0063】

実例となる実施形態が示され、説明されたが、広範囲の修正、変更、および置換が、前述の開示において想定され、いくつかの事例では、実施形態のいくつかの特徴は、他の特徴の対応する使用を伴わずに採用され得る。当業者であれば、多くの変形、代替、および修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広範にかつ本明細書に開示される実施形態の範囲と一致するように解釈されることが適切である。

【図1】