(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-06
(54)【発明の名称】ベイジアンニューラルネットワークの粒子流トレーニング
(51)【国際特許分類】
G06N 3/047 20230101AFI20241029BHJP
G06N 7/01 20230101ALI20241029BHJP
【FI】
G06N3/047
G06N7/01
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024524586
(86)(22)【出願日】2022-10-25
(85)【翻訳文提出日】2024-06-06
(86)【国際出願番号】 US2022047732
(87)【国際公開番号】W WO2023076273
(87)【国際公開日】2023-05-04
(32)【優先日】2021-10-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524059674
【氏名又は名称】レイセオン カンパニー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ベイカー,スザンヌ エム.
(72)【発明者】
【氏名】アレルト,アンドリュー シー.
(72)【発明者】
【氏名】サルプカス,マイケル アール.
(72)【発明者】
【氏名】ダウム,フレデリック イー.
(57)【要約】
ベイジアンニューラルネットワーク(BNN)をトレーニング及び操作するためのデバイス、システム、及び方法が、本明細書で論じられる。方法は、集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、パラメータの最適化された分布とNNの各々からの予測を使用して予測分布を決定すること、及び予測分布を表す周辺化分布をもたらすこと、を含み得る。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ベイジアンニューラルネットワーク(BNN)をトレーニング及び操作するための方法であって、
集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、
トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、
前記パラメータの前記最適化された分布と前記NNの各々からの予測を使用して予測分布を決定すること、及び
前記予測分布を表す周辺化分布をもたらすこと、を含む、前記方法。
【請求項2】
トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるDaum-Huang粒子フィルタで使用される粒子流技術を含む、請求項1に記載の方法。
【請求項3】
前記粒子のセット内の各粒子は、集合的に前記BNNのパラメータの前記分布を表す前記NNのインスタンス化のすべてのNNネットワークパラメータを表す、請求項1に記載の方法。
【請求項4】
トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含む、請求項1に記載の方法。
【請求項5】
トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含む、請求項1に記載の方法。
【請求項6】
トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含む、請求項5に記載の方法。
【請求項7】
前記対角近似が、重みごとにガウスニュートン近似を実行することを含む、請求項6に記載の方法。
【請求項8】
マシンによる実行時に、前記マシンにベイジアンニューラルネットワーク(BNN)をトレーニング及び操作するための操作を実行させる命令を含む非一時的な機械可読媒体であって、前記操作が、
集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、
トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、
前記パラメータの前記最適化された分布と前記NNの各々からの予測を使用して予測分布を決定すること、及び
前記予測分布を表す周辺化分布をもたらすこと、を含む、前記非一時的な機械可読媒体。
【請求項9】
トレーニング粒子流には、Daum-Huang粒子フィルタで使用される粒子流技術が含まれており、内部状態と測定値がそれぞれ重みと真理値に置き換えられる、請求項8に記載の非一時的な機械可読媒体。
【請求項10】
前記粒子のセット内の各粒子は、集合的に前記BNNのパラメータの前記分布を表す前記NNのインスタンス化のすべてのNNネットワークパラメータを表す、請求項8に記載の非一時的な機械可読媒体。
【請求項11】
トレーニング粒子流は、対数ホモトピーに沿った反復的に進化するネットワークパラメータ値を含む、請求項8に記載の非一時的な機械可読媒体。
【請求項12】
前記トレーニング粒子流れは、前記粒子のドリフトと拡散を決定する際のヘッセ行列の行列へのガウスニュートン近似の使用が含まれる、請求項8に記載の非一時的な機械可読媒体。
【請求項13】
トレーニング粒子流は、前記ガウスニュートン近似への対角近似の使用を含む、請求項12に記載の非一時的な機械可読媒体。
【請求項14】
前記対角近似は、重みごとにガウスニュートン近似を実行することを含む、請求項13に記載の非一時的な機械可読媒体。
【請求項15】
デバイスであって、
格納された命令を含むメモリデバイスと、
前記メモリデバイスに接続された処理回路であって、前記処理回路によって実行されるとき、前記処理回路にベイジアンニューラルネットワーク(BNN)をトレーニング及び操作させるための操作を実行させる命令を実行させるよう構成され、前記操作は、
集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、
トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、
前記パラメータの前記最適化された分布と前記NNの各々からの予測を使用して予測分布を決定すること、及び
前記予測分布を表す周辺化分布をもたらすこと、を含む、前記処理回路を含む、前記デバイス。
【請求項16】
トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるDaum-Huangダウムファン粒子フィルタで使用される粒子流技術を含む、請求項15に記載のデバイス。
【請求項17】
前記粒子のセット内の各粒子は、集合的に前記BNNのパラメータの前記分布を表す前記NNのインスタンス化のすべてのNNネットワークパラメータを表す、請求項15に記載のデバイス。
【請求項18】
トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含む、請求項15に記載のデバイス。
【請求項19】
トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含む、請求項15に記載のデバイス。
【請求項20】
トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含み、前記対角近似は、重みごとにガウスニュートン近似を実行することを含む、請求項19に記載のデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張
本出願は、参照によりその全体が本明細書に組み込まれる、2021年10月25日に出願された米国特許出願第17/509,270号に対する優先権の利益を主張する。
【0002】
本明細書で論じられる実施形態は、ミニバッチ粒子流を使用してベイジアンニューラルネットワーク(NN)をトレーニングするためのデバイス、システム、及び方法に関する。
【背景技術】
【0003】
ほとんどのNNは、直接的な不確実性のメトリクスや信頼度を持たずに点推定を行う。標準的なNNは、オープンセットでのパフォーマンスが比較的低い場合もある。ベイジアンNN(BNN)は重みの統計的分布を学習し、決定の不確実性と信頼性を決定できる統計的環境を提供する。BNNの既存のトレーニング手法には、ハミルトニアンモンテカルロ、変分推論(モンテカルロと決定論の両方)、確率的逆伝播、及び標準粒子フィルタが含まれる。これらのトレーニング方法は計算コストが高く、トレーニングには比較的大量のデータが必要である。
【図面の簡単な説明】
【0004】
【
図1】例として、標準的なDLアーキテクチャとBNNを対比したブロック図を示す。
【
図3】例として、トレーニング粒子流を使用するNNトレーニング手順の実施形態の流れ図を示す。
【
図4】例として、トレーニング前にBNNによって行われたそれぞれの予測のヒストグラムを示す。
【
図5】例として、トレーニング粒子流を使用した120のトレーニング更新後に BNN によって行われたそれぞれの予測のヒストグラムを示す。
【
図6】例として、選択されたFashion-MNISTサンプルを入力としてBNN によって行われたそれぞれの予測のヒストグラムを示す。
【
図7】例として、トレーニング粒子流を使用してトレーニングされたBNNへのMNIST入力と、トレーニング粒子流を使用してトレーニングされたBNNへのFashion-MNIST入力の分散を表すヒストグラムを示す。
【
図8】実施形態による、NNトレーニングのためのシステムを含む環境の例のブロック図である。
【
図9】例として、マシンに本明細書に説明される方法の任意の1つ以上を実行させるための命令が実行され得るコンピュータシステムの例示的な形式のマシンの実施形態のブロック図を示す。
【発明を実施するための形態】
【0005】
実施形態は、トレーニング及びオープンセット検出にスパースデータセットを使用して良好に実行することを優先して、トレーニングされたネットワークにおける予測及び対応する不確実性を提供する問題に取り組む。ディープラーニング(DL)は、自律性を実現する手段として、いくつかの業界で広く採用されている。業界の例は、自動運転車、医療診断、バイオインフォマティクス、製造、レーダーを含む。DLは一部のタスクで最先端のパフォーマンスを実証しているが、不確実性の定量化は依然として世界的な課題であり、活発な研究分野である。タスクの例には、コンピュータービジョン、音声認識、及び自然言語処理を含む。意思決定における不確実性の定量化は、自動化するあらゆる業界にとって、特に一か八かという状況において重要である。不確実性の定量化は自信過剰な意思決定を減らすのに役立ち得るだけでなく、コンピュータがより現実的な人間の反応を選択するのにも不確実性の定量化は役立ち得る。より現実的な人間の反応は、人間と対話するいずれかの自動システムまたは人間が占拠する環境に役立ち得る。
【0006】
図1は、例として、標準的なDLアーキテクチャ102とBNN104を対比したブロック図を示す。標準的なDLアーキテクチャは、モデル予測(出力108)及びネットワークパラメータ(ノードの重み112)の点推定をする。このようなDLアーキテクチャ102では、不確実性を定量化するための直接的な手段が得られない。その代わりに、標準的なDLアーキテクチャ102は、不確実性を推定するための間接的な方法に依存する。一般的な方法には、エントロピー及び信頼スコアと関数の使用、及びアプリケーション固有の方法が含まれる。ベイジアンDLアーキテクチャ104と統計的手法は、不確実性を定量化するためのより自然な状況をもたらす傾向がある。
【0007】
BNNは少なくとも1992年から研究されており、成長し続けている分野である。BNN技術は、NNにおける重みの事後確率分布(ノード114の分布)を解くためのガイドとしてベイズの定理を使用する。DLタスクのベイズの定理を解く計算の難しさは、NNの重みの事後分布を推定するための多数のアプローチの開発につながった。BNN最適化のよく知られたアプローチは、ハミルトニアンモンテカルロ、モンテカルロ変分推論、決定論的変分推論、確率的逆伝播(PBP)を含む。
【0008】
BNN104の出力110は、出力108としてクラスごとのスコアを提供するNN102の出力と比較したクラスごとの分布である。出力110の分布は、ノード114の活性化関数を表すために、ノード112のようなスカラー重みの代わりに分布(「dist.」)を使用することの自然な結果であり得る。
【0009】
ディープアンサンブルと確率的正則化手法は、DLにおける不確実性を推定する方向に向けた代替アプローチを提供する。これらの手法はベイズの定理を最適化するものではないが、BNNの数分の1の計算コストで予測不確実性を計算するための統計的環境をもたらす。これらの統計手法は、不確実性を定量化するための様々なアプリケーションで使用されている。
【0010】
既存のベイジアンNNと統計的アプローチに共通するテーマは、非常に大規模なトレーニングセットと数千エポックにわたるトレーニングである。ただし、現実世界のデータセットは一般的にまばらであり、数千のパラメータを使用して一般的なNNをトレーニングするには不十分な場合がある。実施形態は、不確実性を定量化することができ、また、疎なデータセットの制限内及び開集合問題に対して堅牢に実行できるNNアーキテクチャを提供する。
【0011】
実施形態は、粒子フィルタで一般的に使用されるが、BNNをトレーニングするために変更及び再利用される、変更された形式の粒子流技術を使用する。粒子流の方法の変更された形式を、本明細書では「トレーニング粒子流」と呼ぶ。粒子流は、ベイズの定理を最適化するための方法であり、(これまで)粒子フィルタリングのコンテキストでのみ使用されてきた。粒子フィルタリングに関連した粒子流の数値実験では、標準的な粒子フィルタや同じフィルタ精度の他の最先端のアルゴリズムと比較して、粒子流により計算の複雑さが何桁も軽減され得ることが示されている。さらに、粒子流は、拡張カルマンフィルタや、困難な非線形非ガウス問題に対するその他の最先端のアルゴリズムと比較して、フィルタ誤差を何桁も減らすことができる。
【0012】
最近、NNを最適化するための粒子法が登場したが、粒子流を使用してBNNを最適化することは、本発明者らの知る限りこれまで行われていなかった。MNIST{0,1}を使用して分類タスクを実行するようにトレーニングされたBNNの結果は、非常に少ないトレーニングサンプルで高い予測精度を示している。さらに、分類タスクを実行するようにトレーニングされたBNNは、ネットワーク予測の分散を使用して予測の不確実性を測定する強力な機能を備えていた。
【0013】
粒子流
内部状態sと測定値mを持つシステムを検討する。ベイズの定理は、以下に従って、測定値p(s│m)が与えられた状態の事後確率を、状態の事前分布p(s)と、状態が与えられた測定値の尤度p(m│s)に関連付ける。
【数1】
【0014】
ここで、p(m)=∫p(m│s)p(s)dsは正規化定数として動作する証拠である。測定値mは、内部状態がどのようなものであるか、または内部状態がどのようになるかを特徴付けるのに役立つ量である。一連のノイズの多い測定値{m}を含む一般的なマルコフプロセスが与えられると、粒子フィルタはベイズの定理を指針として使用してシステムの内部状態(複数可){s}を推定する方法を提供する。
【0015】
粒子流は、各測定ごとに内部状態の最適な事後分布を推定するために粒子フィルタリングのコンテキストで使用される方法である。粒子流は、対数ホモトピーに沿って事前分布を事後分布に進化させることにより、ベイズの定理を最適化する。
【数2】
【0016】
一方の連続関数をもう一方の連続関数に「連続的に変形」できる場合、それぞれの空間内の2つの連続関数はホモトピックと呼ばれる。このように変形され得る関数間にホモトピーが存在する。
【0017】
ここでK(λ,m)=∫p(m│s)
λp(s)dsは、各λの事後分布p(s,λ│m)を正規化する。スカラーホモトピーパラメータλ=[0,1]は、特定の測定値mについて、分布を事前分布から事後分布に進化させる。各粒子は、システムの内部状態sの単一の実現を表す。対数ホモトピーに沿った粒子の流れは、以下の確率微分方程式(SDE)によって記述される。
【数3】
【0018】
式中、
【数4】
はドリフト速度、Bは拡散行列、dWはウィーナー過程の微分である。
【0019】
粒子の事後分布の進化は、フォッカー・プランク方程式(拡散二乗行列はQ
ij=Σ
kB
ikB
jkとして定義される)によって特徴付けることができる。
【数5】
【0020】
ここで、式(4)に書かれた勾配と微分は、デカルト座標に関するものである。ただし、式(4)は偏導関数を適切に変換することで、任意の最適な直交座標系で使用できる。
【0021】
ドリフト速度
【数6】
と拡散行列Qの様々な解は、事前関数形式と尤度関数形式の特定の選択、または進化が決定論的か確率的かどうかについて発見されている。ドリフト速度と拡散行列のグロモフ解は次のとおりである。
【数7】
【数8】
【0022】
式中、
【数9】
はヘッセ行列である。ヘッセ行列は、変数関数の局所曲率を記述するスカラー値の関数の2次偏導関数の正方行列である。拡散行列のグロモフ解では、ガウス関数形式を持つ事前確率と尤度、及びガウスホワイトノイズによる測定値と状態の間の線形関係が必要である。
【0023】
測地線解は、ドリフト速度と拡散なし(つまりQ=0)についてグロモフ解を仮定する。ただし、これは式2と式4を同時に満たさない。曲率ゼロの解は、粒子がλを変化させても加速せず、拡散項はない(すなわち、Q=0)と仮定する。この解のドリフト速度はグロモフドリフト速度に比例する。
【0024】
DL及び教師あり学習タスク
DLは、一連のノード層を使用して、教師あり、半教師あり、または教師なし学習タスクのデータの高次表現を学習するMLの分岐である。説明される実施形態は教師あり学習タスクに焦点を当てているが、実施形態は尤度関数を定義できる任意の学習タスクに適用することができる。
【0025】
教師あり学習タスクでは、ディープNN(DNN)を使用して、回帰または分類の入力データと出力データの間の関係を学習できる。回帰タスクの場合、NNは入力データに因果関係がある従属変数pを予測できる。分類タスクの場合、ネットワークは特定のクラスの確率p_jを予測する。「確率」という言葉は、ここでは少し誤称である。分類タスクでは多くの場合、出力層でSoftMax活性化関数を使用して、その要素の合計が1になるベクトルを生成する。この出力はクラス確率のセットを表すが、これらの「確率」は必ずしもネットワークの実際の精度に対して十分較正されているとは限らない。この意味で、出力確率は、各クラスの正規化されたスコアとしてより正確に理解できる。トレーニング中に、入力データの対応する真理クラスまたは真理値yTに対してNN予測を評価でき、選択した最適化スキームを使用してネットワークの重みを調整できる。
【0026】
「尤度」関数は、DLの多くの勾配ベースの最適化手法で使用される。回帰タスクの場合、NN重みθ={θ
i}とネットワーク予測pが与えられた場合の真理変数y
Tの尤度Lは、通常、正規分布によってモデル化される。
【数10】
【0027】
ここでΣは、真実y
Tと予測pの間の誤差をスケールする共分散行列であり、指数kはy
Tの次元を表す。この尤度関数は、予測pと真実y
Tの間のガウスホワイトノイズの不一致を前提としている。対応する対数尤度は次のように与えられる。
【数11】
【0028】
これは、Σが単位行列である場合の平均二乗誤差(MSE)を思い出させる。
【0029】
分類タスクの場合、カテゴリカルな分布は、予測クラス確率p
j、j∈[1n
クラス]及びNN重みθを所与とした入力の真のクラスy
Tの尤度Lを表す。
【数12】
【0030】
ここで、y
T={y
Tj}は、像の真理クラスのワンホットエンコードされたベクトル、またはソフトラベルを使用している場合は合計が1になる非バイナリベクトルである。対応する対数尤度は、クロスエントロピー関数の負の値である。
【数13】
【0031】
BNNをトレーニングするための粒子流のマッピング
図2は、例として、NN200の実施形態の図を示す。NN200は、L層のノードを含む。L層NN、Λ
θには、すべての重みとバイアスを含むネットワークパラメータθ={θ
j}={W
1,b
1,W
2,b
2,…,W
L,b
L}の集合がある。NN200は合計のN
パラメータパラメータを有し、ネットワークパラメータθはN
パラメータ次元ベクトルθ∈R
Nパラメータになる。
【0032】
一般的な教師あり学習タスクでは、トレーニングデータの集合D={X,Y
T}を使用して、NN200をトレーニングする。ここで、X={x
j}はすべての入力の集合であり、Y
T={y
T,j}はXが与えられたすべての真理値の対応する集合である。各NN予測p
jは、データ
【数14】
に対する一連の2L組成の結果である。
【数15】
【0033】
式中、σはノードの各層の活性化関数を表し、gは各層のノードでのアフィン変換を表す。
【0034】
BNNの目標は、ベイズの定理を使用して、データを与えられたネットワークパラメータp(θ│D)の最適な事後分布を学習することである。
【数16】
ここでp(θ)はネットワークパラメータの事前分布を表し、{θ
j},L(Y
T│θ,X)=L(Y
T│Λ
θ(X))はNN予測P=Λ
θ(X)を考慮した真理値Y
Tの尤度を記述する(式(7)及び式(9)を参照)。式(12)の正規化係数は、p(Y
T│X)=∫L(Y
T│θ,X)p(θ)dθとして定義される。
【0035】
式(12)の右辺は、事後確率
【数17】
の完全な式の縮小から得られ、式中分母は証拠p({X,Y
T})=∫L(Y
T│θ,X)p(X│θ)p(θ)dθであることに留意されたい。ネットワークパラメータθに対する入力Xの条件付き独立性を考慮すると、条件付き確率はp(X│θ)=p(X)p(θ)になる。これを事後確率の完全な式に代入すると、式(12)の右辺が再現される、
【数18】
【0036】
実施形態は、粒子フィルタリングコンテキストで使用される粒子流をDLコンテキストにマッピングし、式(12)においてそれぞれネットワークパラメータθと真理値YTに対して式(1)の内部状態{s}と測定値{m}を等しくすることによって、トレーニング粒子流をもたらす。これらの等式の下で、各粒子は今やネットワークパラメータ{θj}の単一の実現を表す。トレーニング粒子流は、ホモトピースカラーλを使用してNNのネットワークパラメータ{θj}の値を進化させる。内部状態sが与えられた場合の各測定値mの尤度は、入力データXに基づくネットワーク200の予測Pが与えられた場合の真理値の尤度YTで置き換えられる。DLコンテキストでは、各粒子はネットワークパラメータ{θj}の単一の実現を表す。
【0037】
粒子フィルタリングコンテキストで使用される粒子流のトレーニング粒子流へのマッピングは、式(13)から式(15)に数学的に説明される。
【数19】
m→Y
T (式14)
【数20】
【0038】
式(3)で与えられる対数ホモトピー制約は、
logp(θ,λ│{X,YT})=λlogL(YT│θ,X)+logp(θ)-logp(λ,│X)YT (式16)
【0039】
ここで、スカラーホモトピーパラメータ
(外1)
は、
(外2)
におけるこれらの項の分散を指定するために、事後分布と正規化係数の表記に追加された。式(4)に書かれた対応する勾配と導関数は、今や、トレーニング粒子流のためのネットワークパラメータに関するものである。
【数21】
【0040】
式18は、グロモフ方程式を使用したトレーニング粒子流におけるドリフト速度の数学的な表現を示す。
【数22】
【0041】
グロモフ方程式は、L≧1層、様々な活性化関数、及び任意の事前関数形式と尤度関数形式を備えたアーキテクチャに対してよく一般化する。しかし、式(18)は、NN200が線形活性化関数
【数23】
の単一層を有し、事前確率及び尤度はガウス関数形式を有し、Qが式(6)によって与えられるとき、式(16)~(17)のみを満たす。
【0042】
式19は、粒子流トレーニングで使用される一定拡散行列の数学的表現を提供する。
Q=αId (式19)
【0043】
ここで、α∈R0は正の実数、Idは単位行列である。一定の拡散行列は、数値の安定性をもたらすのに役立ち得る。さらに、少量のノイズを追加すると、ネットワークトレーニングが極小値に陥るのを防ぐことができる。小さな指数関数的減衰係数を拡散マトリックスに追加して、重みの更新回数の増加に伴うノイズの影響を軽減することもできる。
Q=αexp[β(更新#)]Id
(式20)
【0044】
式中、β>0は減衰率を表す。
【0045】
トレーニング粒子流を使用したNNトレーニング手順
図3は、例として、トレーニング粒子流を使用するNNトレーニング手順の実施形態の流れ図を示す。この手順には、初期化320、トレーニング粒子流最適化322、及び予測324が含まれる。
【0046】
初期化320は、操作326において、尤度及び事前の関数形式をユーザが選択すること、またはコンピュータが自動的にインスタンス化することを含む。初期化320は、操作328での、選択された事前分布p(θ)をサンプリングすることを含む。サンプリングは、最適化322で最適化されたNNの各実現を初期化する。操作326で事前分布として多変量正規分布が選択された場合、対応するヘッセ行列は単純な分析形式になる。
p(θ)~N(θ;μ,Γ) (式20)
【数24】
【0047】
式中、μは平均ベクトル、Γは共分散行列である。平均により、ネットワークパラメータの値に初期オフセットが追加される。簡単にするため、また不正なオフセットの追加を避けるために、平均を0に設定できる。ただし、オフセットを知って使用することはできる。Γの値は、各ネットワークパラメータの初期の広がりと潜在的な相関関係を特徴付ける。値は、高速学習を促進するのに十分な大きさでありながら、ネットワーク内の発散を防ぐのに十分な小さい値を選択できる。
【0048】
尤度関数については、式(7)または(9)が、教師あり学習タスクの種類に応じて使用できる。式(7)の残差共分散は、前の共分散と同様に選択することができる(例えば、学習を促進するが、発散を防ぐため)。粒子の数Nは、データに関する十分な統計を提供し、共分散行列の発散を回避するのに十分な大きさになるように選択できる。
【0049】
粒子流の最適化322は次のように説明できる。
トレーニングセット(x
j,y
T,j)∈Dの各データポイントについて(操作330でトレーニングセットからデータを選択する):
現在の粒子の分布を以前の粒子の分布と同等にする。
粒子の事前分布の共分散、Γを計算する。
スカラーホモトピーパラメータλ=[0,1]を繰り返しループする(操作332)
それぞれのλ
k,k=1,2,…,N
λ-1について、
積分ステップサイズを計算する、
δλ=λ
k+1-λ
k
各粒子{θ
i}、i=1,2,3…,Nについて(操作334)
粒子の値を使用してデータ入力x
jをネットワーク経由で渡し(操作334)、予測を取得する
p
j=Λ
θi(x
j)
ネットワークパラメータに関する対数尤度の勾配とヘッセ行列を計算する(操作336)
ドリフトfと拡散行列Qを計算する(操作338)
確率微分方程式(SDE)(式15)の数値積分を使用して粒子の状態を更新する(操作340)
【数25】
【0050】
操作330で、入力値と出力値のペアがデータセットから選択される。操作332において、操作322は、ホモトピーパラメータλの離散化ステップを反復する。操作334では、操作328からのN粒子状態のうちの粒子状態が選択され、選択されたNNを介してデータを渡すことができる。操作334の結果は予測となり得る。操作336で、勾配(導関数)及びヘッセ行列が計算される。ドリフトと拡散は、操作338で勾配とヘッセ行列に基づいて決定される。操作340で、粒子の状態が更新される。
【0051】
粒子流は数値の積分を使用して式(15)を積分する。数値の積分のための操作332)におけるスカラーホモトピーパラメータλ={λk:k∈[1,Nλ]}の補間は、線形、対数、または適応スケールに基づくことができる。スカラーホモトピーパラメータの分割数Nλは、積分精度とアルゴリズムの効率によってバランスを取ることができる。SDEの数値積分にはいくつかの異なる方法があるが、計算効率を高めるためにオイラー丸山法を使用できる。
【0052】
予測324では、操作342で出力予測を提供することができる。新しい入力が与えられた場合の出力予測の周辺化された確率分布が操作344で決定される。新しい入力
【数26】
トレーニングデータD、及び粒子θが与えられた場合の出力予測
【数27】
の境界なし予測分布は次のようになる。
【数28】
【0053】
すべてのネットワーク実現θで式(21)を周辺化することは、新しい入力
【数29】
とトレーニングデータDが与えられた場合、出力予測
【数30】
の予測分布が得られる。
【数31】
【0054】
実施形態は、事後分布p(θ│D)のモンテカルロサンプリングを使用して式(22)を評価することができ、サンプリングはすべての粒子{θ
i}にわたる。
【数32】
【0055】
見てわかるように、予測分布はネットワーク予測による事後分布の周辺化であり、ネットワークパラメータの合計である。
【0056】
ヘッセ行列近似
動作338におけるドリフト計算の一成分は、ネットワークパラメータに関する対数尤度のヘッセ行列である。完全なヘッセ行列は、最小のNNを除き、ほとんどすべてのNNにとって計算的に処理が困難である。ガウスニュートンヘッセ行列近似は、システムの完全なヘッセ行列を推定する効果的な手段を提供する。ヘッセ行列の行列要素は次のとおりである。
【数33】
【0057】
式中、pm
はネットワーク予測のm番目の成分である。式(11)に書かれているように、データの指数に対応している予測の添字は、簡単にするために省略されていることに留意されたい。
【0058】
回帰の場合L層ニューラルネットワークの出力は、従属変数pの予測である。式(7)で説明されている尤度を使用すると、式(24)の対応するヘッセ項は、
【数34】
【0059】
式中、Σは尤度における真理値と予測との間の誤差をスケーリングする共分散行列である。
【0060】
分類の場合、L層ニューラルネットワークの出力は、クラス確率{pj}のセットである。真理クラスの予測されたクラス確率がゼロの場合、出力確率p
mに対する対数尤度(式(9))の勾配は単一である。数値の不安定性を回避するために、ソフトマックスのアクティブ化の前に、L番目の層の出力に関して導関数
(外3)
を取得できる。
【0061】
【数35】
という分類ケースにおけるガウスニュートン近似のヘッセ行列項は、次のように評価される。
【数36】
【0062】
対角近似
計算コストを削減するために、ネットワークの重みごとにガウスニュートヘッセ行列近似を実行できる。ネットワークの重みごとのガウスニュートンヘッセ行列近似のこのパフォーマンスは、本明細書では「対角近似」と呼ばれる。対角近似では、ヘッセ行列の非対角要素がすべてゼロに設定される。ヘッセ行列の対角行列要素は次のとおりである。
【数37】
【0063】
式(27)から、この近似により、ヘッセ行列のネットワークパラメータ間の相関がすべて除去されること明らかである。縮小ヘッセ行列、つまりネットワークパラメータ間のすべての相関が除去されたヘッセ行列は、この近似に従ってベクトル化でき、完全なヘッセ行列を格納するために必要なメモリが大幅に削減される。一貫性を保つために、事前の共分散[Γii](例えば、事前の分散)の対角要素のみを取得することによって、事前のすべての相関を削除できる。
【0064】
これらの近似の下で、ドリフト速度のベクトル成分は次のように単純化される。
【数38】
ドリフト速度は、行列の反転や乗算を行わずに完全に計算でき、対数尤度の勾配にスケーリングベクトルを掛けたアダマール積としてキャストできる(例えば、(Γ
ii
-1-λH
θi)
-1。
【0065】
トレーニング粒子流がどのようにうまく機能するかを実証するために、問題のバイナリ分類の結果が提供される。「トレーニング」データは、Modified National Institute of Standards and Technology(MNIST)のデータベースからの数字のサブセット{0,1}の分類結果を含む。MNISTデータベースは、Yann LeCun、Corinna Cortes、及びChristopher J.C. Burgesによって、2つの別個のNISTデータベースの画像を使用して作成された。MNISTデータベースには、http://yann.lecun.com/exdb/mnist/からアクセスできる。これはバイナリ問題であるため、基本的な畳み込みネットワークアーキテクチャは2つの畳み込み層(それぞれに4つのフィルタのみ)とその後に続く高密度の出力層からなる。このネットワークには、合計286のネットワークパラメータ(つまり、合計の重みとバイアスの合計)がある。テストデータは、従来のMNISTテストセット(2桁の「0」と「1」に限定)からなる。これは合計2,115のテスト画像になる。
【0066】
対角近似を使用して粒子流方程式を近似することによって、ネットワークをトレーニングするために200個の粒子を含むシミュレーションを実行することができる。これらの粒子はそれぞれ、初期共分散行列で初期化される。表2は、これらの結果を達成するために使用されたネットワークと粒子流の設定の概要を示している。
【表1】
【0067】
これらの初期化された粒子を使用したいくつかのテスト予測を見ることは有益である可能性がある。ネットワーク予測は、特定のクラスではなく、各クラスの確率であることに留意されたい。例えば、「1」の画像をネットワークに通過させた後の出力予測は、p(0.2,0.8)であり、ネットワークが、画像は確率0.2でクラス「0」、確率0.8でクラス「1」であると予測することを意味している可能性がある。
【0068】
図4は、例として、トレーニング前にBNNによって行われたそれぞれの予測のヒストグラムを示す。
図4は、4つの入力のそれぞれについて、初期予測がおよそ50/50(予想通り)であることを示している。
【0069】
トレーニングプロセスは、クラスが交互になるように構築することができ、トレーニング粒子流技術では、「1」の画像を使用し、その後に「0」の画像を使用する、などにするようにする。このように交互にすることは、いずれかのクラスへの粒子の偏りを軽減するのに役立ち得る。この交互の手順は、複数のクラスのより一般的な場合に実行できることに留意されたい。
【0070】
図5は、例として、トレーニング粒子流を使用した120回のトレーニング更新後にBNNによって行われたそれぞれの予測のヒストグラムを示す。これらの結果では、クラスごとにサンプル60個しかないことに留意されたい。比較のために、標準的なNNは、クラスあたり約6,000個のトレーニング画像からなるMNISTトレーニングデータセット全体を使用する。
【0071】
図5に基づいて、画像(A)と(B)ではネットワークの分散が低い(信頼度が高いと解釈できる)ことがわかる。画像AとBは「標準的な」1と0のように「見える」。また、
図5の(C)及び(D)の画像が、あまり「標準的」ではなく見え、予測のばらつきもより大きいことも明らかである。
【0072】
標準的な分類メトリックと比較するために、予測された分布の平均を使用することによって、トレーニング粒子流を使用してトレーニングされたネットワークの精度を計算することができる。上記のネットワークと更新手順でこれを実行すると、99.9%(2113/2115)の精度が達成された。これは標準的なトレーニング手法と同等である。ただし、ここでは、予測の分散に基づいて不確実性または信頼性の尺度が得られることを強調することが重要である。
【0073】
トレーニング粒子流の威力をさらに強調するために、トレーニング粒子流を使用してトレーニングされたネットワークに0でも1でもない画像が表示されたときの結果を見ることができる。Fashion-MNISTデータセットは、そのような画像を提供する。Fashion-MNISTについては、Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747で説明されている。Fashion-MNISTデータセットは、衣服とアクセサリーの画像からなる。Fashion-MNISTデータセットをテストデータセットとして使用して得られた結果を
図6に示す。MNISTテストケースと比較して、各Fashion-MNISTテストケースの予測分布の分散がはるかに大きいことは明らかである。
【0074】
この設定では、分散に閾値を設定することができ、この所定の閾値を超えると、ネットワークは本質的に「正しいクラス予測が何かわからない」と言っていることになる。対照的に、標準的なNN予測の予測分散はゼロであり、不確実性を推定するには他の方法に依存しなければならない。この点をより明確にするために、MNISTデータセットとFashion-MNISTデータセットを入力として使用した予測の分散のヒストグラムが有益になる可能性がある。
【0075】
例として、
図7は、トレーニング粒子流を使用してトレーニングされたBNNへのMNIST入力と、トレーニング粒子流を使用してトレーニングされたBNNへのFashion-MNIST入力との分散を表す折れ線グラフの図を示す。トレーニング中にBNNには合計120枚の画像(0の画像60枚と1の画像60枚)しか表示されなかったが、MNISTおよびFashion-MNISTデータセットの間には予測分散が明確に分離されている。
【0076】
AIは、これまで人間などの生きた行為者を必要としていた認知タスクを実行するための意思決定システムの開発に関係する分野である。NNは、生物学的ニューロンを大まかにモデル化した計算構造である。一般に、NNは、ノード(例えば、ニューロン)間の重み付けされた接続(例えば、シナプス)を介して情報(例えば、データまたは意思決定)を符号化する。最新のNNは、音声認識などの多くのAIアプリケーションの基礎である。
【0077】
多くのNNは、モデル化された接続に対応する重みの行列として表される。NNは、頻繁に、他のニューロンへの多くの発信接続を有する一連の入力ニューロンにデータを受け入れることによって動作する。ニューロン間を通過するたびに、対応する重みが入力を変更し、活性化関数に渡される。次いで、活性化関数の結果は、NNグラフのさらに下の別のニューロンに送信される。活性化関数による重み付けと処理のプロセスは、出力ニューロンに到達するまで続き、ANN処理の結果出力ニューロンのパターンと値を構成する。
【0078】
ほとんどのNNが正しく動作するのは、正確な重み次第である。しかし、NN設計者は通常、特定のアプリケーションに対してどの重みが機能するかを知らない。NN設計者は通常、多数のニューロン層、または循環接続を含む層間の特定の接続を選択する。トレーニングプロセスを使用して、初期の重みを選択することによって適切な重みを決定することができる。いくつかの例では、初期の重みはランダムに選択され得る。トレーニングデータがNNに入力され、結果が誤差の指標を与える目的関数と比較される。誤差の表示は、NNの結果が予期された結果と比較してどの程度間違っているかを示す尺度である。次いで、この誤差は重みを修正するために使用される。多くの反復を経て、重みが集合的に収束し、操作データがNNにエンコードされる。このプロセスは、目的関数(例えば、コスト関数または損失関数)の最適化と呼ばれることがあり、それによってコストまたは損失が最小化される。
【0079】
勾配降下法は、特定の目的(または損失)関数を最適化するための一般的な手法である。スカラー場の勾配(偏導関数のベクトルなど)は、この目的関数の最も急峻な増加の方向を与える。したがって、パラメータを逆方向に少量調整すると、一般に目的関数が減少する。十分な回数の反復を実行すると、パラメータは最小値に近づく傾向がある。いくつかの実装形態では、学習率(ステップサイズなど)はすべての反復で固定される。ただし、ステップサイズが小さいと収束するまでに時間がかかる傾向があり、ステップサイズが大きいと最小値付近で変動したり、その他の望ましくない動作が発生したりする可能性がある。可変ステップサイズは、通常、大きなステップサイズの欠点なく、より高速な収束を実現するために導入される。
【0080】
ニューラルネットワークを介した入力データの順方向のパスの後、バックプロパゲーションは、ネットワークパラメータに関する目的関数の勾配を評価するための節約型のアプローチを与える。ネットワークの最終出力は、各層の演算を組み合わせて構築される。これには、目的関数の勾配を計算するための連鎖律が必要になる。バックプロパゲーションは、最終層から開始して逆方向に入力層に向かい、層出力に関する目的の導関数とその前の層からの対応する量との間の再帰的関係を利用する。この再帰的な関係により、各パラメータに関する目的の導関数の連鎖律全体を評価するという冗長性が排除される。確率的勾配降下法(SGD)、Adamなど、バックプロパゲーション用のよく知られた任意の最適化アルゴリズムを使用できる。
【0081】
図8は、実施形態による、NNトレーニングのためのシステムを含む環境の例のブロック図である。このシステムは、1つまたは複数の実施形態によるサイバーセキュリティの解決のトレーニングを支援することができる。このシステムは、処理ノード810を使用してトレーニングされる人工NN(ANN)805を含む。処理ノード810は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)または他の処理回路であり得る。例では、複数の処理ノードを使用して、ANN805の異なる層、または層内の異なるノード807さえもトレーニングすることができる。したがって、一組の処理ノード810は、ANN805のトレーニングを実行するように構成される。
【0082】
処理ノード810のセットは、ANN805のトレーニングセット815を受信するように構成される。ANN805は、層状に配置されたノード807のセット(ノード807の行として図示)と、ノードのセットのノード間のノード間重み808(例えば、パラメータ)のセットとを備える。例では、トレーニングセット815は、完全なトレーニングセットのサブセットである。ここで、サブセットにより、限られたストレージリソースを持つ処理ノードがANN805のトレーニングに参加できるようになり得る。
【0083】
トレーニングデータには、単語、記号、他の品詞などのドメインを表す複数の数値が含まれ得る。ANN805がトレーニングされると分類されるトレーニングまたは入力817の各値は、ANN805の第1層または入力層の対応するノード807に提供される。値は層を介して伝播し、目的関数によって変わる。
【0084】
上で述べたように、処理ノードのセットは、ニューラルネットワークをトレーニングしてトレーニングされたニューラルネットワークを作成するように構成される。例えば、トレーニングされると、ANNに入力されたデータは有効な分類820を生成する(例えば、入力データ817はカテゴリに割り当てられる)。処理ノード807のセットによって実行されるトレーニングは反復的である。例では、ニューラルネットワークのトレーニングの各反復は、ANN805の層間で独立して実行される。したがって、2つの異なる層は、処理ノードのセットの異なるメンバーによって並行して処理され得る。例では、ANN805の異なる層が異なるハードウェアでトレーニングされる。処理ノードのセットの異なるメンバーのメンバーは、異なるパッケージ、ハウジング、コンピュータ、クラウドベースのリソースなどに配置され得る。例では、トレーニングの各反復は、ノードのセット内のノード間で独立して実行される。この例は、個々のノード407(例えばニューロン)が独立してトレーニングされる追加の並列化である。例では、ノードは異なるハードウェアでトレーニングされる。
【0085】
図9は、例として、マシンに本明細書に説明される方法の任意の1つ以上を実行させるための命令が実行され得るコンピュータシステム900の例示的な形式のマシンの一実施形態のブロック図を示す。ネットワーク化された配置では、マシンは、サーバ-クライアントのネットワーク環境においてサーバまたはクライアントマシンという立場で、またはピアツーピア(もしくは分散)ネットワーク環境においてはピアーマシンとして動作し得る。マシンは、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、ネットワークスイッチ、もしくはネットワークブリッジ、またはそのマシンが取るべき行動を指定する命令(順次またはそれ以外の方法で)を実行することが可能な任意のマシンであってよい。さらに、単一のマシンのみが示されるが、用語「マシン」はまた、本明細書で説明される方法の任意の1つ以上を実行するための命令の1つのセット(または複数のセット)を個別にまたは共同で実行するマシンの任意の集合体を含むと解釈されるものとする。
【0086】
例示的なコンピュータシステム900は、バス908を介して互いと通信するプロセッサ902(例えば、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、または両方)、メインメモリ904、及びスタティックメモリ906を含む。コンピュータシステム900は、ビデオディスプレイユニット910(例えば、液晶ディスプレイ(LCD)または陰極線管(CRT))をさらに含み得る。コンピュータシステム900はまた、英数字入力装置912(例えば、キーボード)、ユーザーインターフェース(UI)ナビゲーションデバイス914(例えば、マウス)、大量記憶装置916、信号発生装置918(例えば、スピーカ)、ネットワークインターフェースデバイス920、ならびにブルートゥース(登録商標)、WWAN、WLAN、及びNFCなどの無線930を含み、そのようなプロトコルに対するセキュリティ管理の適用を可能にする。
【0087】
大量記憶装置916は、本明細書に説明される方法または機能の任意の1つまたは複数を具現化するまたはそれらによって利用される命令及びデータ構造(例えば、ソフトウェア)924の1つまたは複数のセットが格納される機械可読媒体922を含む。命令924はまた、コンピュータシステム900によるその実行中に、メインメモリ904内に、及び/またはプロセッサ902内に、完全にまたは少なくとも部分的に常駐し得、メインメモリ904及びプロセッサ902はまた、機械可読媒体を構成する。
【0088】
機械可読媒体922は単一の媒体であると例示的な実施形態には示されているが、用語「機械可読媒体」は、1つまたは複数の命令またはデータ構造を格納する単一の媒体または複数の媒体(例えば、集中型または分散型データベース、及び/または関連するキャッシュ及びサーバ)を含み得る。用語「機械可読媒体」はまた、マシンによる実行のための命令を格納、符号化、または搬送することができ、マシンに本発明の方法の任意の1つ以上を実行させるか、そのような命令によって利用されるか、もしくはそのような命令に関連するデータ構造を格納、符号化、または搬送することができる、任意の有形媒体を含むと解釈されるものとする。用語「機械可読媒体」は、相応して、ソリッドステートメモリ、ならびに光媒体及び磁気媒体を含むが、これらに限定されないと解釈されるものとする。機械可読媒体の具体的な例は、例として、例えば消去可能なプログラム可能な読み取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、及びフラッシュメモリデバイスなどの半導体メモリデバイスを含む不揮発性メモリ、内蔵ハードディスク及びリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROM及びDVD-ROMディスクを含む。
【0089】
命令924は、さらに、伝送媒体を使用して通信ネットワーク926を介して送信または受信され得る。命令924は、ネットワークインターフェースデバイス920及びいくつかの周知の転送プロトコル(例えば、HTTP)のいずれか1つを使用して伝送され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、インターネット、携帯電話網、従来型の電話サービス(POTS)ネットワーク、及び無線データネットワーク(例えば、WiFiネットワーク及びWiMaxネットワーク)を含む。用語「伝送媒体」は、マシンによる実行のための命令を格納、符号化、または搬送できる任意の無形媒体を含むとして解釈されるものとし、デジタル通信信号もしくはアナログ通信信号またはそのようなソフトウェアの通信を容易にするための他の無形媒体を含む。
【0090】
追加の注記及び例
例1は、ベイジアンニューラルネットワーク(BNN)をトレーニング及び操作するための方法であって、集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、前記パラメータの前記最適化された分布と前記NNの各々からの予測を使用して予測分布を決定すること、及び前記予測分布を表す周辺化分布をもたらすこと、を含む、前記方法を含む。
【0091】
例2では、例1はさらに、トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるDaum-Huangダウムファン粒子フィルタで使用される粒子流技術を含むことを含むことができる。
【0092】
例3では、例1~2のうちの少なくとも1つはさらに、前記粒子のセット内の各粒子は、集合的に前記BNNのパラメータの前記分布を表す前記NNのインスタンス化のすべてのNNネットワークパラメータを表すことを含むことができる。
【0093】
例4では、例1~3のうちの少なくとも1つはさらに、トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含むことを含むことができる。
【0094】
例5では、例1~4の少なくとも1つはさらに、トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含むことを含むことができる。
【0095】
例6では、例5は、トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含むことをさらに含むことができる。
【0096】
例7では、例6はさらに、前記対角線近似が、重みごとにガウスニュートン近似を実行することを含むことを含むことができる。
【0097】
例8は、マシンによる実行時に、前記マシンにベイジアンニューラルネットワーク(BNN)をトレーニング及び操作するための操作を実行させる命令を含む非一時的な機械可読媒体であって、前記操作が、集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、前記パラメータの前記最適化された分布と前記NNの各々からの予測を使用して予測分布を決定すること、及び前記予測分布を表す周辺化分布をもたらすこと、を含む、前記非一時的な機械可読媒体を含む。
【0098】
例9では、例8はさらに、トレーニング粒子流には、Daum-Huang粒子フィルタで使用される粒子流技術が含まれており、内部状態と測定値がそれぞれ重みと真理値に置き換えられることをさらに含むことができる。
【0099】
例9では、例8は、トレーニング粒子流には、Daum-Huang粒子フィルタで使用される粒子流技術が含まれており、内部状態と測定値がそれぞれ重みと真理値に置き換えられることをさらに含むことができる。
【0100】
例10では、例8~9のうちの少なくとも1つは、前記粒子のセット内の各粒子は、集合的に前記BNNのパラメータの前記分布を表す前記NNのインスタンス化のすべてのNNネットワークパラメータを表すことをさらに含むことができる。
【0101】
例11では、例8~10のうちの少なくとも1つは、トレーニング粒子流は、対数ホモトピーに沿った反復的に進化するネットワークパラメータ値を含むことをさらに含むことができる。
【0102】
例12では、例8~11のうちの少なくとも1つは、前記トレーニング粒子流れは、前記粒子のドリフトと拡散を決定する際のヘッセ行列の行列へのガウスニュートン近似の使用が含まれることをさらに含むことができる。
【0103】
例13では、例12は、トレーニング粒子流は、前記ガウスニュートン近似への対角近似の使用を含むことをさらに含むことができる。
【0104】
例14では、例13は、前記対角近似は、重みごとにガウスニュートン近似を実行することを含むことをさらに含むことができる。
【0105】
例15は、デバイスであって、格納された命令を含むメモリデバイスと、前記メモリデバイスに接続された処理回路であって、前記処理回路によって実行されるとき、前記処理回路にベイジアンニューラルネットワーク(BNN)をトレーニング及び操作させるための操作を実行させる命令を実行させるよう構成され、前記操作は、集合的に前記BNNのパラメータの分布を表すNNのそれぞれのNNパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、前記パラメータの前記最適化された分布と前記NNの各々からの予測を使用して予測分布を決定すること、及び前記予測分布を表す周辺化分布をもたらすこと、を含む、前記処理回路を含む、前記デバイスを含む。
【0106】
例16では、例15は、トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるDaum-Huangダウムファン粒子フィルタで使用される粒子流技術を含むことをさらに含むことができる。
【0107】
例17では、例15~16のうちの少なくとも1つは、前記粒子のセット内の各粒子は、集合的に前記BNNのパラメータの前記分布を表す前記NNのインスタンス化のすべてのNNネットワークパラメータを表すことをさらに含むことができる。
【0108】
例18では、例15~17のうちの少なくとも1つは、トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含むことをさらに含むことができる。
【0109】
例19では、例15~18のうちの少なくとも1つは、トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含むことをさらに含むことができる。
【0110】
例20では、例19は、トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含み、前記対角近似は、重みごとにガウスニュートン近似を実行することを含むことをさらに含むことができる。
【0111】
実施形態は、特定の例示的な実施形態を参照して説明されてきたが、本発明のより広い趣旨及び範囲から逸脱することなく、これらの実施形態に対して様々な修正及び変更を加え得ることが明らかとなるであろう。したがって、明細書及び図面は、限定する意味ではなく例示的と見なされるべきである。本明細書の一部を形成する添付の図面は、本主題が実施され得る特定の実施形態を限定ではなく例示として示す。図示の実施形態は、当業者が本明細書に開示された教示を実践することを可能にするために十分に詳細に説明されている。他の実施形態が利用され、そこから導き出され得るため、構造的及び論理的な置換及び変更が本開示の範囲から逸脱することなく加えられ得る。したがって、本発明を実施するための形態は、限定的な意味で解釈されるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲によってのみ定義され、そのような特許請求の範囲が権利を与えられている均等物の全範囲と共に定義される。
【国際調査報告】