特表2024-541007 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ レイセオンカンパニーの特許一覧

特表2024-541007ベイジアンニューラルネットワークの粒子流トレーニング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-06

(54)【発明の名称】ベイジアンニューラルネットワークの粒子流トレーニング

(51)【国際特許分類】

G06N 3/047 20230101AFI20241029BHJP

G06N 7/01 20230101ALI20241029BHJP

【ＦＩ】

G06N3/047

G06N7/01

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024524586

(86)(22)【出願日】2022-10-25

(85)【翻訳文提出日】2024-06-06

(86)【国際出願番号】 US2022047732

(87)【国際公開番号】W WO2023076273

(87)【国際公開日】2023-05-04

(31)【優先権主張番号】17/509,270

(32)【優先日】2021-10-25

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】524059674

【氏名又は名称】レイセオンカンパニー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】ベイカー，スザンヌエム．

(72)【発明者】

【氏名】アレルト，アンドリューシー．

(72)【発明者】

【氏名】サルプカス，マイケルアール．

(72)【発明者】

【氏名】ダウム，フレデリックイー．

(57)【要約】

ベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作するためのデバイス、システム、及び方法が、本明細書で論じられる。方法は、集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、パラメータの最適化された分布とＮＮの各々からの予測を使用して予測分布を決定すること、及び予測分布を表す周辺化分布をもたらすこと、を含み得る。
【選択図】図１

【特許請求の範囲】

【請求項1】

ベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作するための方法であって、
集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、
トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、
前記パラメータの前記最適化された分布と前記ＮＮの各々からの予測を使用して予測分布を決定すること、及び
前記予測分布を表す周辺化分布をもたらすこと、を含む、前記方法。

【請求項2】

トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるＤａｕｍ－Ｈｕａｎｇ粒子フィルタで使用される粒子流技術を含む、請求項１に記載の方法。

【請求項3】

前記粒子のセット内の各粒子は、集合的に前記ＢＮＮのパラメータの前記分布を表す前記ＮＮのインスタンス化のすべてのＮＮネットワークパラメータを表す、請求項１に記載の方法。

【請求項4】

トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含む、請求項１に記載の方法。

【請求項5】

トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含む、請求項１に記載の方法。

【請求項6】

トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含む、請求項５に記載の方法。

【請求項7】

前記対角近似が、重みごとにガウスニュートン近似を実行することを含む、請求項６に記載の方法。

【請求項8】

マシンによる実行時に、前記マシンにベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作するための操作を実行させる命令を含む非一時的な機械可読媒体であって、前記操作が、
集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、
トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、
前記パラメータの前記最適化された分布と前記ＮＮの各々からの予測を使用して予測分布を決定すること、及び
前記予測分布を表す周辺化分布をもたらすこと、を含む、前記非一時的な機械可読媒体。

【請求項9】

トレーニング粒子流には、Ｄａｕｍ－Ｈｕａｎｇ粒子フィルタで使用される粒子流技術が含まれており、内部状態と測定値がそれぞれ重みと真理値に置き換えられる、請求項８に記載の非一時的な機械可読媒体。

【請求項10】

前記粒子のセット内の各粒子は、集合的に前記ＢＮＮのパラメータの前記分布を表す前記ＮＮのインスタンス化のすべてのＮＮネットワークパラメータを表す、請求項８に記載の非一時的な機械可読媒体。

【請求項11】

トレーニング粒子流は、対数ホモトピーに沿った反復的に進化するネットワークパラメータ値を含む、請求項８に記載の非一時的な機械可読媒体。

【請求項12】

前記トレーニング粒子流れは、前記粒子のドリフトと拡散を決定する際のヘッセ行列の行列へのガウスニュートン近似の使用が含まれる、請求項８に記載の非一時的な機械可読媒体。

【請求項13】

トレーニング粒子流は、前記ガウスニュートン近似への対角近似の使用を含む、請求項１２に記載の非一時的な機械可読媒体。

【請求項14】

前記対角近似は、重みごとにガウスニュートン近似を実行することを含む、請求項１３に記載の非一時的な機械可読媒体。

【請求項15】

デバイスであって、
格納された命令を含むメモリデバイスと、
前記メモリデバイスに接続された処理回路であって、前記処理回路によって実行されるとき、前記処理回路にベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作させるための操作を実行させる命令を実行させるよう構成され、前記操作は、
集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、
トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、
前記パラメータの前記最適化された分布と前記ＮＮの各々からの予測を使用して予測分布を決定すること、及び
前記予測分布を表す周辺化分布をもたらすこと、を含む、前記処理回路を含む、前記デバイス。

【請求項16】

トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるＤａｕｍ－Ｈｕａｎｇダウムファン粒子フィルタで使用される粒子流技術を含む、請求項１５に記載のデバイス。

【請求項17】

前記粒子のセット内の各粒子は、集合的に前記ＢＮＮのパラメータの前記分布を表す前記ＮＮのインスタンス化のすべてのＮＮネットワークパラメータを表す、請求項１５に記載のデバイス。

【請求項18】

トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含む、請求項１５に記載のデバイス。

【請求項19】

トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含む、請求項１５に記載のデバイス。

【請求項20】

トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含み、前記対角近似は、重みごとにガウスニュートン近似を実行することを含む、請求項１９に記載のデバイス。

【発明の詳細な説明】

【技術分野】

【0001】

優先権の主張
本出願は、参照によりその全体が本明細書に組み込まれる、２０２１年１０月２５日に出願された米国特許出願第１７／５０９，２７０号に対する優先権の利益を主張する。

【0002】

本明細書で論じられる実施形態は、ミニバッチ粒子流を使用してベイジアンニューラルネットワーク（ＮＮ）をトレーニングするためのデバイス、システム、及び方法に関する。

【背景技術】

【0003】

ほとんどのＮＮは、直接的な不確実性のメトリクスや信頼度を持たずに点推定を行う。標準的なＮＮは、オープンセットでのパフォーマンスが比較的低い場合もある。ベイジアンＮＮ（ＢＮＮ）は重みの統計的分布を学習し、決定の不確実性と信頼性を決定できる統計的環境を提供する。ＢＮＮの既存のトレーニング手法には、ハミルトニアンモンテカルロ、変分推論（モンテカルロと決定論の両方）、確率的逆伝播、及び標準粒子フィルタが含まれる。これらのトレーニング方法は計算コストが高く、トレーニングには比較的大量のデータが必要である。

【図面の簡単な説明】

【0004】

【図1】例として、標準的なＤＬアーキテクチャとＢＮＮを対比したブロック図を示す。

【図2】例として、ＮＮの実施形態の図を示す。

【図3】例として、トレーニング粒子流を使用するＮＮトレーニング手順の実施形態の流れ図を示す。

【図4】例として、トレーニング前にＢＮＮによって行われたそれぞれの予測のヒストグラムを示す。

【図5】例として、トレーニング粒子流を使用した１２０のトレーニング更新後にＢＮＮによって行われたそれぞれの予測のヒストグラムを示す。

【図6】例として、選択されたＦａｓｈｉｏｎ－ＭＮＩＳＴサンプルを入力としてＢＮＮによって行われたそれぞれの予測のヒストグラムを示す。

【図7】例として、トレーニング粒子流を使用してトレーニングされたＢＮＮへのＭＮＩＳＴ入力と、トレーニング粒子流を使用してトレーニングされたＢＮＮへのＦａｓｈｉｏｎ－ＭＮＩＳＴ入力の分散を表すヒストグラムを示す。

【図8】実施形態による、ＮＮトレーニングのためのシステムを含む環境の例のブロック図である。

【図9】例として、マシンに本明細書に説明される方法の任意の１つ以上を実行させるための命令が実行され得るコンピュータシステムの例示的な形式のマシンの実施形態のブロック図を示す。

【発明を実施するための形態】

【0005】

実施形態は、トレーニング及びオープンセット検出にスパースデータセットを使用して良好に実行することを優先して、トレーニングされたネットワークにおける予測及び対応する不確実性を提供する問題に取り組む。ディープラーニング（ＤＬ）は、自律性を実現する手段として、いくつかの業界で広く採用されている。業界の例は、自動運転車、医療診断、バイオインフォマティクス、製造、レーダーを含む。ＤＬは一部のタスクで最先端のパフォーマンスを実証しているが、不確実性の定量化は依然として世界的な課題であり、活発な研究分野である。タスクの例には、コンピュータービジョン、音声認識、及び自然言語処理を含む。意思決定における不確実性の定量化は、自動化するあらゆる業界にとって、特に一か八かという状況において重要である。不確実性の定量化は自信過剰な意思決定を減らすのに役立ち得るだけでなく、コンピュータがより現実的な人間の反応を選択するのにも不確実性の定量化は役立ち得る。より現実的な人間の反応は、人間と対話するいずれかの自動システムまたは人間が占拠する環境に役立ち得る。

【0006】

図１は、例として、標準的なＤＬアーキテクチャ１０２とＢＮＮ１０４を対比したブロック図を示す。標準的なＤＬアーキテクチャは、モデル予測（出力１０８）及びネットワークパラメータ（ノードの重み１１２）の点推定をする。このようなＤＬアーキテクチャ１０２では、不確実性を定量化するための直接的な手段が得られない。その代わりに、標準的なＤＬアーキテクチャ１０２は、不確実性を推定するための間接的な方法に依存する。一般的な方法には、エントロピー及び信頼スコアと関数の使用、及びアプリケーション固有の方法が含まれる。ベイジアンＤＬアーキテクチャ１０４と統計的手法は、不確実性を定量化するためのより自然な状況をもたらす傾向がある。

【0007】

ＢＮＮは少なくとも１９９２年から研究されており、成長し続けている分野である。ＢＮＮ技術は、ＮＮにおける重みの事後確率分布（ノード１１４の分布）を解くためのガイドとしてベイズの定理を使用する。ＤＬタスクのベイズの定理を解く計算の難しさは、ＮＮの重みの事後分布を推定するための多数のアプローチの開発につながった。ＢＮＮ最適化のよく知られたアプローチは、ハミルトニアンモンテカルロ、モンテカルロ変分推論、決定論的変分推論、確率的逆伝播（ＰＢＰ）を含む。

【0008】

ＢＮＮ１０４の出力１１０は、出力１０８としてクラスごとのスコアを提供するＮＮ１０２の出力と比較したクラスごとの分布である。出力１１０の分布は、ノード１１４の活性化関数を表すために、ノード１１２のようなスカラー重みの代わりに分布（「ｄｉｓｔ．」）を使用することの自然な結果であり得る。

【0009】

ディープアンサンブルと確率的正則化手法は、ＤＬにおける不確実性を推定する方向に向けた代替アプローチを提供する。これらの手法はベイズの定理を最適化するものではないが、ＢＮＮの数分の１の計算コストで予測不確実性を計算するための統計的環境をもたらす。これらの統計手法は、不確実性を定量化するための様々なアプリケーションで使用されている。

【0010】

既存のベイジアンＮＮと統計的アプローチに共通するテーマは、非常に大規模なトレーニングセットと数千エポックにわたるトレーニングである。ただし、現実世界のデータセットは一般的にまばらであり、数千のパラメータを使用して一般的なＮＮをトレーニングするには不十分な場合がある。実施形態は、不確実性を定量化することができ、また、疎なデータセットの制限内及び開集合問題に対して堅牢に実行できるＮＮアーキテクチャを提供する。

【0011】

実施形態は、粒子フィルタで一般的に使用されるが、ＢＮＮをトレーニングするために変更及び再利用される、変更された形式の粒子流技術を使用する。粒子流の方法の変更された形式を、本明細書では「トレーニング粒子流」と呼ぶ。粒子流は、ベイズの定理を最適化するための方法であり、（これまで）粒子フィルタリングのコンテキストでのみ使用されてきた。粒子フィルタリングに関連した粒子流の数値実験では、標準的な粒子フィルタや同じフィルタ精度の他の最先端のアルゴリズムと比較して、粒子流により計算の複雑さが何桁も軽減され得ることが示されている。さらに、粒子流は、拡張カルマンフィルタや、困難な非線形非ガウス問題に対するその他の最先端のアルゴリズムと比較して、フィルタ誤差を何桁も減らすことができる。

【0012】

最近、ＮＮを最適化するための粒子法が登場したが、粒子流を使用してＢＮＮを最適化することは、本発明者らの知る限りこれまで行われていなかった。ＭＮＩＳＴ｛０，１｝を使用して分類タスクを実行するようにトレーニングされたＢＮＮの結果は、非常に少ないトレーニングサンプルで高い予測精度を示している。さらに、分類タスクを実行するようにトレーニングされたＢＮＮは、ネットワーク予測の分散を使用して予測の不確実性を測定する強力な機能を備えていた。

【0013】

粒子流
内部状態ｓと測定値ｍを持つシステムを検討する。ベイズの定理は、以下に従って、測定値ｐ（ｓ│ｍ）が与えられた状態の事後確率を、状態の事前分布ｐ（ｓ）と、状態が与えられた測定値の尤度ｐ（ｍ│ｓ）に関連付ける。

【数1】

【0014】

ここで、ｐ（ｍ）＝∫ｐ（ｍ│ｓ）ｐ（ｓ）ｄｓは正規化定数として動作する証拠である。測定値ｍは、内部状態がどのようなものであるか、または内部状態がどのようになるかを特徴付けるのに役立つ量である。一連のノイズの多い測定値｛ｍ｝を含む一般的なマルコフプロセスが与えられると、粒子フィルタはベイズの定理を指針として使用してシステムの内部状態（複数可）｛ｓ｝を推定する方法を提供する。

【0015】

粒子流は、各測定ごとに内部状態の最適な事後分布を推定するために粒子フィルタリングのコンテキストで使用される方法である。粒子流は、対数ホモトピーに沿って事前分布を事後分布に進化させることにより、ベイズの定理を最適化する。

【数2】

【0016】

一方の連続関数をもう一方の連続関数に「連続的に変形」できる場合、それぞれの空間内の２つの連続関数はホモトピックと呼ばれる。このように変形され得る関数間にホモトピーが存在する。

【0017】

ここでＫ（λ，ｍ）＝∫ｐ（ｍ│ｓ）^λｐ（ｓ）ｄｓは、各λの事後分布ｐ（ｓ，λ│ｍ）を正規化する。スカラーホモトピーパラメータλ＝［０，１］は、特定の測定値ｍについて、分布を事前分布から事後分布に進化させる。各粒子は、システムの内部状態ｓの単一の実現を表す。対数ホモトピーに沿った粒子の流れは、以下の確率微分方程式（ＳＤＥ）によって記述される。

【数3】

【0018】

式中、

【数4】

はドリフト速度、Ｂは拡散行列、ｄＷはウィーナー過程の微分である。

【0019】

粒子の事後分布の進化は、フォッカー・プランク方程式（拡散二乗行列はＱ_ｉｊ＝Σ_ｋＢ_ｉｋＢ_ｊｋとして定義される）によって特徴付けることができる。

【数5】

【0020】

ここで、式（４）に書かれた勾配と微分は、デカルト座標に関するものである。ただし、式（４）は偏導関数を適切に変換することで、任意の最適な直交座標系で使用できる。

【0021】

ドリフト速度

【数6】

と拡散行列Ｑの様々な解は、事前関数形式と尤度関数形式の特定の選択、または進化が決定論的か確率的かどうかについて発見されている。ドリフト速度と拡散行列のグロモフ解は次のとおりである。

【数7】

【数8】

【0022】

式中、

【数9】

はヘッセ行列である。ヘッセ行列は、変数関数の局所曲率を記述するスカラー値の関数の２次偏導関数の正方行列である。拡散行列のグロモフ解では、ガウス関数形式を持つ事前確率と尤度、及びガウスホワイトノイズによる測定値と状態の間の線形関係が必要である。

【0023】

測地線解は、ドリフト速度と拡散なし（つまりＱ＝０）についてグロモフ解を仮定する。ただし、これは式２と式４を同時に満たさない。曲率ゼロの解は、粒子がλを変化させても加速せず、拡散項はない（すなわち、Ｑ＝０）と仮定する。この解のドリフト速度はグロモフドリフト速度に比例する。

【0024】

ＤＬ及び教師あり学習タスク
ＤＬは、一連のノード層を使用して、教師あり、半教師あり、または教師なし学習タスクのデータの高次表現を学習するＭＬの分岐である。説明される実施形態は教師あり学習タスクに焦点を当てているが、実施形態は尤度関数を定義できる任意の学習タスクに適用することができる。

【0025】

教師あり学習タスクでは、ディープＮＮ（ＤＮＮ）を使用して、回帰または分類の入力データと出力データの間の関係を学習できる。回帰タスクの場合、ＮＮは入力データに因果関係がある従属変数pを予測できる。分類タスクの場合、ネットワークは特定のクラスの確率p_{_j}を予測する。「確率」という言葉は、ここでは少し誤称である。分類タスクでは多くの場合、出力層でＳｏｆｔＭａｘ活性化関数を使用して、その要素の合計が１になるベクトルを生成する。この出力はクラス確率のセットを表すが、これらの「確率」は必ずしもネットワークの実際の精度に対して十分較正されているとは限らない。この意味で、出力確率は、各クラスの正規化されたスコアとしてより正確に理解できる。トレーニング中に、入力データの対応する真理クラスまたは真理値ｙ_Ｔに対してＮＮ予測を評価でき、選択した最適化スキームを使用してネットワークの重みを調整できる。

【0026】

「尤度」関数は、ＤＬの多くの勾配ベースの最適化手法で使用される。回帰タスクの場合、ＮＮ重みθ＝｛θ_ｉ｝とネットワーク予測ｐが与えられた場合の真理変数ｙ_Ｔの尤度Ｌは、通常、正規分布によってモデル化される。

【数10】

【0027】

ここでΣは、真実ｙ_Ｔと予測ｐの間の誤差をスケールする共分散行列であり、指数ｋはｙ_Ｔの次元を表す。この尤度関数は、予測ｐと真実ｙ_Ｔの間のガウスホワイトノイズの不一致を前提としている。対応する対数尤度は次のように与えられる。

【数11】

【0028】

これは、Σが単位行列である場合の平均二乗誤差（ＭＳＥ）を思い出させる。

【0029】

分類タスクの場合、カテゴリカルな分布は、予測クラス確率ｐ_ｊ、ｊ∈［１ｎ_クラス］及びＮＮ重みθを所与とした入力の真のクラスｙ_Ｔの尤度Ｌを表す。

【数12】

【0030】

ここで、ｙ_Ｔ＝｛ｙ_Ｔｊ｝は、像の真理クラスのワンホットエンコードされたベクトル、またはソフトラベルを使用している場合は合計が１になる非バイナリベクトルである。対応する対数尤度は、クロスエントロピー関数の負の値である。

【数13】

【0031】

ＢＮＮをトレーニングするための粒子流のマッピング
図２は、例として、ＮＮ２００の実施形態の図を示す。ＮＮ２００は、Ｌ層のノードを含む。Ｌ層ＮＮ、Λ_θには、すべての重みとバイアスを含むネットワークパラメータθ＝｛θ_ｊ｝＝｛Ｗ^１，ｂ^１，Ｗ^２，ｂ^２，…，Ｗ^Ｌ，ｂ^Ｌ｝の集合がある。ＮＮ２００は合計のＮ_{パラメータ}パラメータを有し、ネットワークパラメータθはＮ_{パラメータ}次元ベクトルθ∈Ｒ^{Ｎパラメータ}になる。

【0032】

一般的な教師あり学習タスクでは、トレーニングデータの集合Ｄ＝｛Ｘ，Ｙ_Ｔ｝を使用して、ＮＮ２００をトレーニングする。ここで、Ｘ＝｛ｘ_ｊ｝はすべての入力の集合であり、Ｙ_Ｔ＝｛ｙ_Ｔ，ｊ｝はＸが与えられたすべての真理値の対応する集合である。各ＮＮ予測ｐ_ｊは、データ

【数14】

に対する一連の２Ｌ組成の結果である。

【数15】

【0033】

式中、σはノードの各層の活性化関数を表し、ｇは各層のノードでのアフィン変換を表す。

【0034】

ＢＮＮの目標は、ベイズの定理を使用して、データを与えられたネットワークパラメータｐ（θ│Ｄ）の最適な事後分布を学習することである。

【数16】

ここでｐ（θ）はネットワークパラメータの事前分布を表し、｛θ_ｊ｝，Ｌ（Ｙ_Ｔ│θ，Ｘ）＝Ｌ（Ｙ_Ｔ│Λ_θ（Ｘ））はＮＮ予測Ｐ＝Λ_θ（Ｘ）を考慮した真理値Ｙ_Ｔの尤度を記述する（式（７）及び式（９）を参照）。式（１２）の正規化係数は、ｐ（Ｙ_Ｔ│Ｘ）＝∫Ｌ（Ｙ_Ｔ│θ，Ｘ）ｐ（θ）ｄθとして定義される。

【0035】

式（１２）の右辺は、事後確率

【数17】

の完全な式の縮小から得られ、式中分母は証拠ｐ（｛Ｘ，Ｙ_Ｔ｝）＝∫Ｌ（Ｙ_Ｔ│θ，Ｘ）ｐ（Ｘ│θ）ｐ（θ）ｄθであることに留意されたい。ネットワークパラメータθに対する入力Ｘの条件付き独立性を考慮すると、条件付き確率はｐ（Ｘ│θ）＝ｐ（Ｘ）ｐ（θ）になる。これを事後確率の完全な式に代入すると、式（１２）の右辺が再現される、

【数18】

【0036】

実施形態は、粒子フィルタリングコンテキストで使用される粒子流をＤＬコンテキストにマッピングし、式（１２）においてそれぞれネットワークパラメータθと真理値Ｙ_Ｔに対して式（１）の内部状態｛ｓ｝と測定値｛ｍ｝を等しくすることによって、トレーニング粒子流をもたらす。これらの等式の下で、各粒子は今やネットワークパラメータ｛θ_ｊ｝の単一の実現を表す。トレーニング粒子流は、ホモトピースカラーλを使用してＮＮのネットワークパラメータ｛θ_ｊ｝の値を進化させる。内部状態ｓが与えられた場合の各測定値ｍの尤度は、入力データＸに基づくネットワーク２００の予測Ｐが与えられた場合の真理値の尤度Ｙ_Ｔで置き換えられる。ＤＬコンテキストでは、各粒子はネットワークパラメータ｛θ_ｊ｝の単一の実現を表す。

【0037】

粒子フィルタリングコンテキストで使用される粒子流のトレーニング粒子流へのマッピングは、式（１３）から式（１５）に数学的に説明される。

【数19】

ｍ→Ｙ_Ｔ（式１４）

【数20】

【0038】

式（３）で与えられる対数ホモトピー制約は、
ｌｏｇｐ（θ，λ│｛Ｘ，Ｙ_Ｔ｝）＝λｌｏｇＬ（Ｙ_Ｔ│θ，Ｘ）＋ｌｏｇｐ（θ）－ｌｏｇｐ（λ，│Ｘ）Ｙ_Ｔ（式１６）

【0039】

ここで、スカラーホモトピーパラメータ
（外１）

は、
（外２）

におけるこれらの項の分散を指定するために、事後分布と正規化係数の表記に追加された。式（４）に書かれた対応する勾配と導関数は、今や、トレーニング粒子流のためのネットワークパラメータに関するものである。

【数21】

【0040】

式１８は、グロモフ方程式を使用したトレーニング粒子流におけるドリフト速度の数学的な表現を示す。

【数22】

【0041】

グロモフ方程式は、Ｌ≧１層、様々な活性化関数、及び任意の事前関数形式と尤度関数形式を備えたアーキテクチャに対してよく一般化する。しかし、式（１８）は、ＮＮ２００が線形活性化関数

【数23】

の単一層を有し、事前確率及び尤度はガウス関数形式を有し、Ｑが式（６）によって与えられるとき、式（１６）～（１７）のみを満たす。

【0042】

式１９は、粒子流トレーニングで使用される一定拡散行列の数学的表現を提供する。
Ｑ＝αＩｄ（式１９）

【0043】

ここで、α∈Ｒ_０は正の実数、Ｉｄは単位行列である。一定の拡散行列は、数値の安定性をもたらすのに役立ち得る。さらに、少量のノイズを追加すると、ネットワークトレーニングが極小値に陥るのを防ぐことができる。小さな指数関数的減衰係数を拡散マトリックスに追加して、重みの更新回数の増加に伴うノイズの影響を軽減することもできる。
Ｑ＝αｅｘｐ［β（更新＃）］Ｉｄ
（式２０）

【0044】

式中、β＞０は減衰率を表す。

【0045】

トレーニング粒子流を使用したＮＮトレーニング手順
図３は、例として、トレーニング粒子流を使用するＮＮトレーニング手順の実施形態の流れ図を示す。この手順には、初期化３２０、トレーニング粒子流最適化３２２、及び予測３２４が含まれる。

【0046】

初期化３２０は、操作３２６において、尤度及び事前の関数形式をユーザが選択すること、またはコンピュータが自動的にインスタンス化することを含む。初期化３２０は、操作３２８での、選択された事前分布ｐ（θ）をサンプリングすることを含む。サンプリングは、最適化３２２で最適化されたＮＮの各実現を初期化する。操作３２６で事前分布として多変量正規分布が選択された場合、対応するヘッセ行列は単純な分析形式になる。
ｐ（θ）～Ｎ（θ；μ，Γ）（式２０）

【数24】

【0047】

式中、μは平均ベクトル、Γは共分散行列である。平均により、ネットワークパラメータの値に初期オフセットが追加される。簡単にするため、また不正なオフセットの追加を避けるために、平均を０に設定できる。ただし、オフセットを知って使用することはできる。Γの値は、各ネットワークパラメータの初期の広がりと潜在的な相関関係を特徴付ける。値は、高速学習を促進するのに十分な大きさでありながら、ネットワーク内の発散を防ぐのに十分な小さい値を選択できる。

【0048】

尤度関数については、式（７）または（９）が、教師あり学習タスクの種類に応じて使用できる。式（７）の残差共分散は、前の共分散と同様に選択することができる（例えば、学習を促進するが、発散を防ぐため）。粒子の数Ｎは、データに関する十分な統計を提供し、共分散行列の発散を回避するのに十分な大きさになるように選択できる。

【0049】

粒子流の最適化３２２は次のように説明できる。
トレーニングセット（ｘ_ｊ，ｙ_Ｔ，ｊ）∈Ｄの各データポイントについて（操作３３０でトレーニングセットからデータを選択する）：
現在の粒子の分布を以前の粒子の分布と同等にする。
粒子の事前分布の共分散、Γを計算する。
スカラーホモトピーパラメータλ＝［０，１］を繰り返しループする（操作３３２）
それぞれのλ_ｋ，ｋ＝１，２，…，Ｎ_λ－１について、
積分ステップサイズを計算する、
δλ＝λ_k＋１－λ_ｋ
各粒子｛θ_ｉ｝、ｉ＝１，２，３…，Ｎについて（操作３３４）
粒子の値を使用してデータ入力ｘ_ｊをネットワーク経由で渡し（操作３３４）、予測を取得する
ｐ_ｊ＝Λ_θi（ｘ_ｊ）
ネットワークパラメータに関する対数尤度の勾配とヘッセ行列を計算する（操作３３６）
ドリフトｆと拡散行列Ｑを計算する（操作３３８）
確率微分方程式（ＳＤＥ）（式１５）の数値積分を使用して粒子の状態を更新する（操作３４０）

【数25】

【0050】

操作３３０で、入力値と出力値のペアがデータセットから選択される。操作３３２において、操作３２２は、ホモトピーパラメータλの離散化ステップを反復する。操作３３４では、操作３２８からのＮ粒子状態のうちの粒子状態が選択され、選択されたＮＮを介してデータを渡すことができる。操作３３４の結果は予測となり得る。操作３３６で、勾配（導関数）及びヘッセ行列が計算される。ドリフトと拡散は、操作３３８で勾配とヘッセ行列に基づいて決定される。操作３４０で、粒子の状態が更新される。

【0051】

粒子流は数値の積分を使用して式（１５）を積分する。数値の積分のための操作３３２）におけるスカラーホモトピーパラメータλ＝｛λ_ｋ：ｋ∈［１，Ｎ_λ］｝の補間は、線形、対数、または適応スケールに基づくことができる。スカラーホモトピーパラメータの分割数Ｎ_λは、積分精度とアルゴリズムの効率によってバランスを取ることができる。ＳＤＥの数値積分にはいくつかの異なる方法があるが、計算効率を高めるためにオイラー丸山法を使用できる。

【0052】

予測３２４では、操作３４２で出力予測を提供することができる。新しい入力が与えられた場合の出力予測の周辺化された確率分布が操作３４４で決定される。新しい入力

【数26】

トレーニングデータＤ、及び粒子θが与えられた場合の出力予測

【数27】

の境界なし予測分布は次のようになる。

【数28】

【0053】

すべてのネットワーク実現θで式（２１）を周辺化することは、新しい入力

【数29】

とトレーニングデータＤが与えられた場合、出力予測

【数30】

の予測分布が得られる。

【数31】

【0054】

実施形態は、事後分布ｐ（θ│Ｄ）のモンテカルロサンプリングを使用して式（２２）を評価することができ、サンプリングはすべての粒子｛θ_ｉ｝にわたる。

【数32】

【0055】

見てわかるように、予測分布はネットワーク予測による事後分布の周辺化であり、ネットワークパラメータの合計である。

【0056】

ヘッセ行列近似
動作３３８におけるドリフト計算の一成分は、ネットワークパラメータに関する対数尤度のヘッセ行列である。完全なヘッセ行列は、最小のＮＮを除き、ほとんどすべてのＮＮにとって計算的に処理が困難である。ガウスニュートンヘッセ行列近似は、システムの完全なヘッセ行列を推定する効果的な手段を提供する。ヘッセ行列の行列要素は次のとおりである。

【数33】

【0057】

式中、ｐ_ｍ
はネットワーク予測のｍ番目の成分である。式（１１）に書かれているように、データの指数に対応している予測の添字は、簡単にするために省略されていることに留意されたい。

【0058】

回帰の場合Ｌ層ニューラルネットワークの出力は、従属変数ｐの予測である。式（７）で説明されている尤度を使用すると、式（２４）の対応するヘッセ項は、

【数34】

【0059】

式中、Σは尤度における真理値と予測との間の誤差をスケーリングする共分散行列である。

【0060】

分類の場合、Ｌ層ニューラルネットワークの出力は、クラス確率｛ｐｊ｝のセットである。真理クラスの予測されたクラス確率がゼロの場合、出力確率ｐ_ｍに対する対数尤度（式（９））の勾配は単一である。数値の不安定性を回避するために、ソフトマックスのアクティブ化の前に、Ｌ番目の層の出力に関して導関数
（外３）

を取得できる。

【0061】

【数35】

という分類ケースにおけるガウスニュートン近似のヘッセ行列項は、次のように評価される。

【数36】

【0062】

対角近似
計算コストを削減するために、ネットワークの重みごとにガウスニュートヘッセ行列近似を実行できる。ネットワークの重みごとのガウスニュートンヘッセ行列近似のこのパフォーマンスは、本明細書では「対角近似」と呼ばれる。対角近似では、ヘッセ行列の非対角要素がすべてゼロに設定される。ヘッセ行列の対角行列要素は次のとおりである。

【数37】

【0063】

式（２７）から、この近似により、ヘッセ行列のネットワークパラメータ間の相関がすべて除去されること明らかである。縮小ヘッセ行列、つまりネットワークパラメータ間のすべての相関が除去されたヘッセ行列は、この近似に従ってベクトル化でき、完全なヘッセ行列を格納するために必要なメモリが大幅に削減される。一貫性を保つために、事前の共分散［Γ_ｉｉ］（例えば、事前の分散）の対角要素のみを取得することによって、事前のすべての相関を削除できる。

【0064】

これらの近似の下で、ドリフト速度のベクトル成分は次のように単純化される。

【数38】

ドリフト速度は、行列の反転や乗算を行わずに完全に計算でき、対数尤度の勾配にスケーリングベクトルを掛けたアダマール積としてキャストできる（例えば、（Γ_ｉｉ ^－１－λＨ_θｉ）^-1。

【0065】

トレーニング粒子流がどのようにうまく機能するかを実証するために、問題のバイナリ分類の結果が提供される。「トレーニング」データは、ＭｏｄｉｆｉｅｄＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇｙ（ＭＮＩＳＴ）のデータベースからの数字のサブセット｛０，１｝の分類結果を含む。ＭＮＩＳＴデータベースは、ＹａｎｎＬｅＣｕｎ、ＣｏｒｉｎｎａＣｏｒｔｅｓ、及びＣｈｒｉｓｔｏｐｈｅｒＪ．Ｃ．Ｂｕｒｇｅｓによって、２つの別個のＮＩＳＴデータベースの画像を使用して作成された。ＭＮＩＳＴデータベースには、ｈｔｔｐ：／／ｙａｎｎ．ｌｅｃｕｎ．ｃｏｍ／ｅｘｄｂ／ｍｎｉｓｔ／からアクセスできる。これはバイナリ問題であるため、基本的な畳み込みネットワークアーキテクチャは２つの畳み込み層（それぞれに４つのフィルタのみ）とその後に続く高密度の出力層からなる。このネットワークには、合計２８６のネットワークパラメータ（つまり、合計の重みとバイアスの合計）がある。テストデータは、従来のＭＮＩＳＴテストセット（２桁の「０」と「１」に限定）からなる。これは合計２，１１５のテスト画像になる。

【0066】

対角近似を使用して粒子流方程式を近似することによって、ネットワークをトレーニングするために２００個の粒子を含むシミュレーションを実行することができる。これらの粒子はそれぞれ、初期共分散行列で初期化される。表２は、これらの結果を達成するために使用されたネットワークと粒子流の設定の概要を示している。

【表1】

【0067】

これらの初期化された粒子を使用したいくつかのテスト予測を見ることは有益である可能性がある。ネットワーク予測は、特定のクラスではなく、各クラスの確率であることに留意されたい。例えば、「１」の画像をネットワークに通過させた後の出力予測は、ｐ（０．２,０．８）であり、ネットワークが、画像は確率０．２でクラス「０」、確率０．８でクラス「１」であると予測することを意味している可能性がある。

【0068】

図４は、例として、トレーニング前にＢＮＮによって行われたそれぞれの予測のヒストグラムを示す。図４は、４つの入力のそれぞれについて、初期予測がおよそ５０／５０（予想通り）であることを示している。

【0069】

トレーニングプロセスは、クラスが交互になるように構築することができ、トレーニング粒子流技術では、「１」の画像を使用し、その後に「０」の画像を使用する、などにするようにする。このように交互にすることは、いずれかのクラスへの粒子の偏りを軽減するのに役立ち得る。この交互の手順は、複数のクラスのより一般的な場合に実行できることに留意されたい。

【0070】

図５は、例として、トレーニング粒子流を使用した１２０回のトレーニング更新後にＢＮＮによって行われたそれぞれの予測のヒストグラムを示す。これらの結果では、クラスごとにサンプル６０個しかないことに留意されたい。比較のために、標準的なＮＮは、クラスあたり約６，０００個のトレーニング画像からなるＭＮＩＳＴトレーニングデータセット全体を使用する。

【0071】

図５に基づいて、画像（Ａ）と（Ｂ）ではネットワークの分散が低い（信頼度が高いと解釈できる）ことがわかる。画像ＡとＢは「標準的な」１と０のように「見える」。また、図５の（Ｃ）及び（Ｄ）の画像が、あまり「標準的」ではなく見え、予測のばらつきもより大きいことも明らかである。

【0072】

標準的な分類メトリックと比較するために、予測された分布の平均を使用することによって、トレーニング粒子流を使用してトレーニングされたネットワークの精度を計算することができる。上記のネットワークと更新手順でこれを実行すると、９９．９％（２１１３／２１１５）の精度が達成された。これは標準的なトレーニング手法と同等である。ただし、ここでは、予測の分散に基づいて不確実性または信頼性の尺度が得られることを強調することが重要である。

【0073】

トレーニング粒子流の威力をさらに強調するために、トレーニング粒子流を使用してトレーニングされたネットワークに０でも１でもない画像が表示されたときの結果を見ることができる。Ｆａｓｈｉｏｎ－ＭＮＩＳＴデータセットは、そのような画像を提供する。Ｆａｓｈｉｏｎ－ＭＮＩＳＴについては、Ｆａｓｈｉｏｎ－ＭＮＩＳＴ：ａＮｏｖｅｌＩｍａｇｅＤａｔａｓｅｔｆｏｒＢｅｎｃｈｍａｒｋｉｎｇＭａｃｈｉｎｅＬｅａｒｎｉｎｇＡｌｇｏｒｉｔｈｍｓ．ＨａｎＸｉａｏ，ＫａｓｈｉｆＲａｓｕｌ，ＲｏｌａｎｄＶｏｌｌｇｒａｆ．ａｒＸｉｖ：１７０８．０７７４７で説明されている。Ｆａｓｈｉｏｎ－ＭＮＩＳＴデータセットは、衣服とアクセサリーの画像からなる。Ｆａｓｈｉｏｎ－ＭＮＩＳＴデータセットをテストデータセットとして使用して得られた結果を図６に示す。ＭＮＩＳＴテストケースと比較して、各Ｆａｓｈｉｏｎ－ＭＮＩＳＴテストケースの予測分布の分散がはるかに大きいことは明らかである。

【0074】

この設定では、分散に閾値を設定することができ、この所定の閾値を超えると、ネットワークは本質的に「正しいクラス予測が何かわからない」と言っていることになる。対照的に、標準的なＮＮ予測の予測分散はゼロであり、不確実性を推定するには他の方法に依存しなければならない。この点をより明確にするために、ＭＮＩＳＴデータセットとＦａｓｈｉｏｎ－ＭＮＩＳＴデータセットを入力として使用した予測の分散のヒストグラムが有益になる可能性がある。

【0075】

例として、図７は、トレーニング粒子流を使用してトレーニングされたＢＮＮへのＭＮＩＳＴ入力と、トレーニング粒子流を使用してトレーニングされたＢＮＮへのＦａｓｈｉｏｎ－ＭＮＩＳＴ入力との分散を表す折れ線グラフの図を示す。トレーニング中にＢＮＮには合計１２０枚の画像（０の画像６０枚と１の画像６０枚）しか表示されなかったが、ＭＮＩＳＴおよびＦａｓｈｉｏｎ－ＭＮＩＳＴデータセットの間には予測分散が明確に分離されている。

【0076】

ＡＩは、これまで人間などの生きた行為者を必要としていた認知タスクを実行するための意思決定システムの開発に関係する分野である。ＮＮは、生物学的ニューロンを大まかにモデル化した計算構造である。一般に、ＮＮは、ノード（例えば、ニューロン）間の重み付けされた接続（例えば、シナプス）を介して情報（例えば、データまたは意思決定）を符号化する。最新のＮＮは、音声認識などの多くのＡＩアプリケーションの基礎である。

【0077】

多くのＮＮは、モデル化された接続に対応する重みの行列として表される。ＮＮは、頻繁に、他のニューロンへの多くの発信接続を有する一連の入力ニューロンにデータを受け入れることによって動作する。ニューロン間を通過するたびに、対応する重みが入力を変更し、活性化関数に渡される。次いで、活性化関数の結果は、ＮＮグラフのさらに下の別のニューロンに送信される。活性化関数による重み付けと処理のプロセスは、出力ニューロンに到達するまで続き、ＡＮＮ処理の結果出力ニューロンのパターンと値を構成する。

【0078】

ほとんどのＮＮが正しく動作するのは、正確な重み次第である。しかし、ＮＮ設計者は通常、特定のアプリケーションに対してどの重みが機能するかを知らない。ＮＮ設計者は通常、多数のニューロン層、または循環接続を含む層間の特定の接続を選択する。トレーニングプロセスを使用して、初期の重みを選択することによって適切な重みを決定することができる。いくつかの例では、初期の重みはランダムに選択され得る。トレーニングデータがＮＮに入力され、結果が誤差の指標を与える目的関数と比較される。誤差の表示は、ＮＮの結果が予期された結果と比較してどの程度間違っているかを示す尺度である。次いで、この誤差は重みを修正するために使用される。多くの反復を経て、重みが集合的に収束し、操作データがＮＮにエンコードされる。このプロセスは、目的関数（例えば、コスト関数または損失関数）の最適化と呼ばれることがあり、それによってコストまたは損失が最小化される。

【0079】

勾配降下法は、特定の目的（または損失）関数を最適化するための一般的な手法である。スカラー場の勾配（偏導関数のベクトルなど）は、この目的関数の最も急峻な増加の方向を与える。したがって、パラメータを逆方向に少量調整すると、一般に目的関数が減少する。十分な回数の反復を実行すると、パラメータは最小値に近づく傾向がある。いくつかの実装形態では、学習率（ステップサイズなど）はすべての反復で固定される。ただし、ステップサイズが小さいと収束するまでに時間がかかる傾向があり、ステップサイズが大きいと最小値付近で変動したり、その他の望ましくない動作が発生したりする可能性がある。可変ステップサイズは、通常、大きなステップサイズの欠点なく、より高速な収束を実現するために導入される。

【0080】

ニューラルネットワークを介した入力データの順方向のパスの後、バックプロパゲーションは、ネットワークパラメータに関する目的関数の勾配を評価するための節約型のアプローチを与える。ネットワークの最終出力は、各層の演算を組み合わせて構築される。これには、目的関数の勾配を計算するための連鎖律が必要になる。バックプロパゲーションは、最終層から開始して逆方向に入力層に向かい、層出力に関する目的の導関数とその前の層からの対応する量との間の再帰的関係を利用する。この再帰的な関係により、各パラメータに関する目的の導関数の連鎖律全体を評価するという冗長性が排除される。確率的勾配降下法（ＳＧＤ）、Ａｄａｍなど、バックプロパゲーション用のよく知られた任意の最適化アルゴリズムを使用できる。

【0081】

図８は、実施形態による、ＮＮトレーニングのためのシステムを含む環境の例のブロック図である。このシステムは、１つまたは複数の実施形態によるサイバーセキュリティの解決のトレーニングを支援することができる。このシステムは、処理ノード８１０を使用してトレーニングされる人工ＮＮ（ＡＮＮ）８０５を含む。処理ノード８１０は、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）または他の処理回路であり得る。例では、複数の処理ノードを使用して、ＡＮＮ８０５の異なる層、または層内の異なるノード８０７さえもトレーニングすることができる。したがって、一組の処理ノード８１０は、ＡＮＮ８０５のトレーニングを実行するように構成される。

【0082】

処理ノード８１０のセットは、ＡＮＮ８０５のトレーニングセット８１５を受信するように構成される。ＡＮＮ８０５は、層状に配置されたノード８０７のセット（ノード８０７の行として図示）と、ノードのセットのノード間のノード間重み８０８（例えば、パラメータ）のセットとを備える。例では、トレーニングセット８１５は、完全なトレーニングセットのサブセットである。ここで、サブセットにより、限られたストレージリソースを持つ処理ノードがＡＮＮ８０５のトレーニングに参加できるようになり得る。

【0083】

トレーニングデータには、単語、記号、他の品詞などのドメインを表す複数の数値が含まれ得る。ＡＮＮ８０５がトレーニングされると分類されるトレーニングまたは入力８１７の各値は、ＡＮＮ８０５の第１層または入力層の対応するノード８０７に提供される。値は層を介して伝播し、目的関数によって変わる。

【0084】

上で述べたように、処理ノードのセットは、ニューラルネットワークをトレーニングしてトレーニングされたニューラルネットワークを作成するように構成される。例えば、トレーニングされると、ＡＮＮに入力されたデータは有効な分類８２０を生成する（例えば、入力データ８１７はカテゴリに割り当てられる）。処理ノード８０７のセットによって実行されるトレーニングは反復的である。例では、ニューラルネットワークのトレーニングの各反復は、ＡＮＮ８０５の層間で独立して実行される。したがって、２つの異なる層は、処理ノードのセットの異なるメンバーによって並行して処理され得る。例では、ＡＮＮ８０５の異なる層が異なるハードウェアでトレーニングされる。処理ノードのセットの異なるメンバーのメンバーは、異なるパッケージ、ハウジング、コンピュータ、クラウドベースのリソースなどに配置され得る。例では、トレーニングの各反復は、ノードのセット内のノード間で独立して実行される。この例は、個々のノード４０７（例えばニューロン）が独立してトレーニングされる追加の並列化である。例では、ノードは異なるハードウェアでトレーニングされる。

【0085】

図９は、例として、マシンに本明細書に説明される方法の任意の１つ以上を実行させるための命令が実行され得るコンピュータシステム９００の例示的な形式のマシンの一実施形態のブロック図を示す。ネットワーク化された配置では、マシンは、サーバ－クライアントのネットワーク環境においてサーバまたはクライアントマシンという立場で、またはピアツーピア（もしくは分散）ネットワーク環境においてはピアーマシンとして動作し得る。マシンは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、ウェブアプライアンス、ネットワークルータ、ネットワークスイッチ、もしくはネットワークブリッジ、またはそのマシンが取るべき行動を指定する命令（順次またはそれ以外の方法で）を実行することが可能な任意のマシンであってよい。さらに、単一のマシンのみが示されるが、用語「マシン」はまた、本明細書で説明される方法の任意の１つ以上を実行するための命令の１つのセット（または複数のセット）を個別にまたは共同で実行するマシンの任意の集合体を含むと解釈されるものとする。

【0086】

例示的なコンピュータシステム９００は、バス９０８を介して互いと通信するプロセッサ９０２（例えば、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、または両方）、メインメモリ９０４、及びスタティックメモリ９０６を含む。コンピュータシステム９００は、ビデオディスプレイユニット９１０（例えば、液晶ディスプレイ（ＬＣＤ）または陰極線管（ＣＲＴ））をさらに含み得る。コンピュータシステム９００はまた、英数字入力装置９１２（例えば、キーボード）、ユーザーインターフェース（ＵＩ）ナビゲーションデバイス９１４（例えば、マウス）、大量記憶装置９１６、信号発生装置９１８（例えば、スピーカ）、ネットワークインターフェースデバイス９２０、ならびにブルートゥース（登録商標）、ＷＷＡＮ、ＷＬＡＮ、及びＮＦＣなどの無線９３０を含み、そのようなプロトコルに対するセキュリティ管理の適用を可能にする。

【0087】

大量記憶装置９１６は、本明細書に説明される方法または機能の任意の１つまたは複数を具現化するまたはそれらによって利用される命令及びデータ構造（例えば、ソフトウェア）９２４の１つまたは複数のセットが格納される機械可読媒体９２２を含む。命令９２４はまた、コンピュータシステム９００によるその実行中に、メインメモリ９０４内に、及び／またはプロセッサ９０２内に、完全にまたは少なくとも部分的に常駐し得、メインメモリ９０４及びプロセッサ９０２はまた、機械可読媒体を構成する。

【0088】

機械可読媒体９２２は単一の媒体であると例示的な実施形態には示されているが、用語「機械可読媒体」は、１つまたは複数の命令またはデータ構造を格納する単一の媒体または複数の媒体（例えば、集中型または分散型データベース、及び／または関連するキャッシュ及びサーバ）を含み得る。用語「機械可読媒体」はまた、マシンによる実行のための命令を格納、符号化、または搬送することができ、マシンに本発明の方法の任意の１つ以上を実行させるか、そのような命令によって利用されるか、もしくはそのような命令に関連するデータ構造を格納、符号化、または搬送することができる、任意の有形媒体を含むと解釈されるものとする。用語「機械可読媒体」は、相応して、ソリッドステートメモリ、ならびに光媒体及び磁気媒体を含むが、これらに限定されないと解釈されるものとする。機械可読媒体の具体的な例は、例として、例えば消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、及びフラッシュメモリデバイスなどの半導体メモリデバイスを含む不揮発性メモリ、内蔵ハードディスク及びリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭディスクを含む。

【0089】

命令９２４は、さらに、伝送媒体を使用して通信ネットワーク９２６を介して送信または受信され得る。命令９２４は、ネットワークインターフェースデバイス９２０及びいくつかの周知の転送プロトコル（例えば、ＨＴＴＰ）のいずれか１つを使用して伝送され得る。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、インターネット、携帯電話網、従来型の電話サービス（ＰＯＴＳ）ネットワーク、及び無線データネットワーク（例えば、ＷｉＦｉネットワーク及びＷｉＭａｘネットワーク）を含む。用語「伝送媒体」は、マシンによる実行のための命令を格納、符号化、または搬送できる任意の無形媒体を含むとして解釈されるものとし、デジタル通信信号もしくはアナログ通信信号またはそのようなソフトウェアの通信を容易にするための他の無形媒体を含む。

【0090】

追加の注記及び例
例１は、ベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作するための方法であって、集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、前記パラメータの前記最適化された分布と前記ＮＮの各々からの予測を使用して予測分布を決定すること、及び前記予測分布を表す周辺化分布をもたらすこと、を含む、前記方法を含む。

【0091】

例２では、例１はさらに、トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるＤａｕｍ－Ｈｕａｎｇダウムファン粒子フィルタで使用される粒子流技術を含むことを含むことができる。

【0092】

例３では、例１～２のうちの少なくとも１つはさらに、前記粒子のセット内の各粒子は、集合的に前記ＢＮＮのパラメータの前記分布を表す前記ＮＮのインスタンス化のすべてのＮＮネットワークパラメータを表すことを含むことができる。

【0093】

例４では、例１～３のうちの少なくとも１つはさらに、トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含むことを含むことができる。

【0094】

例５では、例１～４の少なくとも１つはさらに、トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含むことを含むことができる。

【0095】

例６では、例５は、トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含むことをさらに含むことができる。

【0096】

例７では、例６はさらに、前記対角線近似が、重みごとにガウスニュートン近似を実行することを含むことを含むことができる。

【0097】

例８は、マシンによる実行時に、前記マシンにベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作するための操作を実行させる命令を含む非一時的な機械可読媒体であって、前記操作が、集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、前記パラメータの前記最適化された分布と前記ＮＮの各々からの予測を使用して予測分布を決定すること、及び前記予測分布を表す周辺化分布をもたらすこと、を含む、前記非一時的な機械可読媒体を含む。

【0098】

例９では、例８はさらに、トレーニング粒子流には、Ｄａｕｍ－Ｈｕａｎｇ粒子フィルタで使用される粒子流技術が含まれており、内部状態と測定値がそれぞれ重みと真理値に置き換えられることをさらに含むことができる。

【0099】

例９では、例８は、トレーニング粒子流には、Ｄａｕｍ－Ｈｕａｎｇ粒子フィルタで使用される粒子流技術が含まれており、内部状態と測定値がそれぞれ重みと真理値に置き換えられることをさらに含むことができる。

【0100】

例１０では、例８～９のうちの少なくとも１つは、前記粒子のセット内の各粒子は、集合的に前記ＢＮＮのパラメータの前記分布を表す前記ＮＮのインスタンス化のすべてのＮＮネットワークパラメータを表すことをさらに含むことができる。

【0101】

例１１では、例８～１０のうちの少なくとも１つは、トレーニング粒子流は、対数ホモトピーに沿った反復的に進化するネットワークパラメータ値を含むことをさらに含むことができる。

【0102】

例１２では、例８～１１のうちの少なくとも１つは、前記トレーニング粒子流れは、前記粒子のドリフトと拡散を決定する際のヘッセ行列の行列へのガウスニュートン近似の使用が含まれることをさらに含むことができる。

【0103】

例１３では、例１２は、トレーニング粒子流は、前記ガウスニュートン近似への対角近似の使用を含むことをさらに含むことができる。

【0104】

例１４では、例１３は、前記対角近似は、重みごとにガウスニュートン近似を実行することを含むことをさらに含むことができる。

【0105】

例１５は、デバイスであって、格納された命令を含むメモリデバイスと、前記メモリデバイスに接続された処理回路であって、前記処理回路によって実行されるとき、前記処理回路にベイジアンニューラルネットワーク（ＢＮＮ）をトレーニング及び操作させるための操作を実行させる命令を実行させるよう構成され、前記操作は、集合的に前記ＢＮＮのパラメータの分布を表すＮＮのそれぞれのＮＮパラメータの点ごとの値を各々が個別に表す粒子を初期化すること、トレーニング粒子流を使用して、前記粒子を最適化し、前記パラメータの最適化された分布を生じること、前記パラメータの前記最適化された分布と前記ＮＮの各々からの予測を使用して予測分布を決定すること、及び前記予測分布を表す周辺化分布をもたらすこと、を含む、前記処理回路を含む、前記デバイスを含む。

【0106】

例１６では、例１５は、トレーニング粒子流が、内部状態と測定値をそれぞれ重みと真理値で置き換えるＤａｕｍ－Ｈｕａｎｇダウムファン粒子フィルタで使用される粒子流技術を含むことをさらに含むことができる。

【0107】

例１７では、例１５～１６のうちの少なくとも１つは、前記粒子のセット内の各粒子は、集合的に前記ＢＮＮのパラメータの前記分布を表す前記ＮＮのインスタンス化のすべてのＮＮネットワークパラメータを表すことをさらに含むことができる。

【0108】

例１８では、例１５～１７のうちの少なくとも１つは、トレーニング粒子流が、対数ホモトピーに沿って前記ネットワークパラメータの値を反復的に進化させることを含むことをさらに含むことができる。

【0109】

例１９では、例１５～１８のうちの少なくとも１つは、トレーニング粒子流が、前記粒子のドリフト及び拡散を決定する際にヘッセ行列の行列に対するガウスニュートン近似を使用することを含むことをさらに含むことができる。

【0110】

例２０では、例１９は、トレーニング粒子流が、前記ガウスニュートン近似に対する対角近似を使用することを含み、前記対角近似は、重みごとにガウスニュートン近似を実行することを含むことをさらに含むことができる。

【0111】

実施形態は、特定の例示的な実施形態を参照して説明されてきたが、本発明のより広い趣旨及び範囲から逸脱することなく、これらの実施形態に対して様々な修正及び変更を加え得ることが明らかとなるであろう。したがって、明細書及び図面は、限定する意味ではなく例示的と見なされるべきである。本明細書の一部を形成する添付の図面は、本主題が実施され得る特定の実施形態を限定ではなく例示として示す。図示の実施形態は、当業者が本明細書に開示された教示を実践することを可能にするために十分に詳細に説明されている。他の実施形態が利用され、そこから導き出され得るため、構造的及び論理的な置換及び変更が本開示の範囲から逸脱することなく加えられ得る。したがって、本発明を実施するための形態は、限定的な意味で解釈されるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲によってのみ定義され、そのような特許請求の範囲が権利を与えられている均等物の全範囲と共に定義される。

【図1】