(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-21
(54)【発明の名称】ドメイン解きほぐしを用いる自動化転移学習のためのシステムおよび方法
(51)【国際特許分類】
G06N 3/0985 20230101AFI20241114BHJP
【FI】
G06N3/0985
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024555572
(86)(22)【出願日】2022-09-30
(85)【翻訳文提出日】2024-05-14
(86)【国際出願番号】 JP2022037528
(87)【国際公開番号】W WO2023095460
(87)【国際公開日】2023-06-01
(32)【優先日】2021-11-25
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-02-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】秋濃 俊昭
(72)【発明者】
【氏名】ワン,イェ
(72)【発明者】
【氏名】スメデマーク-マルグリーズ,ニクラス
(57)【要約】
人工ニューラルネットワークアーキテクチャの自動化構築のためのシステムおよび方法が提供される。システムは、信号を受信し送信するように構成された1組のインターフェイスおよびデータリンクを含む。信号は、訓練データ、検証データ、およびテストデータのデータセットを含む。信号は、多次元信号において1組の乱数因子を含む。乱数因子の一部は、識別するためのタスクラベルと、迷惑変動とに関連付けられる。システムはさらに、1組の再構成可能ディープニューラルネットワーク(DNN)ブロック、ハイパーパラメータ、訓練可能変数、中間ニューロン信号、ならびに、順方向パス信号および逆方向パス勾配を含む仮計算値を格納するための1組のメモリバンクを含む。システムはさらに、インターフェイスおよびメモリバンクと接続された少なくとも1つのプロセッサを含み、少なくとも1つのプロセッサは、信号およびデータセットを再構成可能DNNブロックへ提示するように構成されている。少なくとも1つのプロセッサは、再構成可能DNNブロックがドメインシフトとともに新たなデータセットに転移可能となるように迷惑に対してロバストなベイズ推論を達成するように、正則化モジュール、前処理方法および後処理方法のハイパーパラメータを探索するように構成される。
【特許請求の範囲】
【請求項1】
人工ニューラルネットワークアーキテクチャの自動化構築のためのシステムであって、
信号を送受信するように構成された1組のインターフェイスおよびデータリンクを含み、前記信号は、訓練データ、検証データ、およびテストデータのデータセットを含み、前記信号は、多次元信号Xにおいて1組のランダム変数因子を含み、前記ランダム変数因子の一部は、識別するためのタスクラベルYと、迷惑変動Sとに関連付けられ、前記システムはさらに、
1組の再構成可能ディープニューラルネットワーク(DNN)ブロックを格納するための1組のメモリバンクを含み、前記再構成可能DNNブロックの各々は、前記多次元信号Xから前記タスクラベルYを識別するための主タスクパイプラインモジュールと、複数の潜在変数Zと前記迷惑変動Sとの間の解きほぐしを調節するための1組の補助正則化モジュールとを有して構成され、前記メモリバンクはさらに、ハイパーパラメータ、訓練可能変数、中間ニューロン信号、ならびに、順方向パス信号および逆方向パス勾配を含む仮計算値を含み、前記システムはさらに、
前記インターフェイスおよび前記メモリバンクと接続され、前記信号および前記データセットを前記再構成可能DNNブロックへ提示するように構成された、少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、1組のグラフィカルモデル、1組のプリショット正則化方法、1組の前処理方法、1組の後処理方法、および1組のポストショット適応方法にわたって探索を実行して、前記メモリバンクにおいて前記ハイパーパラメータを修正することによってタスク予測が前記迷惑変動Sを感じないように前記再構成可能DNNブロックを再構成するように構成される、システム。
【請求項2】
前記少なくとも1つのプロセッサはさらに、
ベイズ・ボールアルゴリズムに基づいてベイズグラフモデルおよび推論因子グラフを表わす前記1組のグラフィカルモデルを特定するように前記ハイパーパラメータを修正するステップと、
前記ベイズグラフモデルおよび前記推論因子グラフに従って、前記多次元信号X、前記タスクラベルY、前記迷惑変動S、および前記潜在変数Zに関して、前記ランダム変数因子に関連付けるようにグラフノードをグラフエッジとリンクさせることによって、前記再構成可能DNNブロックを修正するステップと、
前記訓練データについて、変分サンプリングおよび勾配方法を用いて前記再構成可能DNNブロックを訓練するステップと、
前記検証データについて、前記再構成可能DNNブロックの出力に基づいて前記ハイパーパラメータを選択するステップと、
迷惑に対するロバスト性を有して転移されるべき進行中の前記テストデータおよび新たな着信データについて、訓練された前記再構成可能DNNブロックをテストするステップとを実行する、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサはさらに、
異なる打ち切りモードおよび打ち切り方法に基づいて前記1組のプリショット正則化方法を特定するように前記ハイパーパラメータを修正するステップを実行し、前記打ち切りモードは、限界的打ち切りモード、条件付き打ち切りモード、相補的打ち切りモード、またはそれらの組合せに基づいており、前記打ち切り方法は、ダイバージェンス打ち切り方法、相互情報打ち切り方法、およびそれらの変形に基づいており、前記少なくとも1つのプロセッサはさらに、
前記1組のプリショット正則化方法に従って潜在ノードZのうちの少なくとも1つが迷惑変動Sのうちの少なくとも1つから解きほぐされるように、前記1組の補助正則化モジュールを前記再構成可能DNNブロックに関連付けるステップと、
前記訓練データに基づいて、前記再構成可能DNNブロックを、前記1組の補助正則化モジュールを用いて訓練するステップと、
前記検証データについて、前記再構成可能DNNブロックの出力に基づいて、1組の前記打ち切りモードおよび1組の前記打ち切り方法のための前記ハイパーパラメータを選択するステップとを実行する、請求項1に記載のシステム。
【請求項4】
前記打ち切り方法は、敵対的打ち切り方法、相互情報ニューラル推定(mutual information neural estimation:MINE)打ち切り方法、相互情報勾配推定(mutual information gradient estimation:MIGE)打ち切り方法、最大平均不一致(minimum mean discrepancy:MMD)打ち切り方法、ペアワイズ最大平均不一致(MMD)打ち切り方法、境界平衡敵対的生成ネットワーク(boundary equilibrium generative adversarial network:BEGAN)弁別器打ち切り方法、ヒルベルト・シュミット独立性基準(Hilbert-Schmidt independence criterion:HSIC)打ち切り方法、最適輸送打ち切り方法、およびそれらの変形を含む、請求項3に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサは、
空間フィルタリング、時空間フィルタリング、ウェーブレット変換、ベクトル自己回帰フィルター、自己注意マッピング、ロバストなzスコアリング、正規化、データ拡張、汎用敵対例、およびそれらの変形に基づいて前記1組の前処理方法を特定するように前記ハイパーパラメータを修正するステップと、
前記1組の前処理方法に従って、前記訓練データ、検証データ、およびテストデータを修正して、前記再構成可能DNNブロックにおいて供給するステップとを実行する、請求項1に記載のシステム。
【請求項6】
前記1組の後処理方法は、相互検証投票、アンサンブルスタッキング、スコア平均化、およびそれらの変形を含む、請求項1に記載のシステム。
【請求項7】
前記1組のポストショット適応方法は、疑似ラベリング、ソフトラベリング、混乱最小化、エントロピー最小化、特徴正規化、加重zスコアリング、弾性重み統合、ラベル伝搬、適応層凍結、ハイパーネットワーク適応、潜在空間クラスタ化、量子化、疎化、およびそれらの変形を含み、前記再構成可能DNNブロックは、前記再構成可能DNNブロックが新ドメインデータセットに適応するように前記訓練可能変数の組合せを解凍することによって精製される、請求項1に記載のシステム。
【請求項8】
前記変分サンプリングは、再パラメータ化トリックのためのその事前分布としての、指数分布族または非指数分布族によって特定された独立分布を有する前記潜在変数のために採用されるとともに、乱数発生器およびsoftmax温度に基づいてワンホットに近いベクトルを生成するためにガンベルsoftmaxトリックを使用する未知の迷惑変動およびタスクラベルのカテゴリ的変数のために採用される、請求項2に記載のシステム。
【請求項9】
リンク連結はさらに、次元不整合リンクのためにより低次元の信号を変換するための複数の訓練可能線形フィルターまたは双線形フィルターを用いる多次元テンソル射影のステップを含む、請求項2に記載のシステム。
【請求項10】
前記再構成可能DNNブロックは、整流線形変形、双曲線正接、sigmoid、ゲートリニア、softmax、およびしきい値化を含む1組の非線形活性化を有する、完全接続層、畳み込み層、グラフ畳み込み層、再帰層、ルーピー接続、スキップ接続、および開始層の組合せを有して構成されるとともに、ドロップアウト、スワップアウト、ゾーンアウト、ブロックアウト、ドロップコネクト、ノイズ注入、揺れ、およびバッチ正規化の組合せを用いて正則化される、請求項1に記載のシステム。
【請求項11】
前記訓練するステップは、前記再構成可能DNNブロックの出力が目的関数の組合せにおいてより小さい損失値を提供するように、前記訓練データを使用することによって前記再構成可能DNNブロックの訓練可能パラメータを更新するステップを行ない、前記目的関数はさらに、平均二乗誤差、交差エントロピー、構造類似性、負の対数尤度、絶対誤差、交差共分散、クラスタ化損失、ダイバージェンス、ヒンジ損失、フーバー損失、負のサンプリング、ワッサースタイン距離、およびトリプレット損失の組合せを含み、損失関数は、特定された訓練スケジュールに従って調節された複数の正則化係数を用いて重み付けされる、請求項2に記載のシステム。
【請求項12】
前記勾配方法は、前記再構成可能DNNブロックの訓練可能パラメータを最適化するために、確率的勾配降下法、適応運動量、適応勾配、適応境界、ネステロフ加速勾配法、および二乗平均平方根伝搬の組合せを採用する、請求項2に記載のシステム。
【請求項13】
前記データセットは、
画像、写真、映画、テキスト、文字、声、音楽、オーディオ、音声、およびそれらの変形のようなメディアデータ、
電波、光信号、電気パルス、温度、圧力、加速度、速度、振動、力、およびそれらの変形のような物理的データ、ならびに、
心拍数、血圧、質量、水分、脳波図、筋電図、心電図、筋音図、眼電図、電気皮膚反応、脳磁気図、皮質脳波記録、およびそれらの変形のような生理学的データ、
をさらに含むセンサ測定値の組合せを含む、請求項1に記載のシステム。
【請求項14】
前記迷惑変動は、1組の被験者識別情報、セッション番号、生物学的状態、環境状態、センサ状態、位置、配向、サンプリングレート、時間、および感度を含む、請求項1に記載のシステム。
【請求項15】
前記再構成可能DNNブロックの各々はさらに、1組の人工ニューロンノードを有する1組の層を特定するハイパーパラメータを含み、隣接する層からのニューロンノードのペアが、信号を前の層から次の層へ順次渡すように複数の訓練可能変数および活性化関数と相互接続される、請求項1に記載のシステム。
【請求項16】
前記迷惑変動Sは、教師あり設定、半教師あり設定、および教師なし設定の組合せに従って、複数のドメイン側情報としての変動S
1、S
2、…、S
Nの複数の因子へとさらに分解され、前記潜在変数は、解きほぐされた特徴ベクトルとしての潜在変数Z
1、Z
2、…、Z
Lの複数の因子へとさらに分解される、請求項1に記載のシステム。
【請求項17】
前記ハイパーパラメータを修正するステップは、離散的および連続的なハイパーパラメータ値の異なる組合せを探索するために、強化学習、進化戦略、差分進化、粒子群、遺伝的アルゴリズム、アニーリング、ベイズ最適化、ハイパーバンド、および多目的ラマルク進化論の組合せを採用する、請求項2に記載のシステム。
【請求項18】
1組の前記ハイパーパラメータは、確率伝搬法を使用して前記訓練データと前記検証データとの不一致を測定することによって、学習速度、正則化重み、因数分解置換、および優先順位の低いリンクをプルーニングするためのポリシーの適応制御を含む1組の訓練スケジュールを含む、請求項1に記載のシステム。
【請求項19】
人工ニューラルネットワークアーキテクチャの自動化構築のための、コンピュータにより実現される方法であって、
訓練データ、検証データ、およびテストデータのデータセットを供給するステップを含み、前記データセットは、多次元信号Xにおいて1組のランダム変数因子を含み、前記ランダム変数因子の一部は、識別するためのタスクラベルYと、迷惑変動Sとに関連付けられ、前記方法はさらに、
前記多次元信号Xから前記タスクラベルYを識別するための1組の再構成可能ディープニューラルネットワーク(DNN)ブロックを構成するステップを含み、前記1組の再構成可能DNNブロックは、複数の潜在変数Zと前記迷惑変動Sとの間の解きほぐしを調節するための1組の補助正則化モジュールを含み、前記方法はさらに、
前記訓練データについて、タスク予測が正確であるように確率的勾配最適化を介して前記1組の再構成可能DNNブロックを訓練するステップと、
前記検証データについて、前記タスク予測が前記迷惑変動Sを感じないように最良のハイパーパラメータを検索するために前記1組の補助正則化モジュールを探索するステップとを含む、方法。
【請求項20】
前記1組の補助正則化モジュールは、異なる打ち切りモードおよび打ち切り方法に基づいており、前記打ち切りモードは、
限界的打ち切りモード、条件付き打ち切りモード、相補的打ち切りモード、またはそれらの組合せを含み、
前記打ち切り方法は、
ダイバージェンス打ち切り方法、相互情報打ち切り方法、およびそれらの変形に基づいており、
前記打ち切り方法はさらに、
敵対的打ち切り方法、相互情報ニューラル推定打ち切り方法、相互情報勾配推定打ち切り方法、最大平均不一致打ち切り方法、ペアワイズ最大平均不一致打ち切り方法、境界平衡敵対的生成ネットワーク弁別器打ち切り方法、ヒルベルト・シュミット独立性基準打ち切り方法、最適輸送打ち切り方法、およびそれらの変形を含む、請求項19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人工ニューラルネットワークの自動化訓練システムに関し、より特定的には、迷惑因子解きほぐし(nuisance factor disentanglement)を用いる人工ニューラルネットワークの自動化転移学習およびドメイン適応システムに関する。
【背景技術】
【0002】
ディープニューラルネットワーク(deep neural network:DNN)に基づいたディープラーニング手法の大きな進歩は、映像、音声、および画像についてのメディア信号処理と、電波、電気パルス、および光ビームについての物理的データ処理と、心拍数、温度、および血圧についての生理学的データ処理とを含むデータ処理におけるさまざまな問題を解決してきた。たとえば、DNNは、脳波図(electroencephalogram:EEG)および筋電図(electromyogram:EMG)といったユーザの生体信号の分析を通して、ヒューマンマシンインターフェイス(human-machine interface:HMI)のより実用的な設計を可能にした。しかしながら、そのような生体信号は、各被験者の生物学的状態だけでなく測定センサの不完全性および実験セットアップの不整合性に依存して非常に変動しやすい。よって、典型的なHMIシステムでは、頻繁な較正がしばしば必要とされる。HMIシステムに加えて、データ分析はしばしば、ノイズ、干渉、バイアス、ドメインシフトなどといった多くの迷惑因子に遭遇する。したがって、異なるデータセットドメイン間でそれらの迷惑因子に対してロバストであるディープラーニングが求められる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
この問題の解決に向けて、敵対的条件付き変分オートエンコーダ(Adversarial Conditional Variational AutoEncoder:A-CVAE)などの敵対的訓練を採用する迷惑不変の(nuisance-invariant)方法が、被験者不変の(subject-invariant)HMIシステムなどのドメイン間一般化ディープラーニングを実現するためのドメイン較正を減少させるために現れた。標準的なDNN分類器/回帰器と比較すると、エンコーダ、迷惑条件付きデコーダ、および敵対者ネットワークなどの追加の機能ブロックを一体化することは、新たなドメインデータがなくてもドメイン一般化が得られるため、優れた迷惑不変性能を提供する。DNN構造は、より多くの機能ブロックおよびより多くの潜在層を用いて潜在的に拡張され得る。しかしながら、ほとんどの作業は、DNNのブロック接続性およびアーキテクチャを決定するために人間の設計に依拠する。具体的には、DNN手法はしばしば、人間の洞察力を用いてデータモデルを設計する専門家によって手作りされる。DNNのアーキテクチャを最適化する方法は、試行錯誤アプローチを必要とする。異なるDNNアーキテクチャを自動的に探索するために、自動化機械学習(automated machine learning:オートML)の新たなフレームワークが提案された。オートMLのコンテキストにおけるハイパーパラメータおよびアーキテクチャ探索の自動化は、迷惑不変のデータ処理に適したDNN設計を容易にすることができる。DNNのアーキテクチャに加えて、敵対的解きほぐしおよびL2/L1ノルム正則化といった訓練可能パラメータの正則化によってDNN訓練の挙動を安定させるためのアプローチが多数ある。
【0004】
タスク関連特徴を捉えるものの迷惑変動に対して不変であるデータ表現を学習することは、依然として機械学習における重要な課題である。VAEは、生成モデルと推論モデルとがともに学習され得る、自動結合アーキテクチャを取り入れた変分ベイズ(Bayesian)推論法を導入した。この方法は、迷惑変動を表わすために使用され得る条件付け変数を導入するCVAEと、潜在表現から迷惑変数を解きほぐすことを考慮する正則化VAEとを用いて拡張された。敵対的学習の概念は、敵対的生成ネットワーク(Generative Adversarial Network:GAN)において考慮されたものであり、無数のアプリケーションに採用されてきた。同時に発見された敵対的学習推論(Adversarially Learned Inference:ALI)と双方向GAN(Bidirectional GAN:BiGAN)とは、オートエンコーダの訓練に向けた敵対的アプローチを提案した。敵対的訓練はまた、VAEと組合されて、迷惑に対してロバストな学習が実現されるように潜在表現を正則化して解きほぐす。ハイパーパラメータ最適化を用いてDNNモデルを検索することは、オートMLと呼ばれる関連フレームワークにおいて徹底的に研究されてきた。これらの自動化方法は、アーキテクチャ検索、学習ルール設計、および拡張探索を含む。ほとんどの作業は、進化的最適化フレームワークまたは強化学習フレームワークを使用することによって、ハイパーパラメータを調節するか、または、予め選択された構成ブロックからネットワークアーキテクチャを構築する。最近のオートML-ゼロは、ゼロからの完全自動化設計のために人間の知識および洞察力を排除するための拡張を考慮している。
【0005】
しかしながら、オートMLは、検索空間の爆発的増加に起因して、最良のハイパーパラメータを見つけるために多くの探索時間を必要とする。加えて、正当な理由付けがなければ、リンク接続のほとんどの検索空間は無意味になるであろう。正当性を有するニューラルネットワークの自動化構築のためのシステムを開発するために、オートベイズ(AutoBayes)と呼ばれる方法が提案された。オートベイズ法は、異なるベイズグラフ(Bayesian graph)を探索して、生成モデルについての変数データ間の固有のグラフィカル関係を表わし、次に、エンコーダ、デコーダ、分類器、回帰器、敵対者、およびドメイン推定器を接続するための最も妥当な推論グラフを構築する。いわゆるベイズ・ボール(Bayes-Ball)アルゴリズムを用いて、特定のベイズグラフのための最もコンパクトな推論グラフを自動的に構築することができ、いくつかの因子は、敵対的ブロックによって打ち切られるべきドメイン因子から独立した変数として識別される。特徴空間から迷惑因子を解きほぐすための敵対的打ち切りは、プリショット(pre-shot)転移学習におけるドメイン一般化、および、ポストショット(post-shot)転移学習におけるドメイン適応にとって効果的であるということが検証された。
【0006】
しかしながら、敵対的訓練は、ハイパーパラメータの注意深い選択を必要とする。なぜなら、主要目的関数の重み付けが不十分なため、強過ぎる打ち切りは主要タスク性能を損なうためである。また、敵対的打ち切りは、特徴空間における迷惑変数からの独立を促進するための唯一の正則化アプローチであるだけではない。たとえば、迷惑と特徴との間の相互情報を最小化することは、相互情報勾配推定器(mutual information gradient estimator:MIGE)によって実現され得る。同様に、考慮するべき異なるそのような打ち切りアプローチおよびスコアリング方法がある。いわゆるノーフリーランチ定理のため、異なる問題およびデータセット間で最良の性能を普遍的に達成することができる単一の方法はない。ドメイン解きほぐしアプローチを探索することは、最良の解決策を見つけるために時間/資源集約的な試行錯誤を必要とする。したがって、迷惑に対してロバストな転移学習についての特定の問題に依存する最良の打ち切りアプローチを効率的に識別する必要がある。
【課題を解決するための手段】
【0007】
本発明は、プリショット段階およびポストショット段階にわたるドメインシフトに対してロバストな転移学習のために打ち切りモードおよび打ち切り方法のさまざまなハイパーパラメータを探索することによって迷惑因子がシームレスに解きほぐされるように機械学習モデルを設計するためのやり方を提供する。この発明は、オートMLが、潜在的転移学習モジュールを効率的に検索することを可能にし、このため、我々はそれをオート転移フレームワークと呼ぶ。一実施形態は、ドメイン解きほぐしのレベルを調節するために、打ち切りハイパーパラメータを有する異なる打ち切りモードおよび打ち切り方法間のカテゴリ的および連続的な共同検索空間を使用する。打ち切りモードは、解きほぐしのモードを制御するための限界的分布、条件付き分布、および相補的分布を含むものの、それらに限定されない。打ち切り方法は、迷惑に対してロバストな特徴抽出が実現されるように、機械学習モデル内の特徴に迷惑パラメータから独立するよう促す。しかしながら、強過ぎる打ち切りは一般に下流タスク性能を低下させるため、オート転移は、タスク弁別特徴と迷惑不変特徴との間の最良のトレードオフを探すためにハイパーパラメータを調節する。打ち切り方法は、敵対的ネットワーク、相互情報勾配推定(mutual information gradient estimation:MIGE)、ペアワイズ不一致、およびワッサースタイン(Wasserstein)距離を含むものの、それらに限定されない。
【0008】
この発明は、ベイズ最適化、強化学習、および発見的最適化などのオートMLフレームワーク下でそれらのハイパーパラメータを調節するためのやり方を提供する。さらに別の実施形態は、時系列信号、スペクトル写真、ケプストラム、および他のテンソルなどの多くの異なるデータフォーマット間で迷惑に対してロバストな推論を向上させるために、ドメインに対してロバストなデータ拡張、フィルターバンク、およびウェーブレットカーネルを含む異なる前処理メカニズムを探索する。別の実施形態は、訓練のために迷惑因子が十分に利用可能ではない半教師あり設定のために、変分サンプリングを使用する。別の実施形態は、異種転移学習を可能にするために、最適輸送方法を用いるテンソル射影と共通空間パターンを用いる独立成分マッピングとを使用することによって、あるデータ構造を、次元性が不整合の別のデータ構造に変換するためのやり方を提供する。一実施形態は、探索された複数のモデルを一度に再使用するために、相互検証を通してスタッキングプロトコルを探索するアンサンブル方法を実現する。訓練段階時、ターゲットドメインに利用可能なデータがゼロである場合のプリショット転移学習に加えて、この発明は、ゼロショット学習(ターゲットドメインにおけるすべてのデータがラベル付けされていない)、1ショット学習、および数ショット学習などの訓練または微調整段階時に、ターゲットドメインに利用可能なデータがいくつかある場合のポストショット転移学習も提供する。ハイパーネットワーク適応は、仮説ポストショット学習段階において一貫した進化挙動を分析することによって基礎推論モデルのパラメータを直接制御する補助モデルを自動的に生成するためのやり方を提供する。ポストショット学習は、疑似ラベリングを用いて、あるいは、用いずに、ソースドメインからターゲットドメインへの混乱最小化を用いる連続解凍および微調整を含むものの、それらに限定されない。
【0009】
本開示は、異なる打ち切りモジュールおよび前処理方法の探索を通した、人工ニューラルネットワークの自動化構築のためのシステムおよび方法に関する。具体的には、本発明のシステムは、迷惑不変機械学習パイプライン(nuisance-invariant machine learning pipelines)を最適化するために、分類器、エンコーダ、デコーダおよび推定器ブロックをリンクする推論モデルのための異なる解きほぐしアプローチを探索する、オート転移と呼ばれる自動化転移学習フレームワークを導入する。一実施形態では、フレームワークは一連の生理学的データセットに適用され、そこで我々は、訓練中に被験者ラベルおよびクラスラベルへのアクセスを有し、変分モデル化および敵対的訓練を用いて/用いずに被験者転移学習のためのその能力の分析を提供する。フレームワークは、メディア信号および電気信号ならびに生体信号などのさまざまなデータセット形式のための半教師ありマルチクラス分類、多次元回帰、およびデータ再構成タスクにおいて効果的に利用され得る。
【0010】
本開示のいくつかの実施形態は、オートベイズと呼ばれる新たな概念が、迷惑に対してロバストなHMIシステムに適した最良の推論戦略の検索を容易にするために、さまざまな異なるベイズグラフモデルを探索する、という認識に基づいている。ベイズ・ボールアルゴリズムを用いて、我々の方法は、分類器、エンコーダ、デコーダ、迷惑推定器および敵対者DNNブロック間で妥当なリンク接続を自動的に構築することができる。我々は、最良のグラフモデルと最悪のグラフモデルとの間の莫大な性能ギャップを観察し、ある確定的モデルをグラフ探索なしで使用することは劣った分類結果に見舞われるおそれがあるということを暗示した。加えて、ある生理学的データセットにとって最良のモデルが必ずしも異なるデータにとって最良に機能するとは限らず、それは我々に、ターゲットデータセットを与えられた適応モデル生成のためにオートベイズを使用するよう促す。一実施形態は、マクロレベルのオートベイズフレームワークを拡張してミクロレベルのオートMLを一体化し、各DNNブロックのハイパーパラメータを最適化する。本発明は、ベイズグラフにおけるいくつかのノードは、他のノードから限界的にまたは条件付きで独立している、という認識に基づいている。我々の発明におけるオート転移フレームワークはさらに、DNNモデルの特定の隠れノードにおけるそのような独立性を促進してオートベイズフレームワークを向上させるために、さまざまな打ち切りモードおよび方法を探索する。
【0011】
我々の発明により、オートMLは、考慮するべき確固たる理論的理由を有する潜在的アーキテクチャを効率的に検索することが可能になった。この発明の方法は、データセットが有向ベイズグラフを用いて仮説的にモデル化されるという認識に基づいており、そのため、我々はそれをオートベイズ法と呼ぶ。一実施形態は、結合確率分布の異なる因数分解次数を用いるベイズグラフ探索を使用する。この発明はまた、ベイズグラフ仮説を通してベイズ・ボールアルゴリズムから導き出された条件付き独立性に基づいて、プルーニング(pruning)リンクを有するコンパクトなアーキテクチャを作成するための方法を提供する。さらに別の方法は、尤度の異なる因数分解次数を用いて推論グラフを最適化することができ、それは、結合された生成グラフおよび推論グラフを自動的に構築することを可能にする。それは、条件付きリンクを有する/有さないVAEに基づいて自然なアーキテクチャを実現する。また、別の実施形態は、迷惑パラメータから独立している潜在変数に取り付けられた補助ネットワークを用いるドメイン解きほぐしを使用し、それによって迷惑に対してロバストな特徴抽出が実現する。さらに別のケースは、迷惑に対してロバストな特徴抽出を促進するために、条件付きグラフティング(grafting)を用いる意図的に冗長なグラフを使用する。さらに別の実施形態は、性能を向上させるために複数の異なるベイズグラフの推定値および解きほぐし方法を組合せるアンサンブルグラフを使用する。たとえば、独立性スコアを測定するために、ダイバージェンスの代わりにワッサースタイン距離を使用することもできる。一実施形態は、動的注意ネットワークを使用してアンサンブル方法を実現する。また、VAEのサイクル一貫性と異なる推論グラフ間のモデル一貫性とがともに対処される。別の実施形態は、データの幾何学的情報を活用するためにグラフニューラルネットワークを使用し、プルーニング戦略は、関連を検証するためのベイズグラフ間の確率伝搬法によって支援される。
【0012】
システムは、訓練データセットを再生するのに良く適したベイズグラフモデルに関連付けられた最良の推論グラフモデルを検索する系統的な自動化フレームワークのやり方を提供する。提案されたシステムは、データ、クラスラベル、被験者識別情報(ID)、および固有の潜在表現に関して結合確率分布を因数分解することによって、さまざまな異なるベイズグラフを自動的に策定する。ベイズグラフを与えられると、いくつかの意味のある推論グラフが冗長リンクをプルーニングするために、ベイズ・ボールアルゴリズムを通して生成され、高精度の推定を達成する。被験者IDなどの迷惑パラメータに対するロバスト性を促進するために、探索されたベイズグラフは、変分モデル化を用いる/用いないドメイン解きほぐしを使用するための理由付けを提供することができる。実施形態のうちの1つとして、オートベイズを用いるオート転移は、被験者間、セッション間およびデバイス間転移学習のために、さまざまな生理学的データセット間で優れた性能を達成することができる。
【0013】
本発明のシステムでは、転移学習のためのさまざまな異なる打ち切り方法が、たとえば生体信号データの分類のために考慮される。システムは、「負の転移」という問題として知られているような、生体信号についての転移学習の難しさに対処するように確立され、それによって複数の被験者またはセッションからのデータセットを組合せる単純な試みが応答統計におけるドメインの違いに起因してモデル性能を逆説的に低下させ得る。この発明の方法は、被験者識別子を表わす迷惑変数の変化に対して不変であるようにモデルを訓練することによって、そのような被験者転移の問題に取り組む。具体的には、方法は、相互情報量推定および生成モデル化に基づいて1組の良好なアプローチを構築するために、いくつかの確立されたアプローチを自動的に調べる。たとえば、方法は、さまざまな脳電図(EEG)データセット、筋電図(EMGデータセット)、および皮質脳波記録(electrocorticography:ECoG)データセットといった現実のデータセットについて可能にされ、これらの方法が見知らぬ被験者への一般化を向上させ得ることを示す。いくつかの実施形態はまた、1組のこれらの良好なアプローチを単一のメタモデルになるよう組合せるためのアンサンブリング戦略を探索し、追加の性能を得る。ハイパーパラメータ調整を介したこれらの方法のさらなる探索は、追加の一般化向上を生み出すことができる。いくつかの実施形態については、システムおよび方法は、ゼロショットおよび数ショット学習フレームワークからの既存のテスト時間オンライン適応手法と組合されて、さらに良好な被験者転移性能を達成することができる。
【0014】
転移学習の問題への重要なアプローチは、エンコーダモデルが、我々の転移学習セットアップの一部として変化するであろう迷惑変数の変化に関する最小情報を含みつつ、タスクにとって有用な表現を学習するように、エンコーダモデルを打ち切ることである。具体的には、我々は、タスク関連ラベル(たとえばEEGタスクカテゴリ)と迷惑ラベル(たとえば被験者IDまたは記入者ID)とを有する高次元データ(たとえば未加工EEG入力)から構成されるデータセットを考慮する。直観的に、我々は、タスクに関連する変動のみを捉える表現を学習しようとする。このアプローチの背後にある動機は情報ボトルネック法に関連しているが、重要な違いを有する。情報ボトルネック法およびその変分変形は、迷惑変動に関する追加情報なしで、教師ありデータセットから有用で圧縮された表現を学習しようとするが、我々は、我々のモデルの出力に影響を与えるべきでないデータの変動のタイプに関する結論を引き出すために、追加の迷惑ラベルを明示的に使用する。多くの転移学習設定は、そのような迷惑ラベルを容易に利用可能にするであろう。そして直観的に、モデルはこの追加の監視源から利益を得るはずである。システムは、ドメイン解きほぐしのためのさまざまな正則化モジュールを探索することによって、被験者不変の表現を学習するために、明白でない利益を提供することができる。
【0015】
また、本発明のいくつかの実施形態によれば、人工ニューラルネットワークアーキテクチャの自動化構築のためのシステムが提供される。この場合、システムは、信号を送受信するように構成された1組のインターフェイスおよびデータリンクを含み得る。信号は、訓練データ、検証データ、およびテストデータのデータセットを含み、信号は、多次元信号Xにおいて1組のランダム変数因子を含み、ランダム変数因子の一部は、識別するためのタスクラベルYと、迷惑変動Sとに関連付けられる。システムはさらに、1組の再構成可能DNNブロックを格納するための1組のメモリバンクを含み、再構成可能DNNブロックの各々は、多次元信号XからタスクラベルYを識別するための主タスクパイプラインモジュールと、複数の潜在変数Zと迷惑変動Sとの間の解きほぐしを調節するための1組の補助正則化モジュールとを有して構成される。メモリバンクはさらに、ハイパーパラメータ、訓練可能変数、中間ニューロン信号、ならびに、順方向パス信号および逆方向パス勾配を含む仮計算値を含む。システムはさらに、インターフェイスおよびメモリバンクと接続されており、信号およびデータセットを再構成可能DNNブロックへ提示するように構成された、少なくとも1つのプロセッサを含む。少なくとも1つのプロセッサは、1組のグラフィカルモデル、1組のプリショット正則化方法、1組の前処理方法、1組の後処理方法、および1組のポストショット適応方法にわたって探索を実行して、メモリバンクにおいてハイパーパラメータを修正することによってタスク予測が迷惑変動Sを感じないように再構成可能DNNブロックを再構成するように構成される。
【0016】
さらに、本発明のいくつかの実施形態は、人工ニューラルネットワークアーキテクチャの自動化構築のための、コンピュータにより実現される方法を提供する。コンピュータにより実現される方法は、訓練データ、検証データ、およびテストデータのデータセットを供給するステップを含み得る。データセットは、多次元信号Xにおいて1組のランダム変数因子を含み、ランダム変数因子の一部は、識別するためのタスクラベルYと、迷惑変動Sとに関連付けられる。コンピュータにより実現される方法はさらに、多次元信号XからタスクラベルYを識別するための1組の再構成可能DNNブロックを構成するステップを含み得る。1組の再構成可能DNNブロックは、複数の潜在変数Zと迷惑変動Sとの間の解きほぐしを調節するための1組の補助正則化モジュールを含む。コンピュータにより実現される方法はさらに、訓練データについて、タスク予測が正確であるように確率的勾配最適化を介して1組の再構成可能DNNブロックを訓練するステップと、検証データについて、タスク予測が迷惑変動Sを感じないように最良のハイパーパラメータを検索するために1組の補助正則化モジュールを探索するステップとを含み得る。
【0017】
この発明のさらなる理解を提供するために含まれる添付図面は、この発明の実施形態を示し、説明とともに、この発明の原理を説明する。
【図面の簡単な説明】
【0018】
【
図1A】本開示の実施形態に従った、潜在Zおよび半ラベル付き迷惑Sの下でデータXを与えられてYを分類するための推論方法を示す図である。
【
図1B】本開示の実施形態に従った、潜在Zおよび半ラベル付き迷惑Sの下でデータXを与えられてYを分類するための推論方法を示す図である。
【
図1C】本開示の実施形態に従った、潜在Zおよび半ラベル付き迷惑Sの下でデータXを与えられてYを分類するための推論方法を示す図である。
【
図2A】本開示のいくつかの実施形態に従った、特定の因数分解のための例示的なベイズグラフモデルおよび干渉モデルを示す図である。
【
図2B】本開示のいくつかの実施形態に従った、特定の因数分解のための例示的なベイズグラフモデルおよび干渉モデルを示す図である。
【
図2C】本開示のいくつかの実施形態に従った、特定の因数分解のための例示的なベイズグラフモデルおよび干渉モデルを示す図である。
【
図3A】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3B】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3C】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3D】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3E】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3F】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3G】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3H】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3I】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3J】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図3K】本開示のいくつかの実施形態に従った、自動化探索下のデータ生成モデルのための例示的なベイズグラフモデルを示す図である。
【
図4A】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4B】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4C】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4D】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4E】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4F】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4G】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4H】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4I】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4J】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4K】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図4L】本開示のいくつかの実施形態に従った、特定の生成モデルに関連する例示的な推論因子グラフモデルを示す図である。
【
図5A】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5B】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5C】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5D】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5E】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5F】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5G】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5H】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5I】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図5J】本開示の実施形態に従った、条件因子として陰影付き条件付きノードを有するベイズ・ボールアルゴリズムの10個の基本ルールのうちの1つを示す図である。
【
図6】本開示の実施形態に従った、モデルアーキテクチャを探索するためのオートベイズアルゴリズムの全体的手順を説明する例示的なアルゴリズムを示す図である。
【
図7A】本開示の実施形態に従った、ベルヌーイ基準およびクリーク基準に基づいたペアワイズスコア推定のための部分集合選択の全体的手順を説明する例示的なアルゴリズムを示す図である。
【
図7B】本開示の実施形態に従った、ベルヌーイ基準およびクリーク基準に基づいたペアワイズスコア推定のための部分集合選択の全体的手順を説明する例示的なアルゴリズムを示す図である。
【
図8】本開示の実施形態に従った、迷惑因子Sを解きほぐすために潜在因子Zが1組の打ち切り方法によって正則化される、エンコーダfおよびデコーダgの主パイプラインにおいてデータXからタスクラベルYを予測するための例示的なモデルを示す図である。
【
図9A】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの敵対的打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図9B】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの敵対的打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図9C】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの敵対的打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図10A】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの相互情報勾配推定(MIGE)ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図10B】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの相互情報勾配推定(MIGE)ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図10C】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの相互情報勾配推定(MIGE)ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図11A】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの最大平均不一致(maximum mean discrepancy:MMD)ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図11B】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの最大平均不一致(MMD)ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図11C】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの最大平均不一致(MMD)ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図12A】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでのペアワイズMMDベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図12B】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでのペアワイズMMDベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図12C】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでのペアワイズMMDベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図13A】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの境界型均衡敵対的生成ネットワーク(boundary equilibrium generative adversarial network:BEGAN)弁別器ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図13B】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの境界型均衡敵対的生成ネットワーク(BEGAN)弁別器ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図13C】本開示の実施形態に従った、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードでの境界型均衡敵対的生成ネットワーク(BEGAN)弁別器ベースの打ち切り方法を記述する例示的な疑似コードを示す図である。
【
図14A】本開示の実施形態に従った、ポストショット適応段階で使用される例示的な1組の後処理モジュールを示す図である。
【
図14B】本開示の実施形態に従った、ポストショット適応段階で使用される例示的な1組の後処理モジュールを示す図である。
【
図14C】本開示の実施形態に従った、ポストショット適応段階で使用される例示的な1組の後処理モジュールを示す図である。
【
図14D】本開示の実施形態に従った、ポストショット適応段階で使用される例示的な1組の後処理モジュールを示す図である。
【
図15A】本開示の実施形態に従った、例示的な1組の前処理モジュールを示す図である。
【
図15B】本開示の実施形態に従った、例示的な1組の前処理モジュールを示す図である。
【
図15C】本開示の実施形態に従った、例示的な1組の前処理モジュールを示す図である。
【
図15D】本開示の実施形態に従った、例示的な1組の前処理モジュールを示す図である。
【
図15E】本開示の実施形態に従った、例示的な1組の前処理モジュールを示す図である。
【
図15F】本開示の実施形態に従った、例示的な1組の前処理モジュールを示す図である。
【
図16】本開示の実施形態に従った、プロセッサ、メモリ、およびインターフェイスを有して構成されたシステムの概略図である。
【発明を実施するための形態】
【0019】
本発明のさまざまな実施形態を、図面を参照して以下に説明する。なお、図面は縮尺通りに描かれておらず、同様の構造または機能の要素は、図面全体を通し、同じ参照番号によって表わされる。また、図面は、この発明の特定の実施形態の説明を容易にするよう意図されているに過ぎない。図面は、この発明の網羅的な説明として、またはこの発明の範囲に対する限定として意図されてはいない。加えて、この発明のある特定の実施形態に関連して説明される局面は、必ずしもその実施形態に限定されず、この発明の任意の他の実施形態において実践され得る。
【0020】
図1Aは、観察データXからタスクラベルYを識別するための推論を提供する人工知能(artificial intelligence:AI)モデルの例示的な概略図を示す。タスクラベルは、カテゴリ的な識別番号、または非カテゴリ的な連続値である。カテゴリ的推論については、AIモデルは分類タスクを行ない、一方、非カテゴリ的推論については、モデルは回帰タスクを行なう。タスクラベルは、スカラ値、または複数の値のベクトルである。観察データは、
・画像、写真、映画、テキスト、文字、声、音楽、オーディオ、および音声のようなメディアデータ、
・電波、光信号、電気パルス、温度、圧力、加速度、速度、振動、質量、水分、および力のような物理的データ、ならびに、
・心拍数、血圧、脳波図、筋電図、心電図、筋音図、眼電図、電気皮膚反応、脳磁気図、および皮質脳波記録のような生理学的データ、
を含むもののそれらに限定されない多くの信号およびセンサデータを表わすための、少なくとも1つの軸を有するテンソルフォーマットである。
【0021】
たとえば、AIモデルはユーザの脳波測定値から感情を予測し、この場合、データは、測定時間にわたる複数チャネルセンサからの時空スペクトル写真を表わす3軸テンソルである。XおよびYのペアを有する利用可能なデータ信号はすべて、AIモデルを訓練するためのデータセットのバッチ全体として束ねられ、それらは、教師あり学習のための訓練データまたは訓練データセットと呼ばれる。いくつかの実施形態については、半教師あり設定として、訓練データセットの一部についてはタスクラベルYがない。
【0022】
AIモデルは、1組のハイパーパラメータによってアーキテクチャが特定される再構成可能ディープニューラルネットワーク(DNN)モデルによって実現され得る。1組のハイパーパラメータは、隠れノードの数、隠れ層の数、活性化関数のタイプ、グラフエッジ接続性、セルの組合せを含むものの、それらに限定されない。再構成可能DNNアーキテクチャは典型的には、アフィン変換重みおよびバイアスなどの多くの訓練可能パラメータを有する、完全接続層、畳み込み層、再帰層、プーリング層、および正規化層といった、セルの組合せを使用する多層パーセプトロンに基づいている。活性化関数のタイプは、sigmoid、hard sigmoid、log sigmoid、tanh、hard tanh、softmax、soft shrink、hard shrink、tanh shrink、整流線形ユニット、soft sign、指数線形ユニット、シグモイド線形ユニット、mish、hard swish、soft plusを含むものの、それらに限定されない。グラフエッジ接続性は、スキップ追加、スキップ連結、スキップ積(product)、分岐、ルーピングを含むものの、それらに限定されない。たとえば、残余ネットワークは、より深い層の安定した学習を可能にする、ある隠れ層から別の隠れ層へのスキップ接続を使用する。
【0023】
DNNモデルは、確率的勾配降下法、適応運動量勾配、二乗平均平方根伝搬、適応勾配、適応デルタ、適応マックス、弾性バックプロパゲーション、および重み付け適応運動量などの勾配法によって目的関数を最小化または最大化するように、訓練データセットについて訓練される。いくつかの実施形態については、訓練データセットは、局所勾配更新のために複数のサブバッチへと分割される。いくつかの実施形態については、訓練されたDNNモデルの性能を評価するために、訓練データセットの一部が検証データセットのために差し出される。いくつかの実施形態では、訓練データセットからの検証データセットが、相互検証のために循環される。相互検証のために訓練データをサブバッチへと分割するためのやり方は、ランダムサンプリング、重み付けランダムサンプリング、1つのセッションの差し出し、1人の被験者の差し出し、1つの領域の差し出しを含むものの、それらに限定されない。典型的には、各サブバッチについてのデータ分布は、ドメインシフトに起因して同一ではない。
【0024】
勾配ベースの最適化アルコリズムは、学習速度および重み減衰といったいくつかのハイパーパラメータを有する。学習速度は選択するべき重要なパラメータであり、ステップ関数、指数関数、三角関数、および横ばいの適応減衰といったいくつかのスケジューリング方法によって自動的に調節され得る。進化戦略、遺伝的アルゴリズム、差分進化、およびネルダー・ミード(Nelder-Mead)といった非勾配最適化も使用可能である。目的関数は、L1損失、平均二乗誤差損失、交差エントロピー損失、コネクショニスト時間分類損失、負の対数尤度損失、カルバック・ライブラー(Kullback-Leibler)発散損失、マージンランキング損失、ヒンジ損失、フーバー(Huber)損失を含むものの、それらに限定されない。
【0025】
隠れノードについてのガイダンスを有していない標準AIモデルは、タスク問題を解決するための過剰パラメータ化されたDNNアーキテクチャに起因して、局所極小トラッピングに悩まされるおそれがある。訓練収束を安定させるために、いくつかの正則化手法が使用される。たとえば、アフィン変換重みを正則化するために、L1/L2ノルムが使用される。バッチ正規化手法およびドロップアウト手法も、過学習を防止するための一般的な正則化手法として広く使用される。他の正則化手法は、ドロップコネクト、ドロップブロック、ドロップパス、シェイクドロップ、空間ドロップ、ゾーンアウト、確率的深度、確率的幅、スペクトル正規化、シェイクシェイクを含むものの、それらに限定されない。しかしながら、それらのよく知られた正則化手法は、根底的なデータ分布を利用しない。ほとんどのデータセットは、XとYとの間の特定の確率論的関係と、タスク予測性能を妨害する多くの迷惑因子Sとを有する。たとえば、脳波信号などの生理学的データセットは、そのような迷惑因子Sとしての被験者の精神状態および測定条件に非常に依存する。迷惑変動は、1組の被験者識別情報、セッション番号、生物学的状態、環境状態、センサ状態、位置、配向、サンプリングレート、時間、および感度を含む。さらに別の例については、Wi-Fi信号などの電磁気データセットは、室内環境、周囲のユーザ、干渉、およびハードウェア不完全性の影響を受けやすい。本開示は、迷惑因子の変化によって引き起こされたドメインシフトをAIモデルが感じないようにそれらの迷惑因子を考慮することによって、DNNブロックを効率的に正則化するためのやり方を提供する。
補助正則化モジュール
【0026】
DNNモデルはエンコーダ部分と分類器部分(または回帰タスクのための回帰器部分)とに分解可能であり、ここで、エンコーダ部分は、データXから特徴ベクトルを潜在変数Zとして抽出し、分類器部分は、潜在変数ZからタスクラベルYを予測する。たとえば、潜在変数Zは、DNNモデルの中央層での隠れノードのベクトルである。エンコーダブロックと分類器ブロックとを有して構成されたAIモデルの例示的なパイプラインを
図1Bに示す。ここで、エンコーダはXを与えられてZを生成し、デコーダはYを与えられてZを予測する。
【0027】
エンコーダおよび分類器の主パイプラインに加えて、
図1Bは、潜在変数Zを正則化するための追加の補助正則化モジュールを有する例示的なDNNブロックを図示する概略図を示す。具体的には、迷惑変動Sの追加の条件付き情報を用いて元のデータXを再構成するために、デコーダDNNブロックが潜在変数Zに取り付けられる。この条件付きデコーダは、潜在変数Zからの迷惑ドメイン情報Sの解きほぐしを促進することができる。たとえば、迷惑ドメイン変動Sは、生理学的データセットのための被験者識別情報(ID)、測定セッションID、ノイズレベル、被験者の身長/体重/年令情報などを含む。潜在変数(Z)からそれらの迷惑因子Sを解きほぐすことにより、本発明は、長い較正セッションなしで、被験者不変の汎用ヒューマンマシンインターフェイスを実現することができる。デコーダと呼ばれる補助DNNブロックは、ZからXを再生するために、平均二乗誤差損失またはガウスの負の対数尤度損失といった別の損失関数を最小化するように訓練される。
【0028】
いくつかの実施形態については、潜在変動Zは、複数の潜在因子Z1、Z2、…、ZLへとさらに分解され、それらは各々、1組の迷惑因子Z1、Z2、…、ZLによって個々に正則化される。加えて、いくつかの迷惑因子は、データセットに依存して部分的に既知であるかまたは未知である。迷惑因子の既知のラベルについては、DNNブロックは教師ありの態様で訓練可能であり、一方、それは、ラベルなし迷惑因子については半教師ありの態様を必要とする。半教師ありのケースについては、迷惑因子のすべての潜在的ラベルにわたる変分サンプリングに基づいた疑似ラベル付けが、いくつかの実施形態については、たとえばいわゆるガンベル(Gumbel)softmax再パラメータ化トリックに基づいて使用される。たとえば、データセットにおけるデータの一部には被験者の年令情報がなく、一方、データの残りは、教師あり正則化のために使用されるべき年令情報を有する。
【0029】
図1BにおけるDNNブロックは、迷惑変動Sを推定するために潜在変数Zに取り付けられた別の補助正則化モジュールを有する。この正則化DNNブロックは、ロバストになるように迷惑因子の解きほぐしをさらに促進するために使用され、しばしば敵対的ネットワークと呼ばれる。なぜなら、正則化DNNブロックは、ZからSを推定するために損失関数を最小化するように訓練され、一方、主パイプラインDNNブロックは、迷惑情報を打ち切るために当該損失関数を最大化するように訓練されるためである。敵対的ブロックは、敵対的係数、敵対的学習速度、敵対的交互の間隔、およびアーキテクチャ仕様を含む関連付けられたハイパーパラメータを用いて、交互に訓練される。
【0030】
図1Bにおけるグラフィカルモデルは、下流タスク分類器のための教師なし特徴抽出のための敵対的条件付き変分オートエンコーダ(A-CVAE)として知られている。A-CVAEのグラフィカルモデルは、ランダム変数因子X、Y、Z、およびSにわたる接続性を表わすためのさまざまなグラフノードおよびグラフエッジを有する。正則化ブロックを用いることにより、A-CVAEモデルは、迷惑因子に対するより高いロバスト性を有する。したがって、補助正則化モジュールは、見知らぬ迷惑因子に対してAIモデルをロバストにするための、いわゆるプリショット転移学習手法またはドメイン一般化手法として使用される。
アーキテクチャ探索
【0031】
エンコーダ、分類器、デコーダ、および敵対的ネットワークブロックを接続するための可能なやり方は多数ある。たとえば、
図1Cは、データXから迷惑因子Sを推定するための別の補助モデルがある1つの例示的なDNNブロックを示す。実現可能なDNN接続性の可能な数はAIモデルのサイズとともに急速に爆発的に増加するため、妥当なAIモデルを効率的に構築することが必要とされる。加えて、ランダムに接続されたDNNブロックは、役に立たず、正当と認められない傾向がある。いくつかの実施形態については、グラフ接続性は、オートベイズと呼ばれる自動化ベイズグラフ探索法を使用することによって探索される。オートベイズの核心となるのは、データ特徴X、タスクラベルY、迷惑変動ラベルS、および(潜在的な)潜在表現Zを表わすランダム変数間の確率論的関係を捉えるグラフィカルベイズモデルを考慮することである。主な目的は、測定されたデータ特徴XからタスクラベルYを推論することであり、それは、Sによって(部分的に)ラベル付き迷惑変動(たとえば、被験者間/セッション間変動)の存在によって妨げられる。潜在表現Z(さらに、必要に応じてZ
1、Z
2、…、Z
Lによって示される)はまた、オプションで、S、X、およびY間の根底的関係を捉えるのを助けるために、これらのAIモデルに導入される。
【0032】
【0033】
図2A、
図2B、および
図2Cにおける上述のグラフィカルモデルは、データセットにおける潜在的に固有の独立性の仮定を何ら課さず、したがって最も包括的である。しかしながら、データセットにおける根底的な独立性に依存して、我々は、それらのグラフにおけるいくつかのエッジをプルーニングすることができる場合がある。たとえば、データが、SおよびZから独立したY-Xというマルコフ(Markov)連鎖を有する場合、それは自動的に
図1Aをもたらす。これは、高い自由度を有する最も複雑な推論モデルが必ずしも任意のデータセット間で最良に機能するとは限らない、ということを暗示する。それは我々に、他のハイパーパラメータ設計に加えて、データセットと整合する推論因子グラフモデルおよび対応するベイズグラフモデルの最良のペアを自動的に探索する拡張オートMLフレームワークを考慮するように動機付ける。
【0034】
オートベイズは、
図2Aにおける完全連鎖グラフのリンクを切断し、可能な独立性を課すことによって、任意の潜在的ベイズグラフを探索することから始まる。次に、我々は、たとえば
図2Bおよび
図2Cにおける完全連鎖推論グラフといった異なる推論戦略に対する条件付き独立性を調べるために、各仮説ベイズグラフに対してベイズ・ボールアルゴリズムを採用する。ベイズ・ボールは、
図2Bおよび
図2Cの完全連鎖推論グラフにおけるリンクの妥当なプルーニングを正当化し、また、ZがSから独立している場合の潜在的敵対者打ち切りも正当化する。このプロセスは、たとえば
図1Cの任意のモデルから
図1BのA-CVAE分類器を構築するために、正当な理由付けを用いて推論ブロック、生成ブロック、および敵対者ブロックの接続性を自動的に構築する。
例示的なベイズグラフモデル
【0035】
メディアデータ、物理的データ、および生理学的データなどのセンサ測定値を与えられても、真の結合確率は我々には前もって分からないため、我々は、可能な生成モデルのうちの1つを仮定するものとする。推論モデルアーキテクチャを検索する通常のオートMLフレームワークとは異なり、オートベイズは、測定分布と整合するように任意のそのような潜在的グラフモデルを探索することを目標とする。Y、S,Z、およびXを伴う4つのノードのケースでさえ、グラフィカルモデルの最大可能数は莫大であるため、我々は、そのようなベイズグラフのいくつかの実施形態を
図3A~3Kに示す。各ベイズグラフは、結合確率因数分解に基づいた1つの生成モデルに対応する。
【0036】
仮定されたベイズグラフに依存して、関連する推論戦略が、推論因子グラフにおけるいくつかの変数が条件付きで独立しているように決定されるであろう。それは、リンクをプルーニングすることを可能にする。
図4A~4Lに示されるように、妥当な推論グラフモデルが、データセットに固有の各ベイズグラフ仮説に基づいてベイズ・ボールアルゴリズムによって自動的に生成され得る。たとえば、
図3Eにおける生成モデルEは、
図4Cにおける推論因子グラフモデルEzを自動的に生成することができる。それらの生成モデルおよび推論モデルを合併させることにより、オートベイズは、
図1BにおけるA-CVAEに基づいて、迷惑に対してロバストなモデルを自動的に構築することができる。
ベイズ・ボールアルゴリズム
【0037】
本発明のシステムは、条件付き独立性の分析を通して推論因子グラフにおけるリンクの自動プルーニングを容易にするための、ベイズ・ボールアルゴリズムに依拠する。ベイズ・ボールアルゴリズムは、
図5A~5Jに示されるような条件付き独立性を識別するために、ちょうど10個のルールを使用する。有向ベイズグラフが与えられると、我々は、グラフ分離基準を適用することによって、ノードの2つの互いに素な集合間の条件付き独立性が他のノードに対して条件付けを与えるかどうかを決定することができる。具体的には、ベイズ・ボールが
図5A~5Jにおける停止矢印記号に遭遇せずに進むことができる場合、無向経路が起動される。いくつかの他の条件付けノードが陰影付けされている場合にノードの2つの集合間にアクティブな経路がなければ、ランダム変数のそれらの集合は、条件付きで独立している。ベイズ・ボールアルゴリズムを用いて、この発明は、オートベイズアルゴリズムについての2つの互いに素なノードの独立性関係を特定するリストを生成する。
オートベイズアルゴリズム
【0038】
図6は、本開示のいくつかの実施形態に従った、
図3A~3Kおよび
図4A~4Lだけではないより包括的なケースについての、アルゴリズム1の疑似コードに記述されたオートベイズアルゴリズムの全体的手順を示す。オートベイズは、ベイズ・ボールアルゴリズムの使用を通して、仮説ベイズグラフ仮定を与えられて非冗長推論因子グラフを自動的に構築する。導き出された条件付き独立性およびプルーニングされた因子グラフに依存して、エンコーダ、デコーダ、分類器、迷惑推定器、および敵対者のためのDNNブロックが合理的に接続される。DNNブロック全体は、変分ベイズ推論において敵対者学習を用いて訓練される。なお、一実施形態として、各DNNブロックのハイパーパラメータは、オートベイズフレームワークに加えてオートMLによってさらに最適化され得る。
【0039】
この発明のシステムは、ハイパーパラメータ、訓練可能変数、中間ニューロン信号、ならびに、順方向パス信号および逆方向パス勾配を含む仮計算値を格納するために、メモリバンクを使用する。それは、コンパクトになるように冗長リンクがプルーニングされるようにベイズ・ボールアルゴリズムに基づいてさまざまなベイズグラフを探索することによって、DNNブロックを再構成する。データセットに依存して、オートベイズはまず、すべてのノードを特定の順列順で接続するために完全連鎖有向ベイズグラフを作成する。システムはその後、完全連鎖ベイズグラフにおけるグラフエッジの特定の組合せをプルーニングする。次に、2つの互いに素なノード間の条件付き独立性関係をリストアップするために、ベイズ・ボールアルゴリズムが採用される。仮説における各ベイズグラフについて、別の完全連鎖有向因子グラフが、データ信号Xに関連付けられたノードから構築され、他のノードを異なる因数分解順で推論する。次に、独立性リストに依存して、完全連鎖因子グラフにおける冗長リンクのプルーニングが採用され、それにより、DNNリンクはコンパクトになり得る。別の実施形態では、冗長リンクは意図的に維持され、漸進的にグラフティングしている。プルーニングされたベイズグラフとプルーニングされた因子グラフとは、生成モデルと推論モデルとが一貫するように組合される。組合されたグラフィカルモデルが与えられると、エンコーダ、デコーダ、分類器、推定器、および敵対者ネットワークのためのすべてのDNNブロックは、モデルへの接続において関連付けられる。このオートベイズは、迷惑に対してロバストな推論を実現し、新たなテストデータセットのための新たなデータドメインに転送される。
【0040】
オートベイズアルゴリズムは、5つ以上のノード因子のために一般化され得る。そのような実施形態の例として、迷惑変動Sは、教師あり設定、半教師あり設定、および教師なし設定の組合せに従って、複数のドメイン側情報としての変動S
1、S
2、…、S
Nの複数の因子へとさらに分解される。実施形態の別の例として、潜在変数は、分解された特徴ベクトルとしての潜在変数Z
1、Z
2、…、Z
Lの複数の因子へとさらに分解される。
図1Cは、そのような実施形態のうちの1つである。分解された因子を有する一実施形態の例として、迷惑変動は、被験者識別情報、セッション番号、生物学的状態、環境状態、センサ状態、位置、配向、サンプリングレート、時間、および感度といった、異なる因子へとグループ化される。
【0041】
異なるグラフィカルモデルを探索する際、一実施形態は、性能を向上させるために探索されたすべての異なるモデルの出力を、たとえばアンサンブル性能を実現するために加重和を用いて使用する。さらに別の実施形態は、異なるグラフィカルモデルを組合せるために最良の重みを学習する追加のDNNブロックを使用する。この実施形態は、データを与えられて関連するグラフィカルモデルを適応的に選択するために注意ネットワークを用いて実現される。元の結合確率が同一であるため、この実施形態は、異なるグラフィカルモデル間のコンセンサス平衡および投票(voting)を考慮する。いくつかの実施形態については、それはまた、エンコーダ/デコーダDNNブロックのサイクル一貫性を認識する。
打ち切りモード
【0042】
オートベイズアーキテクチャ探索を用いて、我々は、所与の生成モデルについての潜在変数Zと迷惑変動Sとの間の独立性を識別することができる。敵対的ネットワークおよび条件付きデコーダなどの補助正則化モジュールは、そのようなモデルについてのZとSとの間の相関を解きほぐすことを支援することができる。制約付きリスク最小化フレームワーク下では、ZとSとの間の独立性を促進するために、補助正則化モジュールのためのそのような打ち切りモードが複数タイプある。実際、敵対的打ち切りは、特徴解きほぐしを達成するための唯一のやり方ではない。具体的には、我々はいくつかの修正された学習フレームワークを考慮し、そこで我々は、たとえば以下の打ち切りモードを使用して、分類器モデルが異なるドメイン間で同様の性能を達成することができるように、学習された表現Zと迷惑変数Sとの間の独立性の何らかの概念を実施する。
【0043】
【0044】
【0045】
【0046】
我々が3つ以上の潜在表現を有する場合、打ち切りモードの数は、条件付き/無条件解きほぐしと相補的解きほぐしとの組合せとともに自然に増加される。
【0047】
最初の限界的打ち切りモードは、「迷惑から独立した表現」という最も単純な概念を捉える。たとえば、この限界的打ち切りモードは、A-CVAEモデルの敵対的弁別器によって実現される。ラベルの分布が迷惑変数に依存しない場合、この限界的打ち切りアプローチはタスク目的と矛盾しない。なぜなら、迷惑因子Sは、下流タスクがYを予測するのに有用ではないためである。しかしながら、YとSとの間には何らかの相関が存在し得る。このため、タスクラベルYを予測するために有用であるように訓練された表現Zも、Sについて有益であり得る。2番目の条件付き打ち切りモードは、ZがSについての何らかの情報を含むものの、タスクラベルYによってすでに暗示された量を上回らないことを可能にすることによって、タスク目的と打ち切り目的との間のこの矛盾を勘案する。たとえば、A-CVAEモデルは、この条件付き打ち切りモードの同様の効果を達成するために、条件付きデコーダDNNブロックを使用する。3番目の相補的打ち切りモードは、表現Zのある部分が迷惑変数Sから独立しつつ、他の部分が迷惑変数に強く依存することを要求することによって、この矛盾を勘案する。この打ち切りモードは
図1Cに示される。
【0048】
それらの打ち切りモードは、所望の独立性を実施する制約付き最適化問題を考慮することをもたらす。我々は、この制限について、相互情報に基づいた形式と、2つの分布間のダイバージェンスに基づいた形式という、2つの形式を考慮する。具体的には、我々は、以下のようにラグランジュ(Lagrange)乗数を使用することによって制約付き最適化問題を解く:
【数5】
独立性を推定するための打ち切り方法
【0049】
独立性を推定するために、我々は、相互情報およびダイバージェンスを計算するためのいくつかの打ち切り方法を考慮する。相互情報ベースの打ち切り方法については、以下のものを含むもののそれらに限定されないいくつかのアプローチがある:
・敵対的迷惑分類器における交差エントロピー損失;
・相互情報ニューラル推定(mutual information neural estimation:MINE);
・相互情報勾配推定(mutual information gradient estimation:MIGE)。
【0050】
いくつかの実施形態については、A-CVAEのための敵対的迷惑分類器において、交差エントロピー損失が、条件付きエントロピーH(s|z)を推定するために使用される。相互情報はI(z;s)=H(s)-H(s|z)として分解され得るため、これは我々に、相互情報についての推定値を与える。なぜなら、限界エントロピーH(s)は、モデルパラメータに関して一定であるためである。MINE方法は、DNNモデルを使用することによって、交差エントロピーではなく相互情報を直接推定する。しかしながら、これらの打ち切り方法の主な目的はZからSを解きほぐすことであり、このため、訓練のために相互情報を明示的に推定する必要はないが、相互情報勾配を推定する必要がある。MIGE方法は、相互情報の勾配を計算するためにスコア関数推定器を使用しており、たとえば、スペクトルスタイン勾配推定器(Spectral Stein Gradient Estimator:SSGE)、ヌーメソッド(NuMethod)、チホノフ(Tikhonov)、スタイン勾配推定器(Stein Gradient Estimator:SGE)、カーネル指数分布族推定器(Kernel Exponential Family Estimator:KEF)、ニストロム(Nystrom)KEF、スライススコアマッチング(Sliced Score Matching:SSM)といった、いくつかのカーネルベースのスコア推定器が知られている。カーネルベースのスコア推定器は、データセットに依存して適応的に選択され得るカーネル長といった、そのハイパーパラメータを有する。
【0051】
ダイバージェンスベースの打ち切り方法については、以下のようないくつかのアプローチを含むが、それらに限定されない:
・バイアスのある/バイアスのないカーネル推定値を用いる最小平均不一致(minimum mean discrepancy:MMD);
・ランダム部分集合選択を用いるペアワイズMMD;
・境界平衡敵対的生成ネットワーク(boundary equilibrium generative adversarial network:BEGAN)の弁別器;
・HSIC(Hilbert-Schmidt independence criterion:ヒルベルト・シュミット独立性基準);
・ワッサースタイン距離尺度のための最適輸送。
【0052】
最初の2つの方法は、2つの分布間の距離の数値的推定値を提供するMMDスコアのカーネルベースの推定値に依拠する。2つの分布間のMMDは、これらの分布が同等である場合にちょうど0であることが知られている。条件付き確率の定義により、我々が実施する独立性z⊥sは、分布q(z)およびq(z|s)が同等であること、またはそれに代えて、分布q(z|si)およびq(z|sj)が任意の迷惑ペア間で同等であることも暗示する。このため、我々は、潜在表現Zに迷惑変数からの独立を強制するように、分布のこれらのペアのうちの1つの間のMMDを最小化することができる。最初のMMD打ち切り方法は、q(z)=q(z|s)となるように選択を探索する。
【0053】
2番目のペアワイズMMD打ち切りは、任意の迷惑ペアについてq(z│s
i)=q(z|s
j)であるように選択を探索する。この「ペアワイズ」アプローチを使用して全体スコアを計算するために、我々は、迷惑変数の2つの別個の値のすべての組合せを必要とし、これらの個々の項にわたって平均を計算する。計算効率のためにこのオーバーヘッドを減少させるために、我々は、平均化ペアの部分集合を選択することによって、このペアワイズMMD打ち切り方法のいくつかの近似を考慮することができる。
図7Aおよび
図7Bは、2つの例示的な部分集合近似アルゴリズムについての疑似コードを示す。
図7Aにおける最初のアルゴリズムは、s
i,s
j(i≠j)のすべての可能なペアのランダム部分集合を選択するためにベルヌーイ(Bernoulli)分布を制御するパラメータb∈[0,1]を使用する。我々はそれを「ベルヌーイ」部分集合選択と呼ぶ。
図7Bにおける2番目のアルゴリズムは、含まれる迷惑値の数を制御する整数d∈{1,…,M}を使用し、この部分集合内のすべての組合せを考慮する。我々はそれを「クリーク」部分集合選択と呼ぶ。
【0054】
いくつかの実施形態については、3番目のダイバージェンスベースの打ち切り方法において、我々は、BEGANモデルに基づいたニューラル弁別器を使用する。BEGANでは、弁別器はオートエンコーダネットワークとしてパラメータ化され、それは、実データおよび偽データについてのそれ自体の平均オートエンコーダ損失を比較することによって、真のデータ分布と生成されたデータ分布とのダイバージェンスの定量的尺度を提供する。これは、真のオートエンコーダ損失と偽のオートエンコーダ損失との間のワッサースタイン-1距離の推定値に対応しており、これは、生成器がその生成されたデータ分布を真のデータ分布と整合させることを可能にするための安定した訓練信号を提供する。打ち切りスコアを測定するために、我々は、q(s)とq(z|s)とのダイバージェンスの代理尺度を提供するために、このアプローチを使用することができる。MMDと同様に、この距離を最小化することは、我々がSおよびZの依存性を減少させることを可能にする。
自動化転移学習:オート転移
【0055】
本開示は、AIモデルをドメインシフトおよび迷惑変動に対してロバストにするための転移学習フレームワークのためのアルゴリズムおよび方法がたくさんあるという認識に基づいている。たとえば、さまざまなプリショット正則化方法のために、上述されたように潜在変数から迷惑因子を解きほぐすための異なる打ち切りモードおよび打ち切り方法がある。また、本開示は、ノーフリーランチ定理のため、あらゆる任意のデータセット間で最良の性能を達成することができる単一の転送学習アプローチはない、という認識に基づいている。したがって、この発明の核心は、オートベイズフレームワークに基づいたアーキテクチャ探索に加えて、ターゲットデータセットに適した異なる転移学習アプローチを自動的に探索することである。本発明の方法およびシステムはオート転移と呼ばれ、それは、複数の組のアルゴリズムにわたって最良の転移学習アプローチの自動化検索を行なう。
【0056】
図8は、オート転移フレームワークの例示的な概略図を示す。AIモデルは、エンコーダモデルfおよび分類器モデルgを介してXからYを予測するための主パイプラインを有する。エンコーダモデルおよび分類器モデルは、いくつかの訓練可能パラメータによって特定される。潜在変数Zは、主パイプラインの中間層でエンコーダモデルによって生成される。潜在変数Zから迷惑変動Sを解きほぐすための1組の補助正則化モジュールまたはブロックがある。たとえば、データXは、脳コンピュータインターフェイスシステムのための運動イメージクラスYを予測するための被験者ID Sの脳電図(EEG)センサからの測定値である。本開示のオート転移における重要な要素は、探索のために1組の異なる正則化モジュールを使用することである。なぜなら、ある打ち切りアルゴリズムは、ある状況では良好に機能し得るものの、異なる状況ではタスク予測性能を損なうかもしれないためである。1組の補助正則化モジュールは、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードなどの異なる打ち切りモードに基づいており、敵対的打ち切り方法、MINE打ち切り方法、MIGE打ち切り方法、BEGAN弁別器打ち切り方法、MMD打ち切り方法、ペアワイズMMD打ち切り方法、HSIC打ち切り方法、最適輸送打ち切り方法を含むもののそれらに限定されない異なる打ち切り方法に基づいている。いくつかの実施形態では、A-CVAEモデルと同様に、複数の打ち切りアルゴリズムが同時に使用される。
【0057】
潜在変数Zは、Yを予測するのに十分弁別的であるべきであり、一方、Zは、異なる迷惑変動S間で不変であるべきである。たとえば、Zの分布がタスクラベルYに依存して十分にクラスタ化される場合、それは一般により高いタスク分類性能をもたらす。しかしながら、脳コンピュータインターフェイスを被験者S1から別の被験者S2に変更する際に、クラスタ分布が被験者の違いに敏感であれば、それは、全く新たな見知らぬ被験者についてはより低い一般化可能性を有するかもしれない。1組の異なる打ち切りモジュールは、被験者不変の潜在表現Zを実施し得るものの、それらの一部は迷惑因子を過度に打ち切るかもしれず、それは次にタスク性能を低下させ得る。本発明は、オート転移フレームワークが1組の正則化モジュールから最良の打ち切りモジュールを自動的に見つけることを可能にする。たとえば、最良の正則化モジュールは、正則化モジュールを特定する離散的および連続的なハイパーパラメータ値の異なる組合せを探索するために、強化学習、進化戦略、差分進化、粒子群、遺伝的アルゴリズム、アニーリング、ベイズ最適化、ハイパーバンド、および多目的ラマルク(Lamarckian)進化論を含むもののそれらに限定されない外部最適化方法を使用することによって識別され得る。具体的には、検証データセットにおいて予想されるタスク性能を測定することによって、1組の最良のモジュールペアを自動的に導き出すことができる。いくつかの実施形態では、最良の正則化モジュールは、相互検証設定における、線形回帰、多層パーセプトロン、または注意ネットワークなどのアンサンブルスタッキングによって、さらに組合される。
【0058】
図9A、
図9B、および
図9Cはそれぞれ、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードで正則化モジュールのうちの1つとして使用される敵対的打ち切り方法を記述する例示的な疑似コードを示す。それらの敵対的打ち切りモジュールは、潜在表現Zを迷惑変数Sにわたる確率分布にマッピングする敵対的迷惑分類器モデルを使用して、Yを与えられたZとSとの間の条件付き相互情報を最小化することを考慮する。具体的には、我々は、敵対者モジュールのパラメータを、その予測タスクについての標準交差エントロピー損失を最小化するように訓練する。これは、条件付きエントロピーH(s|z)の上限を最小化することとして見られ得る。
【0059】
図10A、
図10B、および
図10Cはそれぞれ、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードで正則化モジュールのうちの1つとして使用されるMIGE打ち切り方法を記述する例示的な疑似コードを示す。高次元で相互情報を推定する難しさを考慮して、MIGEは、相互情報の勾配を直接推定するための効率的な方法を提供する。これは、相互情報項を含む目的関数が勾配降下法によって最小化されるであろう正則化にとって十分である。具体的には、MIGEは、データ分布およびその潜在表現Zからのサンプリングタプル(x,y,s)についての暗示的推進(pushforward)分布q(x,y,s)からのサンプリングによって、相互情報の勾配を計算する。MIGE打ち切り方法は、SSGE、kスコア(kscore)、ヌーメソッド;チホノフ、およびスタインを含むもののそれらに限定されない、いくつかのスコア関数推定器を使用する。MIGE打ち切りの1つの利点は、MIGE打ち切りが、しばしば不安定であるかまたは敵対的係数に敏感である敵対的訓練のために使用される交互最適化を必要としないという事実を含む。
【0060】
図11A、
図11B、および
図11Cはそれぞれ、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードで正則化モジュールのうちの1つとして使用されるMMD打ち切り方法を記述する例示的な疑似コードを示す。MMD打ち切り方法は、2つの分布間のダイバージェンスの望ましい措置として機能する。なぜなら、それは、測定中の分布のパラメトリック形式に関する仮定をせず、また、それは、サンプルのバッチからカーネル推定器を使用して効率的にかつ簡単に近似され得るためである。MMDは、2つの分布間のダイバージェンスを、(いくつかの最悪の場合については関数のクラスからの)各分布下のテスト関数の予想値間の差として記述する、積分確率メトリックである。MMD打ち切り方法は、好適なカーネル関数を使用して汎用再生核(カーネル)ヒルベルト空間において単位球を用いて、二乗されたMMDスコアのバイアスのない経験的推定値を提供する。なお、この推定値は、放射基底関数(radial basis function:RBF)カーネル行列の長さスケールといった、カーネルを定義するハイパーパラメータを含む。この長さスケールは、メディアンヒューリスティック(median heuristic)のようないくつかの方法によって調節され得る。具体的には、我々がサンプルのバッチについてカーネル行列を構築するたびに、我々は長さスケールを、当該バッチにおける点間の中央値ペアワイズL2距離に設定する。符号化された例のバッチについてこの条件付き打ち切りペナルティを計算するために、我々は、当該バッチの各クラス条件付き部分集合についての項を計算し、これらの項の平均を出す。我々は、逆クラス頻度を使用して平均における各項に重み付けする。それは、一律のクラス事前確率(class prior)を実施することに対応し、我々のバッチング手順におけるクラスアンバランスの可能性を勘案する。
【0061】
図12A、
図12B、および
図12Cはそれぞれ、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードで正則化モジュールのうちの1つとして使用されるペアワイズMMD打ち切り方法を記述する例示的な疑似コードを示す。MMD打ち切り方法とよく似ていることにより、ペアワイズMMD打ち切り方法は、量的代理を用いて各迷惑条件付き分布間の平均ダイバージェンスを最小化するためのペナルティを計算する。このペアワイズMMD打ち切りアプローチは、バッチの各クラス条件付き部分集合についての同類項を計算することによって、条件付き独立性を実施する。前述と同様に、いくつかの実施形態では、我々は、我々のサンプルバッチにおいて起こり得るクラスアンバランスを勘案するために、クラス間の加重平均をとり得る。部分集合選択は、たとえば、
図7Aおよび
図7Bにおけるベルヌーイ近似およびクリーク近似によって実現される。
【0062】
図13A、
図13B、および
図13Cはそれぞれ、限界的打ち切りモード、条件付き打ち切りモード、および相補的打ち切りモードで正則化モジュールのうちの1つとして使用されるペアワイズMMD打ち切り方法を記述する例示的な疑似コードを示す。BEGANは、生成モデルを学習するために敵対的訓練スキームを使用する。生成器ネットワークは、その潜在空間におけるガウス分布からのサンプルを、ターゲットデータ分布からのサンプルに近似的にマッピングしようとし、一方、弁別器ネットワークは、真のデータサンプルと偽のデータサンプルとを識別しようとする。このモデルの重要な要素は、弁別器が真のデータおよび生成データについてのそのオートエンコーダ損失の分布間のワッサースタイン-1距離の下限を計算するように設計された訓練目的を有して、オートエンコーダを弁別器として使用することである。言い換えれば、弁別器は、「真の」データ分布についてのみうまく機能するオートエンコーダマップを学習しようとすることによって2つのデータ分布を区別し、一方、生成器は、「真の」データ分布と整合し、したがってこのオートエンコーダマップによって良好に保存されるデータを生成しようとする。それらはさらに、真のデータおよび生成データについての弁別器の損失項の大きさを適応的にスケール変更するためのトレードオフパラメータを導入することによって、それらの弁別器モデルの訓練を安定させる。これは、モデルのうちの1つのカスタムスケジューリングまたは事前訓練といった共通のGAN訓練トリックを必要とすることなく、訓練の成功を可能にする。弁別器の役割は、生成器がともにより接近している異なるドメインから2つの分布をもたらすことができるように、代理目的を提供することである。これは、エンコーダモデルがダイバージェンスを最小化することを可能にする信号を提供するように容易に適応され得る。我々は、BEGANからの交互最適化アルコリズムを使用するが、「真の」データの分布をq(z)と置換し、「生成」データの分布をq(z|s)と置換する。我々は、迷惑変数の各可能値についてこのやり方で損失項を計算し、これらの値の平均を出す。なお、交互最適化では、弁別器およびエンコーダは、2つの損失項を使用して、別々のステップで最適化される。BEGAN最適化アルコリズムは、これら2つのモデル間のバランスを維持するようにこれらの損失項の相対的な大きさを制御する追加入力を含む。
自動化前処理/後処理
【0063】
本発明におけるオート転移フレームワークの上述の説明は、具体的には、新たなターゲットドメインに利用可能なテストデータセットがない場合における、ドメイン一般化としても知られているプリショット転移学習に適している。にもかかわらず、オート転移は、ドメインシフトへの高いレジリエンスのために、オンラインドメイン適応としても知られているポストショット転移学習を向上させることもできる。ポストショット学習は、ターゲットドメインにおけるラベルなしデータが利用可能であるゼロショット学習と、ターゲットドメインにおけるいくつかのラベル付きデータが事前訓練されたAIモデルを微調整するために利用可能である数ショット学習とを含む。いくつかの実施形態については、タスクラベルの有無にかかわらず、新たなデータが利用可能である場合、ポストショット微調整は、テスト段階の進行中にオンラインで実行される。ポストショット適応段階では、オート転移によって最適化された事前訓練されたAIモデルは、新規のユーザまたはターゲットドメインにおける1組の較正データセットによってさらに更新される。更新は、疑似ラベリング、ソフトラベリング、混乱最小化、エントロピー最小化、特徴正規化、加重zスコアリング、弾性重み統合を用いる継続的学習、フィックスマッチ(FixMatch)、ミックスアップ(MixUp)、ラベル伝搬、適応層凍結、ハイパーネットワーク適応、潜在空間クラスタ化、量子化、疎化、ゼロショット半教師あり更新、および、数ショット教師あり微調整を含むもののそれらに限定されないドメイン適応手法によって達成される。
【0064】
本発明のいくつかの実施形態によれば、異なる打ち切り方法を探索するのと類似したやり方で、オート転移は、利用可能な異なるアプローチの中で最良のポストショット適応方法を検索することができる。
図14A、
図14B、
図14C、および
図14Dは、ポストショット段階で選択するべき例示的な1組の後処理モジュールを示す。選択は、ソースドメインまたはターゲットドメインにおける新たな検証データセットのためのベイズ最適化を含む、さまざまな最適化方法によって実現される。
【0065】
図14Aは、FixMatch方法の例示的な概略図を示す。予測を得るために、弱く拡張されたデータがAIモデルに供給される。予測されたスコアがしきい値を上回る場合、予測はワンホット疑似ラベルに変換される。次に、我々は、同じデータの強い拡張についてのモデルの予測を計算する。モデルは、交差エントロピー損失最小化を介して、強く拡張されたバージョンについてのその予測を疑似ラベルと整合させるように訓練される。
【0066】
図14Bは、コンパクトな潜在空間クラスタ化を用いる半教師あり学習に基づいた別の例示的な後処理方法を示す。それは、各訓練反復で潜在空間にグラフを動的に構築し、ラベルを伝搬してマニホ-ルドの構造を捉え、それを正則化してクラスごとに単一のコンパクトなクラスタを形成し、分離を容易にする。
【0067】
図14Cは、弾性重み統合を用いる継続的学習に基づいた後処理方法の別の例を示す。それは、タスクBについて訓練する間にタスクAが記憶されることを保証する。訓練軌跡がパラメータ空間に図示され、パラメータ領域がタスクAおよびタスクBについての良好な性能をもたらす。タスクBのみに従って勾配ステップを行なう場合、我々はタスクBの損失を最小化するものの、タスクAについて学習したことを損なうかもしれない。一方、我々が同じ係数を用いて各重みを制約する場合、課される制限は厳し過ぎ、我々は、タスクBを学習しないという犠牲を払わないとタスクAを記憶できない。よって、弾性重み統合は逆に、タスクAにとって重みがどれほど重要かを明示的に計算することによって、タスクAについて著しい損失を負うことなく、タスクBについての解決策を見つける。
【0068】
FixMatchの図では、予測を得るために、弱く拡張された画像(上)がモデルに供給される。モデルがしきい値(点線)を上回る任意のクラスに確率を割り当てると、予測はワンホット疑似ラベルに変換される。次に、同じ画像の強い拡張(下)についてのモデルの予測が計算される。モデルは、交差エントロピー損失を介して、強く拡張されたバージョンについてのその予測を疑似ラベルと整合させるように訓練される。
【0069】
図14Dは、半教師あり学習のためのラベル伝搬に基づいた後処理方法のさらに別の例を示す。三角はラベル付き訓練データを示し、円はラベルなし訓練データを示す。マニホ-ルドについての疑似ラベル予測の信頼度に従ってAIモデルを訓練するために使用される、拡散によって推論された疑似ラベルを生成するために、グラウンドトゥルースラベルが伝搬される。
【0070】
本発明のいくつかの実施形態によれば、方法は、各訓練反復でネットワークの潜在空間にグラフを動的に構築し、ラベルを伝搬してマニホ-ルドの構造を捉え、それを正則化してクラスごとに単一のコンパクトなクラスタを形成し、分離を容易にする。
【0071】
EWC(elastic weight consolidation:弾性重み統合)は、タスクBについて訓練する間にタスクAが記憶されることを保証する。訓練軌跡が概略パラメータ空間に図示され、パラメータ領域がタスクAおよびタスクBについての良好な性能をもたらす。第1のタスクを学習後、パラメータはθ*
Aにある。タスクBのみに従って勾配ステップを行なう場合(矢印(C))、方法はタスクBの損失を最小化する。我々が同じ係数を用いて各重みを制約する場合(矢印(B))、課される制限は厳し過ぎ、我々は、タスクBを学習しないという犠牲を払わないとタスクAを記憶できない。EWCは逆に、タスクAにとって重みがどれほど重要かを明示的に計算することによって、タスクAについて著しい損失を負うことなく、タスクBについての解決策を見つける(矢印(A))。
【0072】
マニホ-ルドの非常に単純な例題(toy example)についてのラベル伝搬では、三角はラベル付き訓練データを示し、円はラベルなし訓練データを示す。上の図は、ラベル付きポイントについての色分けされたグラウンドトゥルースと、ラベルなしポイントについての灰色とを示す。下の図は、CNNを訓練するために使用される、拡散によって推論された色分けされた疑似ラベルを示す。この場合、サイズは、疑似ラベル予測の確実性を反映する。
【0073】
後処理に加えて、オート転移は、未加工データをAIモデルに供給する前に、異なる前処理アプローチを探索することができる。前処理方法は、データ正規化、データ拡張、オート拡張、汎用敵対例(an universal adversarial example:UAE)、共通空間パターンフィルタリングなどの空間フィルタリング、主成分分析、独立成分分析、短時間フーリエ変換、フィルターバンク、ベクトル自己回帰フィルター、自己注意マッピング、ロバストなz-スコアリング、時空間フィルタリング、および、ウェーブレット変換を含むものの、それらに限定されない。たとえば、タスク分類を敵対的に妨害する確率的UAEが、データセットにおけるより挑戦的なアーティファクトに取り組むためのデータ拡張として使用される。前処理を特定するための多くの関連付けられたハイパーパラメータがある。たとえば、連続ウェーブレット変換は、フィルターバンク分解能およびマザーウェーブレットカーネル(
図15Dに示されるメキシカンハット型ウェーブレット、
図15Eに示されるモルレー(Morlet)ウェーブレット、および
図15Fに示されるガウス8(Gaus8)ウェーブレットなど)の選択を有し得る。多くの関連付けられたハイパーパラメータを用いる多くの前処理アプローチがあるため、自動化探索が人間の集中的な労力を必要とすることなく最良のアプローチを見つけることが必要とされる。
図15は、自動選択のために使用される例示的な1組の前処理モジュールを示す。いくつかの実施形態では、オート転移はまた、AIモデルがドメインシフトに対するロバスト性を達成しつつタスク予測において高精度を実現することができるように、さまざまなそのような前処理方法を自動的に探索する。いくつかの実施形態では、選択は、ベイズ最適化によって実現される。
【0074】
図15Aは、オート拡張に基づいた前処理方法の一例を示す。それは、よりよいデータ拡張ポリシーを見つけるために検索方法(たとえば強化学習)を使用する。補助コントローラモデル(たとえば再帰型ニューラルネットワーク(recurrent neural network:RNN))が、検索空間から拡張ポリシーを予測する。固定されたアーキテクチャを有する子ネットワークが、精度を達成する収束に向けて訓練される。コントローラモデルがよりよいポリシーを経時的に生成することができるようにコントローラモデルを更新するために、精度スコアがポリシー勾配法を用いて報酬値として使用されるであろう。拡張ポリシーは、ノイズ注入、時空間シフティング/マスキング、内挿/外挿、量子化を含むものの、それらに限定されない。
【0075】
図15Bは、MixUpに基づいた前処理モジュールの別の例を示す。それは、ランダムにサンプリングされた混合係数によって2つの別個のデータを重ね合わせることによって訓練データを拡張する。MixUpの重要な考え方は、データXに加えてタスクラベルYを混合することである。いくつかの実施形態については、MixUpは複数のデータインスタンスを使用し、3つ以上がより多くの混合パラメータとともに組合される。さらに別の実施形態は、補助DNNモデルを使用して、訓練データからの複数のサンプルを混合し、拡張するべき非線形マッピングを生成する。
【0076】
図15Cは、UAEフレームワークに基づいた拡張の別の例を示す。補助DNNモデルは、訓練データセットが与えられて汎用敵対者を生成するためのオフライン生成器として訓練される。オンライン段階では、DNNモデルは、それが制約付きの混乱限度下での最悪のケースのアーティファクトとしてタスク精度をできるだけ乱そうとしつつ、バックプロパゲーションまたはモデル固有の勾配なく敵対者を生成することができる。訓練されたDNNモデルは次に、メインAIモデルが拡張されたデータに基づいて訓練されるときに、訓練データを拡張するために使用される。UAEフレームワークによる敵対的攻撃のため、メインAIモデルは、敵対的ドメインシフトに対してより一般化され得る。
【0077】
図は、よりよいデータ拡張ポリシーを検索するための検索方法(たとえば強化学習)を使用する我々のフレームワークの概観を示す。コントローラRNNは、精度Rを達成する収束に向けて訓練される拡張ポリシーを予測する。コントローラがよりよいポリシーを経時的に生成することができるようにコントローラを更新するために、報酬Rはポリシー勾配法を用いて使用されるであろう。
モデル実現化例
【0078】
DNNブロックの各々は、信号を層から層へ順次渡すように訓練可能変数と相互接続されたニューロンノードを有する1組の層を特定するためのハイパーパラメータを有して構成される。訓練可能変数は、確率的勾配降下法、適応運動量、適応勾配、適応境界、ネステロフ(Nesterov)加速勾配法、および二乗平均平方根伝搬などの勾配法を用いて数値的に最適化される。勾配法は、DNNブロックの出力が、平均二乗誤差、交差エントロピー、構造類似性、負の対数尤度、絶対誤差、交差共分散、クラスタ化損失、ダイバージェンス、ヒンジ損失、フーバー損失、負のサンプリング、ワッサースタイン距離、およびトリプレット損失などのより小さい損失値を提供するように訓練データを使用することによって、DNNブロックの訓練可能パラメータを更新する。複数の損失関数はさらに、訓練スケジュールポリシーに従って、いくつかの正則化係数を用いて重み付けされる。
【0079】
いくつかの実施形態では、DNNブロックは、DNNブロックが、整流線形変形、双曲線正接、sigmoid、ゲートリニア、softmax、およびしきい値を含む1組の非線形活性化を有する、1組の完全接続層、畳み込み層、グラフ畳み込み層、再帰層、ルーピー接続、スキップ接続、および開始層を有して構成されるように、ハイパーパラメータに従って再構成可能である。DNNブロックはさらに、1組のドロップアウト、スワップアウト、ゾーンアウト、ブロックアウト、ドロップコネクト、ノイズ注入、揺れ、およびバッチ正規化を用いて正則化される。さらに別の実施形態では、層パラメータはさらに、調節可能ハイパーパラメータによって特定されるように、メモリのサイズを減少させるように量子化される。リンク連結の別の実施形態については、システムは、次元不整合リンクのためにより低次元の信号をより高次元の信号に変換するために、次元単位の訓練可能線形フィルターを用いる多次元テンソル射影を使用する。
【0080】
別の実施形態は、各DNNブロックのハイパーパラメータ探索および学習スケジューリングのために、オートMLをオートベイズおよびオート転移へ一体化する。なお、オート転移およびオートベイズは、個々のDNNブロックの任意のハイパーパラメータを最適化するために、容易にオートMLと一体化され得る。より具体的には、システムは、離散的および連続的なハイパーパラメータ値の異なる組合せを探索するために、強化学習、進化戦略、差分進化、粒子群、遺伝的アルゴリズム、アニーリング、ベイズ最適化、ハイパーバンド、および多目的ラマルク進化論を使用することによって、ハイパーパラメータを修正する。
【0081】
この発明のシステムはまた、DNNブロックが新たな被験者などの新たな迷惑変動を有する新たなデータセットに対してロバストであり得るように、いくつかの訓練可能変数を解凍することによって訓練されたDNNブロックを精製する事後訓練ステップとして適応するためのさらに別のテストステップを提供する。この実施形態は、HMIシステムの新規ユーザのための較正時間の要件を減少させることができる。さらに別の実施形態は、異なる前処理方法の探索を使用する。
例示的なシステム
【0082】
図16は、本開示のいくつかの実施形態に従った、人工ニューラルネットワークアーキテクチャの自動化構築のためのシステム500の一例を示すブロック図である。システム500は、信号を受信し送信するように構成された1組のインターフェイスおよびデータリンク105と、少なくとも1つのプロセッサ120と、メモリ(または1組のメモリバンク)130と、ストレージ140とを含む。プロセッサ120は、メモリ130と接続されて、ストレージ140に格納されたコンピュータ実行可能プログラムおよびアルゴリズムを実行する。1組のインターフェイスおよびデータリンク105は、ヒューマンマシンインターフェイス(human machine interface:HMI)110と、ネットワークインターフェイスコントローラ150とを含んでいてもよい。ストレージ140に格納されたコンピュータ実行可能プログラムおよびアルゴリズムは、再構成可能ディープニューラルネットワーク(DNN)141、ハイパーパラメータ142、スケジューリング基準143、順方向/逆方向データ144、一時キャッシュ145、打ち切りモジュール146、オート転移アルゴリズム147、および前処理/後処理モジュール148であってもよい。
【0083】
システム500は、1組のインターフェイスおよびデータリンクを介して信号を受信することができる。信号は、訓練データ、検証データ、およびテストデータのデータセットであってもよく、信号は、多次元信号Xにおいて1組の乱数因子を含み、乱数因子の一部は、識別するためのタスクラベルYと、異なるドメインからの迷惑変動Sとに関連付けられている。
【0084】
いくつかの場合、再構成可能DNNブロック(DNN)141の各々は、多次元信号Xを潜在変数Zに符号化するため、多次元信号Xを再構成するように潜在変数Zを復号するため、タスクラベルYを分類するため、迷惑変動Sを推定するため、迷惑変動Sを正則化推定するため、またはグラフィカルモデルを選択するために構成される。この場合、メモリバンクはさらに、ハイパーパラメータ、訓練可能変数、中間ニューロン信号、ならびに、順方向パス信号および逆方向パス勾配を含む仮計算値を含む。
【0085】
少なくとも1つのプロセッサ120は、インターフェイスおよびメモリバンク130と接続されて、信号およびデータセットを再構成可能DNNブロック141へ提示するように構成される。また、少なくとも1つのプロセッサ120は、ベイズ・ボールアルゴリズムを使用してベイズグラフ探索を実行して、メモリバンク130においてハイパーパラメータ142を修正することによってコンパクトにすべく冗長リンクがプルーニングされるようにDNNブロックを再構成する。オート転移は、迷惑変動に対するロバスト性を向上させるために、異なる補助正則化モジュールおよび前処理/後処理モジュールを探索する。
【0086】
システム500は、ユーザの生理学的データの分析を通して、ヒューマンマシンインターフェイス(HMI)の設計に適用され得る。システム500は、ネットワーク190と1組のインターフェイスおよびデータリンク105とを介して、生理学的データ195Bをユーザの生理学的データとして受信してもよい。いくつかの実施形態では、システム500は、1組のセンサ111から脳波図(EEG)および筋電図(EMG)をユーザの生理学的データとして受信してもよい。
【0087】
本発明の上述の実施形態は、多くのやり方のうちのいずれかで実現され得る。たとえば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せを使用して実現されてもよい。ソフトウェアで実現される場合、ソフトウェアコードが、任意の好適なプロセッサまたはプロセッサの集合上で、当該プロセッサが単一のコンピュータにおいて提供されようと複数のコンピュータ中に分散されようと、実行され得る。そのようなプロセッサは、集積回路コンポーネント内に1つ以上のプロセッサを有する集積回路として実現されてもよい。しかしながら、プロセッサは、任意の好適なフォーマットの回路を使用して実現されてもよい。
【0088】
また、この発明の実施形態は、その例が提供された方法として具現化されてもよい。当該方法の一部として実行される動作は、任意の好適なやり方で順序付けられてもよい。したがって、例示的な実施形態では連続的な動作として示されていても、動作が例示とは異なる順序で実行される実施形態が構築されてもよい。この場合、いくつかの動作を同時に実行することも含まれていてもよい。
【0089】
請求項要素を修飾するための、請求項における「第1」、「第2」などの序数用語の使用は、それ自体、ある請求項要素の、別の請求項要素に対する優先順位、優位性、または順序、あるいは、方法の動作が実行される時間的順序を何ら暗示しておらず、単に、ある名前を有するある請求項要素を、(序数用語の使用を除き)同じ名前を有する別の要素から区別するために、これらの請求項要素を区別するラベルとして使用されているに過ぎない。
【0090】
この発明を、好ましい実施形態の例を介して説明してきたが、この発明の精神および範囲内で他のさまざまな適応および変更が実施可能であることが理解されるはずである。
【0091】
したがって、添付された請求項の目的は、この発明の真の精神および範囲内に収まるようにそのようなすべての変形および変更を網羅することである。
【国際調査報告】