(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-14
(45)【発行日】2023-12-22
(54)【発明の名称】適応可能なスケーリングを行う人工ニューラルネットワークでの不均一な正則化
(51)【国際特許分類】
G06N 3/0455 20230101AFI20231215BHJP
G06N 3/08 20230101ALI20231215BHJP
【FI】
G06N3/0455
G06N3/08
(21)【出願番号】P 2023506370
(86)(22)【出願日】2021-02-19
(86)【国際出願番号】 JP2021007589
(87)【国際公開番号】W WO2021225023
(87)【国際公開日】2021-11-11
【審査請求日】2022-10-17
(32)【優先日】2020-05-05
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ワン,イェ
(72)【発明者】
【氏名】秋濃 俊昭
【審査官】武田 広太郎
(56)【参考文献】
【文献】特開2015-011510(JP,A)
【文献】宮内 佑多朗 ほか,適応的なドロップアウト空間の学習によるセマンティックセグメンテーション,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM),日本,情報処理学会,2017年05月03日,1~8頁
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/0455
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
人工ニューラルネットワークの柔軟な正則化および適応可能なスケーリングを行うためのシステムであって、
信号を受信および送信するように構成されたインターフェイスと、
人工ニューラルネットワーク、訓練データ、線形PCA、訓練演算子、適応型トランケータ、および乱数発生器を記憶するように構成されたメモリと、
前記インターフェイスおよび前記メモリに接続され、前記信号および前記訓練データを、一連の層を含む前記ニューラルネットワークに送信するように構成されたプロセッサとを含み、各層は、一組のニューロンノードを含み、隣接している層からの一対のノードは、複数の訓練可能パラメータと共に相互に接続され、前記信号を前の層から次の層に渡し、
前記プロセッサは、
前記ニューラルネットワークの層深度方向およびノード幅方向の多次元分布に従って、確率論的方法で正則化を行うために各ニューロンノードの出力信号を修正す
る前記乱数発生器を実行するように構成され、少なくとも1つの層は、ニューロンノードの全体にわたって異なるドロップアウト率プロファイルを有し、
前記ニューラルネットワークの出力が複数の目的関数においてより良い値を提供するように、前記訓練データを用いて前記ニューラルネットワークのパラメータを更新するように構成された前記訓練演算子と、
圧縮
された潜在変数を含む前記ニューラルネットワークの各層の前記ニューロンノードの出力をプルーニングすることによって、下流試験段階の新たな入来データの計算複雑さを削減するように構成された適応型トランケータとを実行するように構成されている、システム。
【請求項2】
前記ニューラルネットワークは、少なくともエンコーダネットワークおよびデコーダネットワークを形成する複数のカスケード接続ニューラルネットワークブロックを含み、
確率論的ボトルネックが、少なくとも1つの中間層において、前記ノードの全体にわたって異なるドロップアウト率を有する適応可能な低次元潜在変数を表すより少ない数のニューロンを有し、前記エンコーダネットワークによるレートレス特徴抽出および前記デコーダネットワークによる柔軟なデータ再構築を可能にする、請求項1に記載のシステム。
【請求項3】
単調に増加するドロップアウト率プロファイルに従って、連続ノードの下位テールセグメントを同時に確率的に切り捨てることによって、前記ノード出力をランダムにドロップすると共に、前記ニューラルネットワークのパラメータを訓練するための連続ノードの上位ヘッドセグメントを残す、請求項2に記載のシステム。
【請求項4】
前記ドロップされたノードおよび前記残されたノードを個々のニューラルネットワークに相補的に供給し、前記抽出された特徴をシームレスに解放することによっ
て、上位ノードおよ
び下位ノードは、マルチタスクおよび敵対的最適化を行うための2つの目的関数において異なる重要度を有し、転送可能な潜在的表現を可能にする、請求項3に記載のシステム。
【請求項5】
前記エンコーダネットワークおよび前記デコーダネットワークは、線形投影特徴抽出を線形主要成分分析、PCA、エンコーダおよびデコーダと一体化することによって、モデル支援適応型次元削減を可能にする、請求項2に記載のシステム。
【請求項6】
前記ネットワーク深度および幅は、確率的深度および幅によって適応的にスケーリングされ、
より深い層およびより広い層は、訓練時により高い確率でドロップされ、下流のシステムを再訓練することなく、前記ニューラルネットワークのサイズを調整することを可能にする、請求項1に記載のシステム。
【請求項7】
多項式関数、指数関数、べき関数、ポアソン関数、ウィグナー関数、およびラプラシアン関数に基づく複数のパラメトリック関数の組み合わせは、特定の重みと共に使用され、ネットワーク深度および幅の全体にわたって多次元正則化プロファイルを指定する、請求項1に記載のシステム。
【請求項8】
ドロップアウト、スワップアウト、ゾーンアウト、ブロックアウト、ドロップコネクト、ノイズ注入、サイドドロップ、テールドロップ、およびシェイキングの組み合わせは、前記乱数発生器と共に使用される、請求項1に記載のシステム。
【請求項9】
畳み込み層、リカレントフィードバック、ルーピー接続、スキップ接続、インセプション、およびアクティベーションの組み合わせは、使用される、請求項1に記載のシステム。
【請求項10】
平均二乗誤差、クロスエントロピー、構造類似度、負の対数尤度、絶対誤差、交差共分散、クラスタリング損失、発散、ヒンジ損失、ヒューバー損失、負のサンプリングおよびトリプレット損失の組み合わせは、使用される、請求項1に記載のシステム。
【請求項11】
アップデータは、確率的勾配降下、適応運動量、適応勾配、適応境界、ネステロフ加速勾配、および二乗平均平方根伝搬の組み合わせを使用して、前記ニューラルネットワークの前記訓練可能なパラメータを最適化する、請求項1に記載のシステム。
【請求項12】
変分型ランダムサンプリングを用いて、生成モデルを構築する、請求項2に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般的に、人工ニューラルネットワークシステムおよびニューラルネットワークを設計するための方法に関し、特に、柔軟な正則化および適応可能な次元削減を達成するために、ニューラルネットワークに行われた不均一なドロップアウトに関する。
【背景技術】
【0002】
データ分析および通信を行う前に、特徴抽出および次元削減が重要である。多くの実際の応用において、生データ測定値(例えば、音声/発話、画像、映像、および生物学的信号)は、通常、非常に高い次元を有する。高次元を適切に扱うには、元のデータを、削減された次元を有する意味のある特徴表現に変換する次元削減技術を適用する必要がある。このような特徴表現の次元数を、データの顕著な特性を捕捉するのに必要な最小数に削減する必要がある。データ分析において次元数が指数関数的に増加するという課題、いわゆる次元の呪詛を軽減する必要があるため、次元削減は、多くの機械学習および人工知能用途において重要である。いままでは、次元を削減するためのアルゴリズム、例えば、主成分分析(PCA)、カーネルPCA(kernel PCA)、イソマップ(Isomap)、最大分散展開(maximum variance unfolding)、拡散マップ(diffusion maps)、局所線形埋め込み(locally linear embedding)、ラプラシアン固有マップ(Laplacian eigenmaps)、局所接線空間分析(local tangent space analysis)、サモンマッピング(Sammon mapping)、局所線形協調(locally linear coordination)およびマニホルドチャート化(manifold charting)が多くある。過去数十年間、自動エンコーダ(AE)と呼ばれる人工ニューラルネットワーク(ANN)に基づいた潜在表現学習という非線形技術は、PCAなどの伝統的な線形技術に比べて、優れた性能を示しているため、次元削減に広く使用されている。
【0003】
次元削減の1つの課題は、特定の応用に必要なデータ特徴を充分に捕捉することができる最適な潜在次元を決定することである。いくつかの正則化技術、例えば、スパースAE(SAE)およびレート歪みAE(rate-distortion AE)が有効な次元数を調整するために有用であり得るが、学習済みAEモデルを修正せず、異なる下流応用の歪み要件の変動に応じて潜在次元のシームレス調整を可能にすると共に、適応性を提供する現行の方法は、存在していない。いくつかの現行の研究は、階層アーキテクチャおよび漸進的なスタッキングに条件付きAE学習を強制する。しかしながら、これらの従来方法は、煩雑な再学習を複数回に行う必要がある。したがって、ランキング付き潜在変数を提供する線形PCAとは異なり、現行のAEは、典型的には、等しく重要な潜在変数を提供するという欠点を有する。
【0004】
潜在変数のサイズを決定する課題と同様に、著しく浅く狭い人工ニューラルネットワークがうまく機能せず、不必要に深く広い人工ニューラルネットワークが機能するために非現実的に大量の学習データを必要とするため、人工ニューラルネットワークのサイズを決定することは、困難である。ドロップアウトの使用は、過完全ネットワークをうまく正則化することができるため、過剰適合を防止することができる。より深い層により高いドロップアウトを使用する確率論的深度法(stochastic depth method)は、深すぎるニューラルネットワークのネットワーク深度の有効サイズを自己組織化することができる。しかしながら、ネットワーク幅のサイズを決定することは、依然として設計者の試行錯誤を必要とする。
【0005】
したがって、柔軟な正則化および適応可能な次元削減を達成するために、ニューラルネットワークシステムおよびニューラルネットワークを設計するための方法を開発する必要がある。
【発明の概要】
【0006】
本発明のいくつかの実施形態によれば、人工ニューラルネットワークの柔軟な正則化および適応可能なスケーリングを行うためのシステムが提供される。このシステムは、人工ニューラルネットワークおよび学習データを記憶するためのメモリと、信号および学習データを、一連の層を含むニューラルネットワークに送信するためのプロセッサおよびインターフェイスとを含み、各層は、一組のニューロンノードを含み、隣接している層からの一対のノードは、複数の学習可能パラメータと共に相互に接続され、信号を前の層から次の層に渡す。このシステムは、ニューラルネットワークの層深度方向およびノード幅方向の多次元分布に従って、確率論的方法で正則化を行うために各ニューロンノードの出力信号を修正する乱数発生器を含み、少なくとも1つの層は、ニューロンノードの全体にわたって異なるプロファイルを有する。このシステムは、ニューラルネットワークの出力が複数の目的関数においてより良い値を提供するように、学習データを用いてニューラルネットワークのパラメータを更新する学習演算子と、圧縮サイズのニューラルネットワークの各層のニューロンノードの出力をプルーニングすることによって、下流試験段階の実行中の新たな入来データの計算複雑さを削減する適応型トランケータとを含む。
【0007】
本発明は、柔軟な次元削減を可能にするレートレスAEを設計するための方法を提供する。本発明の方法は、従来のPCAが整列された主成分を単に付加またはドロップすることによって任意の次元を調整するレートレス特性を有するという認識に基づく。本発明の方法およびシステムは、不均一なドロップアウトを用いて順序付き潜在変数を作成する確率論的ボトルネックアーキテクチャを使用する。具体的には、各レイヤに不均一な正則化を行うことにより過完全人工ニューラルネットワークを学習することによって、中間層に最も支配的な特徴を学習するための上位隠れノードを優先させる。
【0008】
中間層に決定論的ボトルネックを有する従来のAEとは異なり、いくつかの実施形態に提案されたアーキテクチャは、確率論的にプルーニングされたボトルネックを使用することによって、適応可能な次元削減を達成する。これによって、エンドユーザは、計算の複雑さを自由に調整することができる。また、本発明の実施形態は、特定の確率分布に従って、潜在空間のテールに位置する連続ニューロンをドロップするテールドロップと呼ばれる特定のドロップアウトメカニズムによって、このレートレス特性を実現する。また、いくつかの実施形態は、より良好な性能を提供するために、線形PCAを非線形AEと一体化するアーキテクチャを記載している。本発明によれば、エンドユーザは、全ての範囲の次元の優れた歪み性能を達成しながら、次元を柔軟に変更することができる。
【0009】
不均一正則化のいくつかの実施形態は、中間隠れ層に位置する隠れノードの全体にわたって単調に増加するドロップアウト率を使用する。これによって、過度にパラメータ化されたニューラルネットワークの効果的なダウンサイジングを行うことができる。さらに別の実施形態は、多次元ドロップアウト率プロファイルを使用して、深度方向および幅方向の全体にわたって不均一なドロップアウト率を使用する。これによって、これらのハイパーパラメータを決定論的に指定することなく、過度にパラメータ化された深度および幅を効果的に削減することができる。本発明の方法およびシステムは、特定のサイズに対してニューラルネットワークを再学習することなく、ニューラルネットワークの深度および幅パラメータの柔軟な調整を行うことができる。
【0010】
いくつかの実施形態は、特定のドロップアウト率で連続ニューロンノードに対して同時ドロップアウトを使用する。いくつかの実施形態は、テールドロップと呼ばれる正則化技法を使用する。この場合、連続ニューロンノードは、1つのノードから最後のノードまでランダムにドロップされる。さらに別の実施形態は、複数の次元でニューロンノードを同時にドロップする。例えば、深度方向および幅方向の全体にわたる2次元(2D)ボトムドロップが挙げられる。
【0011】
いくつかの実施形態は、多目的最適化という意味で、深度方向および幅方向またはチャネル方向の全体にわたって最適化されたドロップアウト分布を使用する。分布プロファイルは、2Dドロップアウト率を指定するいくつかのハイパーパラメータ、例えば、指数分布、ローレンツ分布、多項式分布、シグモイド分布、度数分布、幾何分布、ポアソン分布、またはウィグナー分布を有するパラメトリックであってもよい。これによって、ユーザは、プルーニングするノードの数にかかわらず、任意の中間層のニューロンノードをプルーニングするときに歪みを小さくすることができる。ニューラルネットワークのこのダウンサイジング能力は、下流の使用事例に対する計算の複雑さを削減することができる。
【0012】
いくつかの実施形態は、ユーザが生成モデルを使用することができるように、中間層のランダムサンプリングを含む変分原理を使用する。本発明の方法は、完全接続層、畳み込み層、プーリング/アンプーリング層、スキップ接続、ルーピーフィードバック、リカレントフィードバック、インセプションモジュール、半教師付き学習などを使用することに適合する。別の実施形態は、ドロップアウト正則化の代替的な正則化として、幅方向および深度方向の全体にわたって不均一な分散を有するランダムノイズ注入を使用する。
【0013】
いくつかの実施形態は、確率論的ボトルネックニューラルネットワークの損失関数を最小化するための平均二乗誤差(MSE)を使用する。代替的には、より知覚的な損失関数の場合、構造類似度(SSIM)を使用することができる。また、目的関数は、クロスエントロピー、負の対数尤度、絶対誤差、交差共分散、クラスタリング損失、KL発散、ヒンジ損失、ヒューバー損失、負のサンプリング、およびトリプレット損失の組み合わせを含んでもよい。学習された生成モデルを用いて、敵対的学習を行うことによって、データ中心の知覚損失を測定することができる。クロスエントロピー損失関数を使用して、分類タスクを行う。複数の損失関数を使用するマルチタスク最適化も適用される。いくつかの実施形態において、ニューロンを2つの別個の分岐に向かって相補的にドロップするスワップアウトが採用される。これによって、非決定論的ソフト解放が達成される。さらに別の実施形態において、複数の異なるドロップアウト率プロファイルは、共通のニューロンノードに使用され、残されたニューロンの出力は、ニューラルネットワークの複数の分岐に供給される。例えば、第1の分岐に対して単調増加プロファイルを使用し、第2の分岐に対して単調減少プロファイルを使用し、および最後の分岐に対して正弦曲線プロファイルを使用することによって、異なるドメインの潜在変数に特定の優先度を与えることができる。
【0014】
以下、添付の図面を参照して本開示の実施形態をさらに説明する。図面は、必ずしも一定の縮尺で描かれていない。その代わりに、本開示の実施形態の原理を示すために、図面を強調する場合がある。
【図面の簡単な説明】
【0015】
【
図1A】ボトルネックアーキテクチャ、すなわち、中間層により少ない数のニューロンノードを有する2つの決定論的ニューラルネットワーク、すなわち、エンコーダおよびデコーダをカスケード接続する従来のAEアーキテクチャを示す図である。
【
図1B】関連技術のスパースAEアーキテクチャを示す図である。
【
図1C】本発明の実施形態に従って、ドロップアウト率が同一ではなく、例えばネットワークの幅の全体にわたって漸進的に増加する確率論的幅の概念を示す図である。
【
図1D】本発明の実施形態に従って、柔軟な次元削減方法のステップを示すフローチャートの一例である。
【
図2A】ネットワーク深度の自己調整を行うために、層の深度の全体にわたってドロップアウト率を増加する従来の(従来技術の)アプローチを示す図である。
【
図2B】本発明の実施形態に従って、不均一なドロップアウト率分布を有する確率論的幅正則化(独立)を示す図である。
【
図2C】本発明の実施形態に従って、不均一なドロップアウト率を実現するために、テールドロップを有する確率論的幅正則化(テールドロップ)の実施形態を示す図である。
【
図2D】本発明の実施形態に従って、トライアルドロップ分布の一例を示す図である。
【
図3A】本発明の実施形態に従って、柔軟な次元削減を行うために、非線形AE方法を組み合わせる方法を示す図である。
【
図3B】本発明の実施形態に従って、
図3Aの変形例を示す図である。
【
図4】本発明に従ったシステムの一実施形態を示す図である。
【
図5A】下流次元削減を行うために、決定論的スパースAEアプローチ(従来技術)によって再構築された画像の実施例を示す図である。
【
図5B】本発明の実施形態に従って、下流次元削減を行うために、確率論的ボトルネックAEアプローチによって再構築された画像の実施例を示す図である。
【
図6】本発明の実施形態に従って、異なる目的関数に指定されたソフト解放潜在表現の相補的ドロップアウトを示す図である。
【発明を実施するための形態】
【0016】
図1Aは、ボトルネックアーキテクチャを有する2つの決定論的ニューラルネットワーク、すなわち、エンコーダ20およびデコーダ40を利用する従来のAE(従来技術)アーキテクチャ10を示す。エンコーダは、デジタルビデオ信号などのオリジナルデータを入力層21から送り込み、隠れ層22を介して次元削減の潜在変数30を生成する。デコーダは、潜在変数30の再生するためのデータを隠れ層41を介して出力層42に送り出す。ネットワークの幅は、エンコーダとデコーダとの間にボトルネックをなすように狭くなる。より具体的には、入力層および出力層に比べて、中間潜在層に位置するニューロンノードの数は、比較的少ない。これによって、データを(ボトルネックに位置する変数によって表される)低次元潜在空間30に変換し、低次元表現からデータを再構築するように、ネットワークに強制的に学習させることができる。
【0017】
中でも、AEは、データセットの基礎をなす非線形多様体に必要とされる低次元潜在変数を学習する高い潜在能力を示している。
図1Aに示すに、AEは、ボトルネックアーキテクチャを有する人工ニューラルネットワークである。この場合、N次元データは、エンコーダネットワークを介してM次元潜在表現(M≦N)に変換される。すなわち、入力層および出力層のノードの数は、Nであり、中間層30のノードの数は、Mである。潜在変数は、デコーダネットワークを介して元のデータを再構築できる充分な特徴を含むべきである。
【0018】
AEは、多くの場合、教師なし学習アプリケーションとして使用される。この場合、データは、分析する特定のラベルを有しないが、ユーザは、基礎表現を学習したい。エンコーダネットワークおよびデコーダネットワークを学習させると、デコーダネットワークは、その分布が実際のデータに近い仮想データを合成的に生成するのにも有用である。ランダム合成データを生成するために、潜在ノード30は、多くの場合、変分原理を使用する。この場合、潜在変数は、乱数発生器の分布を指定するパラメータ値、例えば、正規分布の平均値および平方偏差を示す。
【0019】
エンコーダネットワークは、元のデータx∈R
Nから、削減された次元Mを有する対応の潜在表現z∈R
Mをz=f
θ(x)として生成する。式中、θは、エンコーダネットワークのパラメータ、すなわち、エンコーダネットワークの重み、バイアスおよび任意の学習変数を示す。潜在変数は、デコーダネットワークがデータをx′=g
φ(z)として再構築することができるように、データマニホルドの統計的な配置を適切に取得すべきである。式中、φは、デコーダネットワークパラメータを表し、x′∈R
N。以下の式で示すように、エンコーダとデコーダの対(f
θ,g
φ)は、再構築損失(すなわち、歪み)を最小化するように共同学習される。
【数1】
式中、損失関数L(x,x′)は、xとx′との間の歪み(例えば、MSEおよびSSIM)を定量化するように選択される。ニューラルネットワークは、例えば、確率論的勾配降下、適応運動量、適応勾配、適応境界、ネステロフ加速勾配、または二乗平均平方根伝搬によって更新される。
【0020】
同様に、AEは、非線形PCA(NLPCA)としても知られ、以下のように調整される。AEモデルに非線形アクティブ化が存在しない単純ケースを考える場合、エンコーダおよびデコーダの機能は、単純なアフィン変換に減らされる。具体的には、エンコーダは、fθ(x)=Wx+bとなり、学習可能なパラメータθは、線形重みW∈RM×Nおよびバイアスb∈RMである。同様に、デコーダは、gφ(z)=W′z+b′となり、φ={W′,b′}∈{RN×M,RN}。歪みの計測がMSEであり、データがカルーネン・レーベ定理に従って多変量ガウス分布に追従する場合、最適な線形AEは、伝統的なPCAと一致する。
【0021】
例えば、例示として、ガウスデータxは、固有分解値C=ΦΛΦ
Tを有する法線(m,C)から由来すると仮定する。式中、平均値m∈R
N、共分散C∈R
N×N。Φ∈R
N×Nは、ユニタリ固有ベクトル行列であり、Λは、有序固有値λ
1≧λ
2≧・・・≧λ
N≧0の対角行列である対角[λ
1,λ
2,...,λ
N]∈R
N×Nである。PCAの場合、エンコーダは、M個の主固有ベクトルΦI
N,Mを使用して、データを、W=I
M,NΦ
Tおよびb=-Wmを有するM次元潜在部分空間に投影する。式中、I
M,N(I
M,N∈R
M×N)は、対角要素が1に等しく、他の要素がゼロである不完全な恒等行列を示す。デコーダは、W′=ΦI
N,Mおよびb′=mによる転置投影を使用する。MSE歪みは、以下の式で定義される。
【数2】
【0022】
固有値が整列されているため、対応する順序で主成分を除去する時に、歪みは、優雅に低下する。当然ながら、順序が不適切である(例えば、逆である)場合、MSEは、かなり悪くなるであろう。
【0023】
伝統的なPCAの利点の1つは、主成分の順序付けによる優雅なレートレス特性である。ファウンテンコード(fountain code)などのレートレスチャネルコーディングと同様に、PCAは、次元を削減するために、予め決められた圧縮比M/Nを必要とせず(代わりに、完全な次元でM=Nとして計算される)、下流の用途に応じて、潜在次元を自由に調整することができる。より具体的には、PCAモデルを変更せず、単にz=[z1,z2,...,zM]T中の最も非主要な成分D(D=M-L)をドロップすること、すなわち、全てのm∈{L+1,...,M}のテール変数をzm=0として無効化することによって、M次元で学習させられたPCAエンコーダとデコーダを、潜在サイズL≦Mを有する低次元PCAに広く使用することができる。
【0024】
最適な潜在次元が前もって知られていないことが多いため、レートレス特性は、実際の応用において非常に有益である。異なる圧縮レートで複数のエンコーダとデコーダの対を学習する代わりに、1つの共通PCAモデルは、単にテール成分をドロップすることによって、最適な歪みを達成すると共に、全てのレートL/N(1≦L≦M)をカバーすることができる。例えば、データサーバは、特定の応用に対して、M次元に削減された学習済みPCAモデルと共に、大規模な高次元データセットをリリースすることができる。しかしながら、様々な他の応用(例えば、異なる分析)に対して、さらに削減された次元が充分であるおよび/または最終タスクの学習性能を改善する可能性がある。様々な応用においてより少ない潜在変数を必要とするエンドユーザに対しても、PCAモデルを更新することなく、単に最も非主要な成分を破棄することによって、(ガウスデータ仮定の下で)最適なレート歪みトレードオフを達成することができる。
【0025】
それにもかかわらず、従来のPCAは、多くの場合、非線形次元削減技術に比べて、実際のデータセットに対する性能が低下する。AEは、調整済み線形ユニット(ReLU)またはシグモイドなどの非線形活性化関数を利用することによって、データの基礎をなす潜在表現の固有非線形性をより良く学習することができる。しかしながら、現行のAEは、概ね等しい重要度で潜在変数を学習するため、レートレス特性を容易に達成することができない。したがって、異なる標的次元を対応するために、複数のAEを学習および展開する必要がある。この欠点は、異なる次元に対して複数回の学習および再調整を必要とするスタック型AEおよび階層型AEによって採用されている漸進的次元削減手法にも存在している。本発明は、確率論的ボトルネックを利用して、任意の圧縮レートに適応可能なレートレスAEを実現するための効果的な方法を提供する。
【0026】
図1Bは、スパースAE(SAE)50と呼ばれるAEアーキテクチャの確率論的プルーニングを使用する別の従来技術を示している。この場合、決定論的ネットワークを使用する代わりに、乱数発生器436を使用するドロップアウトによって、エンコーダおよびデコーダをランダム化する。ネットワークを介して計算する時に、いくつかのノードは、ゼロにランダムに設定される。決定論的ボトルネックアーキテクチャを有する従来のAEとは異なり、SAEは、ドロップアウトによって確率論的に削減された有効次元を有する確率論的ボトルネックを利用する。例えば、SAEエンコーダは、M次元変数zを生成し、共通の確率pでM次元変数zをランダムにドロップアウトすることによって、有効潜在次元L=(1-p)Mを生成する。各層内のノードの数を一定に保つ(決定論的ボトルネックを適用しない)と共に、中央の潜在変数層70により近い層のドロップアウト率90を増加させることによって、ネットワークの有効幅を漸進的且つ確率論的に狭くする。ドロップアウトの主な利点は、過完全ニューラルネットワークの過剰適合問題を防止することである。ランダムドロップアウトにより、計算の複雑さも低減される。SAEは、潜在変数をドロップアウトすることによって次元をさらに削減できるため、決定論的AEよりも良い適応性を有するが、データ再構築のための潜在変数を等しい重要度で学習するため、柔軟なレートレスを達成することができない。
【0027】
図1AのAE、
図1BのSAE、変分AE(VAE)、レート歪みAEおよび圧縮AEを含むAE変形のいくつかの従来技術は、全ての潜在変数がデータ再構築に本質的に等しく重要であるため、潜在表現の次元をさらに柔軟に削減する能力であるレートレス性に適していない。潜在表現のいくつかの成分をドロップアウトすると、再構築性能が急速に劣化する。
【0028】
したがって、本発明において、
図1Cに示すように、システムは、確率論的ボトルネックという発想を導入し、ネットワークの幅方向140と共に、深度方向141の全体にわたってドロップアウト率を漸進的に増加する。これは、特に潜在変数層120に適用され、最も低いドロップアウト率を有する潜在変数を優先させる効果をもたらす。これらの成分は、PCAの線形次元削減の最も主要な成分と同様に、最も主要な潜在変数である。最も高いドロップアウト率を有する成分は、最も非主要な非線形潜在変数である。これによって、ユーザは、柔軟な次元削減方法として学習済みAEモデルを採用することができる。ユーザは、エンコーダをデータに適用することによって潜在表現を生成し、その後、最も非主要な潜在変数から成分を柔軟にドロップすることができる。これによって、適応可能な次元削減を行うための1つの学習済みAEモデルを使用して、特定の次元に微調整された従来のAEモデルに匹敵する歪みを達成しながら、データ再構築性能を優雅に低下する。
【0029】
本発明の方法およびシステムは、ボトルネックアーキテクチャのサイズを決定する必要がない新たなAEファミリーを提供することによって、シームレス次元削減用のレートレス特性を実現する。本発明の方法は、過完全アーキテクチャでSAEに類似するが、ネットワークの幅、深度またはチャネルの全体にわたって変動するドロップアウト分布を採用するため、SAEの拡張バージョンとして見なされてもよい。本発明の方法のこの性質は、次元削減のための圧縮率を柔軟に変化しながら、ほぼ最適な歪みを達成するのに重要である。
【0030】
図1Dは、本発明の実施形態に従って、柔軟な次元削減方法のステップを示すフローチャートの一例である。まず、本発明の方法は、最大次元数に等しい潜在変数サイズを有し、処理されているデータに適用可能なオートエンコーダアーキテクチャを使用する(151)。次に、本発明の方法は、少なくとも潜在的表現層を含む中間層の幅方向および深度方向の全体に、不均一なドロップアウト率を適用することによって、オートエンコーダを学習する(152)。次いで、本発明の方法は、学習済みエンコーダを適用することによって、任意の新たな入来データサンプルの低次元潜在表現を生成する(153)。下流応用に対して、システムの各ユーザの適応型トランケータ435は、潜在変数を、各応用によって要求されたさらなる圧縮を行うための所望の次元数に適応的に切り捨てることができる(154)。これによって、計算の複雑さを削減することができる。最後に、学習済みデコーダを適用することによって、多くの歪みを引き起こすことなく、圧縮された潜在変数から元のデータを再生する(155)。
【0031】
いくつかの実施形態は、ユーザが生成モデルを使用することができるように、中間層にランダム分布を有する変分原理を使用する。本発明の方法は、完全接続層、畳み込み層、スキップ接続、ルーピーフィードバック、リカレントフィードバック、インセプションモジュール、半教師付き学習を使用することに適合する。別の実施形態は、ドロップアウト正則化の代替的な正則化として、幅方向および深度方向の全体にわたって不均一な分散を有するランダムノイズ注入を使用する。
確率論的ボトルネックの実現
【0032】
図1Cに示すように、本発明の方法は、ネットワークの幅方向、深度方向およびチャネル方向の両方にわたって変化する不均一なドロップアウト率分布を課す確率論的ボトルネックを採用する。いくつかの実施形態において、確率論的ボトルネックは、確率論的幅方法を用いて実現される。この確率論的幅方法は、重要度で潜在変数を順序付けるために、PCAに類似した方法に従って、ヘッド(上方)潜在変数ニューロンノードからテール(下方)ノードへ単調に増加するドロップアウト率を使用する。本発明の方法は、より重要な特徴をヘッドノードに集中させることによって、(最も非主要な成分と同様に)最も非重要な次元の一部が後で下流システムの他のユーザによって廃棄されても、適切なデータ再構築を可能にする。
【0033】
ドロップアウト技術自体は、過度にパラメータ化された深層ニューラルネットワークの正則化に広く使用されている。ドロップアウトの役割は、アクティブ化を強く相関させることにより過度学習を引き起こすことを防ぐことによって、総合性能を改善することである。標準的なドロップアウト実装において、独立確率pで学習(およびいくつかの実施形態においてテスト)中に(ネットワークのニューロンノードのアクティブ化をゼロにすることによって)、ネットワークアクティブ化を破棄する。
【0034】
いくつかの実施形態において、本発明の方法およびシステムは、正規ドロップアウトに加えて、いくつかの他の関連正則化方法、例えば、ドロップコネクト(Drop Connect)正則化、ドロップブロック(Drop-Block)正則化、確率論的深度(Stochastic Depth)正則化、ドロップパス(Drop Path)正則化、シェイクドロップ(Shake Drop)正則化、空間的ドロップ(Spatial Drop)正則化、ゾーンアウト(Zone Out)正則化、シェイク-シェイク(Shake-Shake)正則化、およびデータ駆動ドロップ(data-driven drop)正則化を採用する。確率論的ボトルネックAEアーキテクチャのレートレス特性を容易にするために、さらに別の実施形態は、確率論的幅の1つの実現例として、テールドロップと呼ばれる追加の正則化メカニズムを導入する。
【0035】
図2A~2Dは、確率論的幅の発想と、テールドロップと呼ばれるいくつかの特定の実施形態とをさらに示す。
図1Cで説明したように、確率論的ボトルネックは、不均一なドロップアウトを使用して、各ニューロンの重要度を調整する。この正則化技術は、深層残差ネットワークに使用されている確率論的深度正則化の拡張バージョンである。
図2Aに示すように、従来技術の確率論的深度正則化は、より深い層に対してより高いドロップアウト率206で層の全体をドロップする。これによって、有効なネットワーク深度が制約され、より浅い層が支配的に学習される。
図2Bに示すように、本発明の確率論的幅正則化は、確率論的深度正則化に類似しているが、深度方向において確率論的深度正則化とは異なり、幅方向211の全体にわたって単調に増加するドロップアウト率212で不均一なドロップアウトを行い、増加するドロップアウト率で同じ中間層の各ニューロンを各々ドロップアウトする。
図2Cに示すように、いくつかの実施形態において、単調に増加するドロップアウト率は、テール223の連続ノードをドロップすること(テールドロップと呼ばれる)によって実現することができる。テールドロップの場合、所望のドロップアウト率は、例えば、ポアソン(Poisson)分布プロファイル、ラプラシアン(Laplacian)分布プロファイル、指数分布プロファイル、シグモイド分布プロファイル、ローレンツ(Lorentzian)分布プロファイル、多項式分布プロファイル、およびウィグナー(Wigner)分布プロファイルを用いて、
図2Dに示すようにテールドロップ長の確率分布を調整することによって達成されてもよい。いくつかの実施形態は、非線形固有スペクトル仮定のモデルベース方法に基づいて、次数β≒1に対してパワー累積分布関数Pr(D<τM)=τβを使用する(τは、圧縮率を表す)。
【0036】
図5Aは、従来のAEによって手書き数字データセットに対して再構築された画像データの一例を示す。従来のAEは、決定論的ボトルネックアーキテクチャで学習された場合、ユーザが潜在変数を破棄する時に、画質を64個の変数から4個の変数までの低次元表現に低下させる。
図5Bは、本発明の確率論的ボトルネックの高い性能を示す。下流のユーザが次元を削減した場合でも、確率論的AEを再学習する必要がなく、確率論的AEによって再構築された画像を高品質に維持することができる。
モデル埋め込み確率論論的ボトルネック
【0037】
図3Aは、上述したフレキシブル次元削減を行うために、非線形AE法をPCAとして知られる線形フレキシブル次元削減を行うための別のモデルと組み合わせる方法を示す。「非線形減縮モジュール(エンコーダ)」316は、上述したAEのエンコーダに対応し、「非線形再構築モジュール(デコーダ)」320は、上述したAEのデコーダに対応し、「NL-E潜在」317は、エンコーダによって出力された潜在変数を指す。
【0038】
「PCA減縮」312は、標準PCA法によって学習された標準投影変換であり、「PCA再構築」314は、標準PCA法によって学習されたデータ再構築変換である。「PCA潜在」313は、PCA投影変換によって生成された潜在変数ベクトルであり、「PCA出力」315は、PCAデータ再構築変換によって生成された再構築データである。図面の上部経路に沿って、データサンプルは、標準PCA削減投影および再構築変換によって処理され、中間の「PCAリテント」313および最後の「PCA出力」315は、確率論的AEを用いてデータを処理する下部経路に一体化される。
【0039】
下部経路において、データサンプルは、「非線形減縮(エンコーダ)」316によって処理され、「NL-E潜在」317を生成する。しかしながら、この「NL-E潜在」は、直接に「非線形再構築(デコーダ)」320に供給されるのではなく、(例えば、各要素の加算、乗算、または連結であり得る)「潜在組み合わせ動作」318を介して、「PCA潜在」と組み合わせられ、「組み合わせた潜在」319を生成する。この「組み合わせた潜在」319は、「非線形再構築(デコーダ)」320に供給される。また、(必要に応じて)「PCA出力」315を入力として受信し、「NL-D出力」321を生成するように、「非線形再構築(デコーダ)」を変更してもよい。これは、通常のデータ再構築に対応する。しかしながら、我々の手順において、「NL-D出力」は、その後、(例えば、各要素の加算であり得る)「出力組み合わせ動作」322を介して「PCA出力」と組み合わせられ、最終的なデータ再構築323を生成する。
【0040】
図3Bは、
図3Aの実施形態の別の変形例を示す。「NL-D出力」321を「PCA出力」315に組み合わせる代わりに、「非線形再構築(デコーダ)」360の出力は、最終的なデータ再構築361として直接に使用される。
【0041】
上述した本開示の実施形態は、多くの方法で実装されてもよい。例えば、実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータに設けられたまたは複数のコンピュータに分散されたことにも拘らず、任意の適切なプロセッサまたは一群のプロセッサで実行されてもよい。このようなプロセッサは、集積回路として実装されてもよい。1つの集積回路要素は、1つ以上のプロセッサを含むことができる。しかしながら、プロセッサは、任意の適切な回路で実装されてもよい。
【0042】
図4は、いくつかの実施形態に従って、複数のイベントを引き起こす複数の信号源を含むシステムを制御するための装置400のブロック図を示す。システムの一例として、製造ラインが挙げられる。装置400は、記憶された命令を実行するように構成されたプロセッサ420と、プロセッサによって実行可能な命令を記憶するためのメモリ440とを含む。プロセッサ420は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であってもよい。メモリ440は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含むことができる。メモリ440は、装置400の記憶装置430に記憶されたコンピュータ実行可能な命令(プログラム)を読み込むように構成され、プロセッサ420は、コンピュータ実行可能な命令を実行するように構成される。記憶装置430は、ニューラルネットワーク431と、線形PCA432と、トレーナ/学習データ433と、動作データ434と、適応型トランケータ435と、乱数発生器436とを含むコンピュータ実行可能な命令を含む。プロセッサ420は、バス406を介して、1つ以上の入力装置および出力装置に接続される。
【0043】
これらの命令は、システムの複数のイベント中の異常を検出および/または診断するための方法を実装する。装置400は、ニューラルネットワーク431を用いてオブジェクト異常を検出するように構成される。本明細書において、このようなニューラルネットワークは、構造上部分的に接続されたニューラルネットワークと呼ばれる。ニューラルネットワーク431は、システムの制御状態を診断するように学習される。例えば、ニューラルネットワーク431は、トレーナー(学習オペレータ)433によって、学習データを用いてオフラインで学習され、システムの動作データ434を用いてオンラインで異常を診断することができる。
【0044】
動作データの例は、システムの動作中に信号源から収集された信号、例えば、システムのイベントを含む。学習データの例は、一定の期間中に信号源から収集された信号を含む。その期間は、動作/製造が開始する前の期間であってもよく、および/またはシステムの動作中の期間であってもよい。
マルチタスクおよび適応可能なスケーリングを含む敵対的学習
【0045】
上述した実施形態は、データセットがラベリングを有しなく、冗長性を有する場合に、次元削減を行うための教師なし学習のAEアーキテクチャに着目した。この目的のために、確率論的AEは、平均二乗誤差(MSE)または構造類似度(SSIM)を含むがこれらに限定されない歪み尺度を最小化するように学習される。いくつかの実施形態は、敵対的学習を用いてより知覚的な歪みを最小化する。これによって、デコーダの出力は、元のデータから区別され難い。
【0046】
さらに別の実施形態は、複数の目的関数を用いて、与えられた条件付きラベリングおよび迷惑変数で確率論的AEを学習する。本発明の方法は、潜在変数を確率論的に解放する。例えば、残されたヘッドニューロンノードは、SSIMを最大化するように1つのデコーダネットワークに供給され、相補的なテールニューロンノードは、MSEを迷惑変数に最小化するように他のデコーダネットワークに供給される。
図6は、この実施形態の一例を示している。エンコーダは、潜在変数610を生成し、潜在変数610は、ランダムに不均一にドロップされる。残された潜在変数650は、敵対的分類器620用のニューラルネットワークに供給され、ドロップされた潜在変数660は、迷惑分類器630用の別のニューラルネットワークに供給される。この不均一な相補的ドロップアウト方法は、スワップアウトと呼ばれ、より解釈可能な潜在変数およびより柔軟な解釈可能性を可能にすることによって、ユーザがソフト解放を介して、歪みと転写可能性との間のトレードオフを調整することができる。その後、ソフト解放された潜在変数610は、ユーザによって適応型トランケータ435を用いてプルーニングされ、高い転送可能性で試験段階において異なるタスクを行うための他のニューラルネットワーク640に使用される。いくつかの実施形態において、非等方関数を有する複数の異なるドロップアウトプロファイルは、特定の損失関数に使用され、中間層のニューロンノードを解放する。
【0047】
本発明のいくつかの実施形態は、より一般的なニューラルネットワークアプリケーション、例えば画像分類およびデータ回帰において、確率論的幅を使用する。具体的には、デコーダブロックまたはボトルネックは、必要とされない。通常のフィードフォワード多層パーセプトロンアーキテクチャの場合、確率論的幅は、各層に使用される。従って、ユーザは、学習後にネットワークサイズを適応的に変更することができる。これは、ネットワークサイズ、すなわち、ニューロンサイズ(幅)、層サイズ(深度)およびチャネルの事前決定を必要とする現行のニューラルネットワークの設計問題を解決することができる。深度方向および幅方向に沿った各層の不均一なドロップアウト率は、最良のネットワークサイズの知識なしに、ネットワークサイズの適応可能なスケーリングを可能にする。システムは、学習段階で非常に深く広いネットワークを考察することができ、システムのユーザは、後のテスト段階で、分類または回帰アプリケーションのためのネットワークアーキテクチャを適応的に小型化することができる。
【0048】
さらに別の実施形態において、テールドロップは、隣接層に同時に適用される。これは、サイドドロップと呼ばれる。層の全体にわたってニューロンをドロップする境界を決定するためのプロファイルは、多項式関数などの2Dまたは3D継続関数プロファイルとして設計される。
【0049】
また、本開示の実施形態は、一例として提供された方法として具現化されてもよい。本方法の一部として実行される動作は、任意の適切な方法で順序付けられてもよい。したがって、例示的な実施形態において順次に実行される動作とは異なる順序で動作を実行すること、一部の動作を同時に実行することを含み得る実施形態を構築することができる。
【0050】
さらに、本発明は、可変の歪みおよび次元要件のためにシームレスに調整することができる柔軟な潜在次元を可能にするレートレスオートエンコーダを実現する新たな方法およびシステムを提供する。提案された発明は、決定論的ボトルネックアーキテクチャの代わりに、異なるドロップアウトで確率論的に正則化された過完全表現を使用する。従来技術とは異なり、本発明のニューラルネットワークは、ネットワークの幅、チャネルおよび深度にわたって多次元の不均一なドロップアウト率を使用する。これによって、ニューロンノードは、重要度で整列される。確率論的ボトルネックフレームワークを含む方法は、学習時に所定の潜在次元の最適化を必要とすることなく、高い再構築性能でシームレスなレート適応を達成する。いくつかの実施形態において、非均一正則化方法は、マルチタスクおよび敵対的学習を行うための複数の異なる目的関数を用いたデータ分類または回帰に適用される。本発明の方法は、汎用人工ニューラルネットワークのサイズを適応可能にスケーリングすることができる。すなわち、ネットワークの深度および幅は、学習段階において自己調整され、不均一な正則化を用いて学習されたネットワークのサイズは、下流ユーザによってシームレスに削減され、試験段階の計算複雑性を低減する。
【0051】
請求項において請求項要素を修飾するための順序用語、例えば第1、第2などの使用は、別の請求項要素に対する1つの請求項要素の優先順位、前後順位もしくは順序、または方法の動作を実行する時間順序を意味しておらず、単に請求項要素を区別するためのラベルとして使用され、(順序用語を使用することによって)特定の名前を有する1つの請求項要素と同じ名前を有する別の要素とを区別させる。
【0052】
好ましい実施形態を参照して本発明を説明したが、理解すべきことは、本発明の精神および範囲内で、様々な他の改造および修正を行うことができることである。したがって、添付の特許請求の範囲は、本発明の真の精神および範囲内にある全ての変形および修正を網羅する。