IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ストワーズ インスティテュート フォー メディカル リサーチの特許一覧

特許7610731局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ
<>
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図1A
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図1B
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図2
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図3
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図4
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図5A
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図5B
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図5C
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図6
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図7A
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図7B
  • 特許-局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-24
(45)【発行日】2025-01-08
(54)【発明の名称】局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241225BHJP
   G06V 10/82 20220101ALI20241225BHJP
   G06V 20/60 20220101ALI20241225BHJP
   G06N 3/04 20230101ALI20241225BHJP
   G06N 3/08 20230101ALI20241225BHJP
【FI】
G06T7/00 350C
G06V10/82
G06V20/60
G06N3/04
G06N3/08
【請求項の数】 20
(21)【出願番号】P 2023574482
(86)(22)【出願日】2023-04-06
(65)【公表番号】
(43)【公表日】2024-07-09
(86)【国際出願番号】 US2023065456
(87)【国際公開番号】W WO2023196917
(87)【国際公開日】2023-10-12
【審査請求日】2023-12-01
(31)【優先権主張番号】63/328,063
(32)【優先日】2022-04-06
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/480,675
(32)【優先日】2023-01-19
(33)【優先権主張国・地域又は機関】US
【新規性喪失の例外の表示】特許法第30条第2項適用 令和4年10月18日、インターネット <URL:https://www.biorxiv.org/content/10.1101/2022.10.14.511519v1>において発表
(73)【特許権者】
【識別番号】508297654
【氏名又は名称】ストワーズ インスティテュート フォー メディカル リサーチ
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(74)【代理人】
【識別番号】100153729
【弁理士】
【氏名又は名称】森本 有一
(72)【発明者】
【氏名】ツォンロン ユイ
(72)【発明者】
【氏名】リシャブ ラジ
【審査官】松永 隆志
(56)【参考文献】
【文献】米国特許出願公開第2022/0066456(US,A1)
【文献】米国特許出願公開第2021/0264287(US,A1)
【文献】米国特許出願公開第2020/0234143(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
G06V 20/60
G06N 3/04
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
入力からオブジェクト表現を抽出するためのシステムであって、
1つ以上の処理装置と、
演算命令を格納している1つ以上の非一時的コンピュータ読み取り可能ストレージ装置であって、前記演算命令は、前記1つ以上の処理装置上で実行され、前記1つ以上の処理装置に、
演算装置にて、画素化された情報を備えている入力を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記入力からオブジェクト表現を生成することと、
を備えている機能を実行させるように構成されている、1つ以上の非一時的コンピュータ読み取り可能ストレージ装置と、を備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
重み行列が、前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第1セットに対応する接続重みを格納しており、
入力ノードと表現ノードの両方がアクティブであるときに、前記重み行列に格納された接続重みが強められ、
2つの表現ノードがコアクティブであることを検出することに応答して、両方の表現ノードへの入力ノード間の前記接続重みが弱められ、
前記入力層の前記入力ノードは、前記入力の前記画素化された情報に対応する値の第1セットを受信し、
前記表現層における前記表現ノードに対する値の第2セットは、(i)前記入力ノードと前記表現ノードとの間の重み付けされた接続の前記第1セットと、(ii)前記表現ノード間の重み付けされた接続の前記第2セットと、を介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する値の前記第2セットは、前記入力に対する前記オブジェクト表現を生成するために利用されることを特徴とするシステム。
【請求項2】
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
重み付けされた接続の前記第1セットと関連付けられている接続重みの前記第1セットは、選択された入力のセットのベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して最初に計算され、前記重み行列の前記接続重みは、追加入力を受信したときに更新されることを特徴とする請求項1に記載のシステム。
【請求項3】
学習機構は、追加入力が二層ニューラルネットワークにより処理されるときに、接続重みの前記第1セットを継続的に更新することを特徴とする請求項1に記載のシステム。
【請求項4】
前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項3に記載のシステム。
【請求項5】
前記表現層における前記表現ノードに対する値の前記第2セットおよび、前記入力層における前記入力ノードに対する値の前記第1セットはすべて非負値であることを特徴とする請求項1に記載のシステム。
【請求項6】
重み付けされた接続の前記第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、
2つの表現ノードがコアクティブであることを検出することに応答して、前記2つの表現ノード間の前記接続重みが強められ、
重み付けされた接続の前記第2セットに対する接続重みの前記第2セットは、接続重みの前記第1セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項1に記載のシステム。
【請求項7】
前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする請求項1に記載のシステム。
【請求項8】
重み付けされた接続の前記第2セットは抑制的であることを特徴とする請求項1に記載のシステム。
【請求項9】
前記確率的勾配降下法は、0と1の間のステップサイズのステップを使用することを特徴とする請求項4に記載のシステム。
【請求項10】
1つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されている演算命令の実行を介して実現される、入力からオブジェクト表現を抽出するための方法であって、
演算装置にて、画素化された情報を備えている入力を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記入力からオブジェクト表現を生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
重み行列が、前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第1セットに対応する接続重みを格納しており、
入力ノードと表現ノードの両方がアクティブであるときに、前記重み行列に格納された接続重みが強められ、
2つの表現ノードがコアクティブであることを検出することに応答して、両方の表現ノードへの入力ノード間の前記接続重みが弱められ、
前記入力層の前記入力ノードは、前記入力の前記画素化された情報に対応する値の第1セットを受信し、
前記表現層における前記表現ノードに対する値の第2セットは、(i)前記入力ノードと前記表現ノードとの間の重み付けされた接続の前記第1セットと、(ii)前記表現ノード間の重み付けされた接続の前記第2セットと、を介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する値の前記第2セットは、前記入力に対する前記オブジェクト表現を生成するために利用されることを特徴とする方法。
【請求項11】
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
重み付けされた接続の前記第1セットと関連付けられている接続重みの前記第1セットは、選択された入力のセットのベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して最初に計算され、前記重み行列の前記接続重みは、追加入力を受信したときに更新されることを特徴とする請求項10に記載の方法。
【請求項12】
学習機構は、追加入力が二層ニューラルネットワークにより処理されるときに、接続重みの前記第1セットを継続的に更新することを特徴とする請求項10に記載の方法。
【請求項13】
前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項12に記載の方法。
【請求項14】
前記表現層における前記表現ノードに対する値の前記第2セットおよび、前記入力層における前記入力ノードに対する値の前記第1セットはすべて非負値であることを特徴とする請求項10に記載の方法。
【請求項15】
前記二層ニューラルネットワークは、前記入力層における入力ノードよりも、前記表現層におけるより多くの表現ノードを含んでいることを特徴とする請求項10に記載の方法。
【請求項16】
重み付けされた接続の前記第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、
2つの表現ノードがコアクティブであることを検出することに応答して、前記2つの表現ノード間の前記接続重みが強められ、
重み付けされた接続の前記第2セットに対する接続重みの前記第2セットは、接続重みの前記第1セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項10に記載の方法。
【請求項17】
前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする請求項10に記載の方法。
【請求項18】
重み付けされた接続の前記第2セットは抑制的であることを特徴とする請求項10に記載の方法。
【請求項19】
入力からオブジェクト表現を抽出するためのコンピュータプログラムを格納する非一時的コンピュータ読み取り可能媒体であって前記コンピュータプログラムは演算装置に、
演算装置にて、画素化された情報を備えている入力を受信させ、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記入力からオブジェクト表現を生成させるための命令を含み
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
重み行列が、前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第1セットに対応する接続重みを格納しており、
入力ノードと表現ノードの両方がアクティブであるときに、前記重み行列に格納された接続重みが強められ、
2つの表現ノードがコアクティブであることを検出することに応答して、両方の表現ノードへの入力ノード間の前記接続重みが弱められ、
前記入力層の前記入力ノードは、前記入力の前記画素化された情報に対応する値の第1セットを受信し、
前記表現層における前記表現ノードに対する値の第2セットは、(i)前記入力ノードと前記表現ノードとの間の重み付けされた接続の前記第1セットと、(ii)前記表現ノード間の重み付けされた接続の前記第2セットと、を介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する値の前記第2セットは、前記入力に対する前記オブジェクト表現を生成するために利用されることを特徴とする非一時的コンピュータ読み取り可能媒体
【請求項20】
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
重み付けされた接続の前記第1セットと関連付けられている接続重みの前記第1セットは、選択された入力のセットのベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して最初に計算され、前記重み行列の前記接続重みは、追加入力を受信したときに更新されることを特徴とする請求項19に記載の非一時的コンピュータ読み取り可能媒体
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本出願は、2022年4月6日に出願された米国仮特許出願第63/328,063号および2023年1月19日に出願された米国仮特許出願第63/480,675号の利益および優先権を主張する。上記に特定される出願の内容は、参照によりその全体がここにおいて組み込まれる。
【0002】
政府による資金供与
本発明は、国立衛生研究所により授与された授与番号NIH R01 DC014701のもとで政府の支援によりなされた。政府は本発明において一定の権利を有する。
【0003】
本開示は、不変オブジェクト表現と分類のための改良された機械学習構成および技術に関する。ある実施形態においては、ここにおいて記述されている構成と技術は、下記に制限されないが、オブジェクト検出、オブジェクト分類、および/またはインスタンスセグメンテーションを含む機能を含んでいる種々のコンピュータビジョン機能を高めるために実行できる。
【背景技術】
【0004】
コンピュータビジョンシステムは、オブジェクト検出、オブジェクト分類、および/またはインスタンスセグメンテーションを含む機能などのような種々の機能を実行するように構成できる。これらのコンピュータビジョン機能は、顔認識、医療画像解析、スマート監視、および/または画像解析タスクなどのような多くの異なる状況において適用できる。
【0005】
コンピュータビジョンシステムは、上述したコンピュータビジョン機能を正確に実現するためには多様な技術的問題を考慮しなければならない。例えば、1つの技術的問題は、入力画像から特徴を正確に抽出することに関する。これは、入力画像に含まれているオブジェクト(例えば、顔オブジェクト)が部分的に隠されていたり、または大きく遮蔽されていたり、および/または、ノイズ、照明不足、および/または均一でない照明により品質が低下している状況においては特に難しい。特徴抽出を阻害し得る他の要因は、異なる画像間におけるカメラの角度、動き、視点、姿勢、およびオブジェクトの見え方(例えば、顔の表情における変動)における変動に由来すると考えることができる。
【0006】
他の技術的難しさは、画像から特徴を効率よく抽出することができるコンピュータビジョンシステムを設計することにある。多くの特徴抽出機構は計算コストが高くリソースを大量に使用する。更にそれらは、多数の複雑な処理段階を含んでいる深層学習モデルに基づいて構築されていることがよくあり、それは、教師あり訓練を容易にするために、広範囲にわたる訓練データセットが正確に標識付けされることを必要とする。
【0007】
特徴抽出を実行するためのフレームワークは、多様な他の欠点の悪影響も受ける。例えば、ブラインドソース分離技術を使用するフレームワークに関して、これらのフレームワークは、それらの相対的な存在量に基づく特徴の有益性を考慮できない。有益な特徴を取り込むように設定されているフレームワークセットは、オブジェクトの正確な発生頻度を知る必要はないが、特徴の相対的な存在量は考慮すべきである。しかし、ブラインドソース分離および他の関連する技術はそうすることができない。
【0008】
ブラインドソース分離技術が特徴を表現するために辞書を利用するシナリオを考える。同じ入力の複数の発生を含むために入力行列を変えることは辞書の性質を変えない。複数の発生は、疎性(スパース性)と再構築エラーの同じレベルの反復表現に繋がる。従って、辞書と表現は、各入力を一度のみ考慮する間に取得されるものと類似したままである。言い換えると、入力の相対的な発生に従って変わることを強制する辞書への制約はない。従って、ブラインドソース分離アプローチは、性能を改良するために環境の統計的特性を利用できない。
【0009】
特徴抽出のために疎(スパースな)非負行列因子分解を利用するフレームワークもまた欠点を含んでいる。これらのフレームワークは、幾つかのシナリオにおいては、入力の不変且つ効率的な表現を首尾よく生成できるが、特徴を取得することにおいて使用される疎非負行列因子分解に基づくアプローチは、その現在の形状においては、常に技術的に妥当または実現可能であるというわけではない。幾つかの場合においては、これらのフレームワークにより利用されるアルゴリズムは、生物学的システムが直面している生理学的制約を取り込んでいないので制限が生じる。
【0010】
更に、ある特徴抽出アプローチにおいては、入力から最も有益な構造を取り込むことは、入力表現を取得することとは異なるプロセスであることがよくある。そのため、両者を達成する如何なるネットワークも、一般的にはこれらの2つの目標を達成するために2つの別個の構造を組み込んでいる。これらの制限の多くは、視覚データを処理でき、学習を提示できる生物学的システムが直面している生理学的制約の観点から、これらのアプローチを支えている数学的アルゴリズムを調べるときに改良または克服できる。任意の感覚符号化プロセスにおいて望ましい生物学的システムの幾つかの態様は、感覚処理に対する既知のアプローチにおいては存在しない。
【0011】
既存の技術の他の欠点は、生物学的システムのプロセスを正確に模倣しないということである。生物学的システムの本質的な態様はその発展である。生物は時間と共に成長および発達し、成熟に達し、そして最終的には死ぬ。その生存中に生物はそれらの周囲を体験し、それらに適合することを学習する。感覚処理の観点から、これは、感覚体験の連続期間を構成し、生物が感覚イベントを学習し、および再学習することを可能にする。当然の結果として、生物学的システムは、それが適合するすべてのイベントおよび刺激にある一時点において遭遇するわけではない。生物学的システムはこれらのイベントを徐々に発見し、体験との関連性を決定し、それらを表現するためにそれ相応に順応する。
【0012】
更に、生物学的システムは、特徴を取り込み、表現を生成するための別個の「回路」を有していない。同じ構造体が入力のセットに適合し、それらを表現する。更に、入力表現は、適合のプロセスをガイドすることが期待されている。対照的に、既存の特徴抽出アプローチは典型的にはこれらの重要な感覚処理態様を再現できず、この2つのプロセスを統合しない。
【0013】
動物は、相対的に単純な頭脳を有しているものでさえ、変形、破損、または遮蔽されているオブジェクトを認識できる。動物の知能は何もないところから進化し、多様な環境においてこれらの信号を迅速且つ一貫性を有して学習、表現、および一般化する能力は、絶えず変化する環境を生き残るための動物の能力に対して重要である。認知の洗練度における大きなばらつきにも拘わらず、驚くべき事実は、認知機能は、局所演算とシナプス学習ルールに基づいているということである。シナプス強度における修正は、シナプス前ニューロンとシナプス後ニューロンの活動によってのみ指示される。それらは、脳の他の部分の変化には無関心であるが、脳は、単純であろうと複雑であろうと、少数の例から環境信号を抽出し、それらを一般化し、そして、オブジェクトのアイデンティティとクラスを認識し、適切な行動応答を推進することを学習できる。生物学的神経システムの理解における近年の進歩にも拘わらず、脳が、信号の破損、およびサイズ、位置、および視点における変動に対して不変オブジェクトの表現を生成するために局所学習ルールをどのように使用できるかは知られていない。
【0014】
視覚階層の早期の研究に喚起されて、既知の人工ニューラルネットワークモデルおよび深層学習変形例は、畳み込みと特徴の連続統合に依存して、認知機能を模倣し、著しい性能を示すことができる。これらのモデルは、脳において行われる演算を再現することが示唆されているが、これらのモデルは、生物学的神経システムとは根本的に異なるように動作する。特定の工学的問題に対処するように設計されているので、モデルは典型的には、所望される出力と実際の出力との間の不一致(またはエラー、またはコスト関数)を最小限にする学習プロセスに依存している。このプロセスは、ネットワークが入力の予め決定されているセットおよびそれらの対応する結果を「知る」ことを要求し、検出された不一致は、ネットワークを通して、エラーを最小限にするために接続重みを更新するように伝播させることができる。これらの目標に向けられている更新および教師あり訓練技術は、これらのニューラルネットワークが特定のタスクを実行することにおける精度を非常に高くするが、これには種々のコストがかかる。例えば、これらのネットワークは、生物学的システムと同じ方法で継続的に学習する能力を有していない。そうではなく、訓練が完了すると、更新された接続重みは「フリーズ」され、それ以上は変化しない。追加的に、新しいタスクに晒されることは、破局的忘却に繋がり得る。特定の例に基づく訓練は、その訓練データを超えてデータを良好に一般化せず、また、ネットワークが敵対的な攻撃に晒されやすくする。性能と強靭さを改良するためには、多数の層と大量の訓練データが要求される。
【0015】
対照的に、生物学的脳は特定の入力を先験的には知らない。それらは、指示または標識なしで学習し、エラーを逆伝播する自然機構もない。有機システムはまた、経験を通して絶えず更新されており、既存の自然ネットワークとは対照的に、それらは、敵対的な攻撃に対して著しく強靭である。生物学的システムに固有な利点を取り込むためには、人工ネットワークモデルは、オブジェクトの特徴取り込み、表現、および分類において包括的な成功を達成するためには局所学習ルールを使用すべきである。このアプローチは、現在まで実現されていない。
【図面の簡単な説明】
【0016】
実施形態の更なる記述を容易にするために下記の図面が提供され、図面においては、類似の参照番号は、類似または対応する部分を指すことが意図されている。
【0017】
図1A図1Aは、ある実施形態に従う、画像解析を生成するための例としてのシステムの図である。
【0018】
図1B図1Bは、ある実施形態に従う、コンピュータビジョンシステムの例としての特徴を提示しているブロック図である。
【0019】
図2図2は、ある実施形態に従う、例としてのニューラルネットワークアーキテクチャの図である。
【0020】
図3図3は、ある実施形態に従う、入力シーケンスにおける入力がニューラルネットワークアーキテクチャに対する表現層にどのようにして取り込むことができるかを例示している図である。
【0021】
図4図4は、ある実施形態に従う、ニューラルネットワークアーキテクチャにより、入力シーケンスにおける破損した入力をどのように学習できるかを例示している図である。
【0022】
図5A図5Aは、ある実施形態に従う、オブジェクトの特質をニューラルネットワークアーキテクチャに対する表現層の出力においてどのようにして取り込むことができるかを例示している図である。
図5B図5Bは、ある実施形態に従う、オブジェクトの特質をニューラルネットワークアーキテクチャに対する表現層の出力においてどのようにして取り込むことができるかを例示している図である。
図5C図5Cは、ある実施形態に従う、オブジェクトの特質をニューラルネットワークアーキテクチャに対する表現層の出力においてどのようにして取り込むことができるかを例示している図である。
【0023】
図6図6は、ある実施形態に従う、例としてのニューラルネットワークアーキテクチャの図である。
【0024】
図7A図7Aは、ある実施形態に従う、ニューラルネットワークアーキテクチャに対する出力に取り込まれるオブジェクトの特質を例示している図である。
図7B図Bは、ある実施形態に従う、ニューラルネットワークアーキテクチャに対する出力に取り込まれるオブジェクトの特質を例示している図である。
【0025】
図8図8は、ある実施形態に従う、ニューラルネットワークアーキテクチャのための例としての方法を示しているフローチャートである。
【0026】
明細書および特許請求の範囲における「第1」、「第2」、「第3」、「第4」などの用語は、記述されている場合、類似の要素を区別するために使用されており、特別な連続的または時間的順序を必ずしも示していない。そのように使用されている用語は、ここにおいて記述されている実施形態が、例えば、例示されている順序とは別の順序、またはここにおいて記述されている以外の順序での動作が可能なように、適切な状況においては交換可能であるということは理解されるべきである。
【0027】
明細書および特許請求の範囲における「左」、「右」、「前方」、「背後」、「後方」、「上部」、「底部」、「~の上方」、「~の下方」などの用語は、記述されている場合、記述の目的のために使用されており、固定的な相対的位置を必ずしも記述していない。そのように使用されている用語は、ここにおいて記述されている装置、方法、および/または製造品が、例えば、例示されているものとは異なる向きにおいても、または、ここにおいて記述されている以外の向きにおける動作が可能なように、適切な状況においては交換可能であるということは理解されるべきである。
【発明を実施するための形態】
【0028】
本開示は、画像に含まれているオブジェクトから、強靭で、不変なオブジェクト表現を抽出または生成するために、局所学習ルールおよび浅層二層ニューラルネットワークアーキテクチャを活用するニューラルネットワークアーキテクチャを提供するためのシステム、方法、装置、コンピュータプログラム製品、および技術に関する。ある実施形態においては、ニューラルネットワークアーキテクチャは、種々の形態で破損した画像入力対する不変応答を生成するように訓練できる。学習プロセスは、訓練セットの如何なる標識付けも、予め決定されている結果も要求せず、学習プロセスの間の大量訓練データセットに対する必要性をなくす。代わりに、ニューラルネットワークアーキテクチャは、局所学習ルールのみを使用して、学習プロセスの間の逆伝播も要求せず、または、再構築エラーまたはクレジット割り当てを使用することに頼ることなく不変オブジェクト表現を生成できる。ニューラルネットワークアーキテクチャにより生成された、高められたオブジェクト表現は、例えば、オブジェクト検出、オブジェクト分類、オブジェクト表現、オブジェクト分割などを含むことができる機能などのような、種々のコンピュータビジョン機能の性能を改良するために利用できる。
【0029】
既知の特徴抽出技術の限界を克服するために、経験に依存する方法でオブジェクトから包括的な構造を学習する、生物学的に喚起された浅層二層、冗長取り込み人工ニューラルネットワーク(ANN)が提供される。ある実施形態においては、ANNは、固有の入力構造を抽出し、入力を効率的に表現するように構成できるノードを備えている。幾つかのシナリオにおいては、単一のANNは、ブラインドソース分離技術と疎回復技術の両者の機能を組み込むことができる。ANNは、冗長取り込みを可能にする学習ルールを実現する修正されたホップフィールドネットワークを含むことができる。ある実施形態においては、ANNは、破局的忘却なしに、複数の入力を順次識別するためのバイアス接続性および確率的勾配降下型学習を含んでいる。ANNは、個々のオブジェクトを唯一的に識別する構造を取り込むことができ、入力破損の種々の形状に対して強靭な疎非相関表現を生成する。注目すべきことであるが、ANNは、教師なしの方法で破損していない特徴を抽出し、アイデンティティおよび回転情報を、回転三次元オブジェクトの異なる画像から分離するために種々の破損した入力形状から学習でき、教師なしの条件で異なるオブジェクトの向きに調整されたセルを生成できる。ANNは、データの初期セット(訓練セットデータなどの)を表現するために非常に良好に学習できるが、ANNはまた、初期(または訓練)データセットに含まれている画像に類似しているが、同一ではない画像に対しても良好に性能を発揮する。そのようなシナリオにおいては、ANNは継続学習を採用できるので、新しい画像に適合でき、それらをより疎に、およびより強靭に表現できる。
【0030】
ある実施形態においては、ANNは、表現ノードの第2層とオールツーオール構成において接続できる入力ノードの第1層を含んでいる。第2層における表現ノード間の抑制性反復接続は負の入力値を提供し、また、オールツーオール構成において接続できる。入力ノードは、入力データセットにおいてパターンを検出するように構成でき、これらのパターンを、第2層における表現ノードに投影できる。ANNの表現ノードからの表現の疎性は、表現層におけるノード間の抑制性反復接続により生成される。これらの抑制性接続は、興奮性反復接続である従来のホップフィールドネットワークにおける第2層ノード間の接続とは異なる。入力ノードと表現ノード間の接続を確立することは、表現ノードが、入力ノードにより抽出される特徴に関連する情報を学習することを可能にする。
【0031】
ANNにおいては、有益な構造の取り込みは、表現ノード(または、第2層のノード)の調整特性において反映できる。調整特性は、ANNが、(重みの更新を通してなどように)それに入力された画像から特徴(またはオブジェクト)を抽出することにどの程度良好に適合したかの尺度である。表現ノードの調整特性は、それらが、感覚経路(信号経路)において早期段階のノード(入力ノードなどのような)にどのように接続されているかにより決定できる。従って、入力に対する適合は、ANNの接続における変化に関することができる。
【0032】
ANNは、ニューラルネットワーク設計に対する従来のアプローチと比較すると、現実世界の生物学的認知プロセスをより正確に模倣する。上述のように、オブジェクトを表現するために設計された多数の従来の人工ニューラルネットワークは、実際の出力と所望される出力との間の不一致が、エラー逆伝播などのような機構を通してネットワーク接続を更新することにより削減される最適化プロセスを利用する。このアプローチは、人工ニューラルネットワークのすべてのレベルにおける個々の接続が、ネットワークの後段において見出されるエラーを感知することを要求する。しかし、生物学的神経システムにおける学習は、シナプス前活動およびシナプス後活動によって局所的に起こることが知られている。更に、従来の技術は、人工ニューラルネットワークが、入力のあるセットに対する正確な結果を「知っている」ことを要求するが、それは、生物学的ニューラルネットワークは要求しない。更に、多数の既存の人工ニューラルネットワークは別個の訓練フェーズを要求するが、生物学的ニューラルネットワークは絶えず学習している(つまり、種々のニューロン/ノード間の接続の重みは、ニューラルネットワークの寿命を通して絶えず更新される)。生物学的ニューラルネットワークのこれらの態様は、それらの複雑さにも拘わらす、多数の既存の人工ニューラルネットワークよりも敵対的攻撃により晒されにくくする。本開示を通して記述されているANNは、生物学的ニューラルネットワークのこれらの、および他の態様をより正確に模倣するようにモデル化される。更に、生物学的システムと同様に、ANNにおける表現は非負であることができる。
【0033】
ある実施形態においては、ここにおいて記述されているANNは、ノードの接続が変化するときに、表現ノードの対する調整特性を動的に更新または変える。接続性における適切な変化は、ノードが最も有益な構造に調整されるように導くことができる。2つのノード間の接続は、興奮性および抑制性の両者であり得るので、これらの接続における変化は同様に何れかの性質であり得、従って、異なる接続における更新は、異なる正または負符号という結果になり得る。そのような更新は、有益な構造を取り込むことを支援するノードの値に対する非負の制約と矛盾しているように見える可能性がある。しかし、接続性の変化は双方向であり得るが、抑制性接続は、如何なるノードの値もゼロ未満にすることなくノードの活動を削減できるのみである。この設定においては、ANNはノードの特性を互いに減じなくてもよい。そのため、非負の制約は、ノードが興奮性および抑制性入力の両者を受信したとしても満たすことができる。
【0034】
更に、ANNは、経験に依存する方法で入力から固有の特徴を抽出でき、そのような構造に基づいて、入力の疎且つ効率的な表現を生成できる。従来のホップフィールドネットワークに基づくニューラルネットワークとは異なり、本開示を通して記述されているANNは適合性を有するように設計できる。入力層と表現層との間の接続性は、その表現を最適化するための入力に基づいて変化できる。ANNの接続性を更新することは、確率的勾配降下(SGD)型アプローチを使用して達成できる。このSGDに類似のアプローチを使用して、ANNは、他の以前の入力に対する自身の適合に影響を与えない方法で新しい入力に徐々に適合できる。入力に反復的に遭遇することによりANNはすべての異なる入力に適合できる。
【0035】
行列因子分解アプローチなどのような、入力の数と共に効率が減少するある方法とは異なり、ここにおいて記述されているANNの設計は、反復遭遇と入力の数の両者による効率における増大を可能にする。より多くの数の入力に適合することは、ANNが入力についてのより多くの情報を含むようにさせることができ、ANNにおいてより多くの情報を収容することは、ANN容量の適切な利用と効率における増大という結果にすることができる。
【0036】
ある実施形態においては、ANNの二層ニューラルネットワークアーキテクチャは、分類ネットワークを作成するために分類層に拡張または接続できる。二層ニューラルネットワークの識別(または表現)層は、ニューラルネットワークにより入力として受信された異なるオブジェクト間の差を強調するが、分類層は、入力における異なるオブジェクト間の共有されている特徴を識別する。分類層におけるノードは、分類層における他のノードからの相互興奮および全体的な抑制に晒される可能性がある。幾つかの実施形態においては、これらのノードは、識別層におけるノードに1対1で興奮的に接続でき、入力層におけるノードに抑制的に接続できる。これらの設計コンセプトは、脊椎動物の感覚皮質における観測された構成の後でモデル化される。下記に更に詳細に説明されるように、分類ネットワークの設計は、それが類似のオブジェクトを分類し、同じオブジェクトを異なる視点、サイズ、および/または位置から識別することを可能にする。それは更に、分類ネットワークが、特別な表現を処理または経験していなくても、同じオブジェクト(サイズ、視点などが異なる)の表現を分類することを可能にする。
【0037】
分類ネットワークは従来のアプローチに対して完全に解釈可能であり(いわゆるホワイトボックス)、破局的忘却にならないということにおいて従来のアプローチに対して追加的な利点を有しており、破局的忘却は従来のアプローチにおいて共通して観測される現象であり、ニューラルネットワークが、あるタスクをどのように実行するかを、他のタスクに対して訓練された後は忘れてしまうという結果になる。分類ネットワークはその解析を、効率的且つ強靭な方法で入力に対して実行する。
【0038】
オブジェクトのアイデンティティは、その特徴間の構造的関係において埋め込まれており、本開示のニューラルネットワークアーキテクチャは、オブジェクトのアイデンティティを符号化するためにそれらの関係または依存性を利用できる。更に、下記において更に詳細に説明されるように、ニューラルネットワークアーキテクチャはこれらの依存性を最大限取り込むので、オブジェクトの存在を、入力パターンの正確な詳細なしに識別し、不変表現を生成または抽出できる。
【0039】
ここにおいて検討されている技術は、多様な異なる状況および環境において使用できる。これらの技術の1つの有用な適用は、コンピュータビジョンの状況においてであり、コンピュータビジョンは、広く多様な異なる適用にわたり適用できる。例えば、ここにおいて開示されている技術は、ここにおいて記述されているオブジェクト表現を使用することから恩恵を受けることができる任意の適用、装置、またはシステムに統合できる。
【0040】
これらの技術の1つの例としての適用は、顔認識の状況において適用できる。これらの技術の他の有用な適用は、監視システムの状況においてである(例えば、セキュリティチェックポイントにおいて)。これらの技術の他の有用な適用は、シーン解析適用の状況においてである(例えば、車両を制御するために自動化、無人、および/または自律システムに依存する自動化、無人、および/または自律車両において使用できる)。これらの技術の他の有用な適用は、インテリジェントまたは自動化交通制御システムの状況においてである。これらの技術の他の有用な適用は、画像編集適用においてである。これらの技術の他の有用な適用は、衛星撮像システムの状況においてである。追加的な有用適用には、品質制御システム(例えば、産業サンプルチェック、および産業欠陥検出)、農業解析システム、および医療解析システム(例えば、人間と動物両者への適用)を含むことができる。
【0041】
ここにおいて検討されている技術はまた、多数の他の状況にも適用できる。例えば、これらの技術は、DNAおよびRNA配列、聴覚データ、感覚データ、または他のソースから収集されたデータを処理および/または解析するために使用できる。これらの状況においては、ニューラルネットワークアーキテクチャは、データにおけるオブジェクトに関連する入力データから他の情報を識別、分類、または抽出でき、それは、データのあるパターンまたは他の特徴であってよい。ニューラルネットワークアーキテクチャは一般的には、それが視覚画像に対して可能なように、表現を抽出すること、および/または入力データの部分を分類することに関する同じ機能を実行できる。ニューラルネットワークアーキテクチャにより解析および/または処理されるデータは、ニューラルネットワークアーキテクチャに入力される画像を形成するためにそのデータを画素に変換することによるなどのように、何らかの方法で前処理できる。一定比率での拡大/縮小、および/または、ウェーブレットまたはフーリエ変換の適用などの他の前処理ステップは、すべてのタイプの入力に適用できる。
【0042】
本開示において記述されている実施形態は、種々の方法で組み合わせることができる。1つの実施形態に対して記述されている如何なる態様または特徴も、本開示において言及されている如何なる他の実施形態に組み込むことができる。更に、ここにおいて記述されている実施形態の何れも、ハードウェアに基づくことができ、ソフトウェアに基づくことができ、または、好ましくは、ハードウェアとソフトウェア要素の両者を混合したものを備えることができる。そのため、ここにおける記述は、ある実施形態、特徴、または構成要素をソフトウェアまたはハードウェアにおいて実現されるものとして記述できるが、本開示において言及される如何なる実施形態、特徴、および/または構成要素もハードウェアおよび/またはソフトウェアにおいて実現できるということは認識されるべきである。
【0043】
図1Aは、ある実施形態に従う、例としてシステム100の図である。図1Bは、コンピュータビジョンシステム150と関連付けられている、例としての特徴および/または機能を示している図である。図1Aと1Bは下記において一緒に検討される。
【0044】
システム100は、ネットワーク190を介して通信状態にある、1つ以上の演算装置110と1つ以上のサーバ120を備えている。コンピュータビジョンシステム150は、1つ以上のサーバ120上に格納され、1つ以上のサーバ120により実行される。ネットワーク190は、例えば、ローカルエリアネットワーク(例えば、Wi-Fiネットワーク)、パーソナルエリアネットワーク(例えば、ブルートゥース(登録商標)ネットワーク)、ワイドエリアネットワーク、イントラネット、インターネット、セルラーネットワーク、テレビジョンネットワーク、および/または、他のタイプのネットワークを備える通信ネットワークなどのような任意のタイプの通信ネットワークを代表することができる。
【0045】
演算装置110、サーバ120、およびコンピュータビジョンシステム150を含む、図1Aと1Bにおいて例示されているすべての構成要素は、互いに直接通信し、および/または、有線または無線通信リンク、またはその2つの組み合わせを介してネットワーク190を介して互いに通信するように構成できる。演算装置110、サーバ120、およびコンピュータビジョンシステム150のそれぞれはまた、1つ以上の通信装置、1つ以上のコンピュータストレージ装置201、およびコンピュータプログラム命令を実行できる1つ以上の処理装置202(中央処理ユニット)を装備することができる。
【0046】
1つ以上のコンピュータストレージ装置201は、(i)例えば、リードオンリメモリ(ROM)などのような不揮発性メモリ、および/または、(ii)例えば、ランダムアクセスメモリ(RAM)などのような揮発性メモリを含むことができる。不揮発性メモリは、リムーバブルおよび/または非リムーバブル不揮発性メモリであってよい。一方、RAMは、ダイナミックRAM(DRAM)、スタティックRAM(SRAM)などを含むことができる。更に、ROMは、マスクプログラムROM、プログラマブルROM(PROM)、ワンタイムプログラマブルROM(OTP)、消去可能型プログラマブルリードオンリメモリ(EPROM)、電気的消去可能型プログラマブルROM(EEPROM)(例えば、電気的書き換え可能型ROM(EAROM)および/またはフラッシュメモリ)などを含むことができる。ある実施形態においては、コンピュータストレージ装置201は物理的非一時的媒体であってよい。1つ以上のコンピュータストレージ装置201は、コンピュータビジョンシステム150により実行される機能を実行することと関連付けられている命令を格納できる。
【0047】
1つ以上の処理装置202は、1つ以上の中央処理ユニット(CPU)、1つ以上のマイクロプロセッサ、1つ以上のマイクロコントローラ、1つ以上のコントローラ、1つ以上の複合命令セットコンピューティング(CISC)マイクロプロセッサ、1つ以上の縮小命令セットコンピューティング(RISC)マイクロプロセッサ、1つ以上の超長命令ワード(VLIW)マイクロプロセッサ、1つ以上のグラフィックスプロセッサユニット(GPU)、1つ以上のデジタル信号プロセッサ、1つ以上の特定用途向け集積回路(ASIC)、および/または、所望される機能を実行できる任意の他のタイプのプロセッサまたは処理回路を含むことができる。1つ以上の処理装置202は、下記に制限されないが、コンピュータビジョンシステム150により実行される機能を実行することと関連付けられている命令を含む1つ以上のコンピュータストレージ装置に格納されている、またはそこに含まれている任意のコンピュータプログラム命令を実行するように構成できる。
【0048】
1つ以上の通信装置のそれぞれは、有線および/または無線通信技術を使用する通信を可能にする有線および無線通信装置および/またはインタフェースを含むことができる。有線および/または無線通信は、有線および/または無線通信ネットワークトポロジー(例えば、リング、ライン、ツリー、バス、メッシュ、スター、デイジーチェーン、ハイブリッドなど)および/またはプロトコル(例えば、パーソナルエリアネットワーク(PAN)プロトコル、ローカルエリアネットワーク(LAN)プロトコル、ワイドエリアネットワーク(WAN)プロトコル、セルラーネットワークプロトコル、パワーラインネットワークプロトコルなど)の何れか1つ、またはその組み合わせを使用して実現できる。ある実施形態においては、1つ以上の通信装置は、追加的に、または代替的に、1つ以上のモデム装置、1つ以上のルータ装置、1つ以上のアクセスポイント、および/または1つ以上のモバイルホットスポットを含むことができる。
【0049】
ある実施形態においては、演算装置110は、デスクトップコンピュータ、ラップトップコンピュータ、モバイル装置(例えば、スマートフォン、個人情報端末、タブレット装置、車両演算装置、または、本質的にモバイルである任意の他の装置)、および/または他のタイプの装置を代表することができる。1つ以上のサーバ120は、一般的には、上記の演算装置110の何れをも含む任意のタイプの演算装置を代表することができる。ある実施形態においては、1つ以上のサーバ120は、ネットワーク190を介して(例えば、インターネットを介して)演算装置110および他の装置と通信するためにウェブサーバを実行する1つ以上のメインフレーム演算装置を備えている。
【0050】
ある実施形態においては、コンピュータビジョンシステム150は、1つ以上のサーバ120に格納され、および1つ以上のサーバ120により実行される。コンピュータビジョンシステム150は、画像130を解析すること、および/または、下記に制限されないが、特徴抽出、オブジェクト検出、オブジェクト分類、およびオブジェクト分割を実行するための機能を含む、コンピュータビジョン機能を実行することと関連付けられている任意およびすべての動作を実行するように構成できる。
【0051】
コンピュータビジョンシステム150に提供され、および、コンピュータビジョンシステム150により解析される画像130は任意のタイプの画像を含むことができる。ある実施形態においては、画像130は1つ以上の二次元(2D)画像を含むことができる。ある実施形態においては、画像130は1つ以上の三次元(3D)画像を含むことができる。更に、画像130は、DNAまたはRAN配列、聴覚データ、感覚データ、および他のタイプのデータなどのように、画素化(つまり、非視覚データを、非視覚データの部分を表す1つ以上の「画素」を含む「画像」に変換すること)することにより非視覚データソースから作成できる。画像130は、任意のデジタルまたはアナログフォーマットにおいて、および、任意の色空間または色モデルを使用して取り込むことができる。画像130は、ビデオから抜粋された部分であることができる。例としての画像フォーマットとしては、下記に制限されないが、ビットマップ(BMP)、JPEG(ジョイントフォトグラフィックエキスパーツグループ)、TIFF(タグ付き画像ファイル形式)、GIF(グラフィックス交換形式)、PNG(ポータブルネットワークグラフィックス)、STEP(製品データ交換標準)などを含むことができる。例としての色空間またはモデルとしては、下記に制限されないが、sRGB(標準赤-緑-青)、Adobe RGB、グレースケールなどを含むことができる。更に、幾つかの実施形態においては、画像130の幾つかまたはすべては、コンピュータビジョンシステム150により解析される前に、前処理および/または変換できる。例えば、画像130は、フーリエまたはウェーブレット変換などのような変換を介して異なる色要素に分割でき、および/または処理できる。他の前処理および変換操作もまた適用できる。
【0052】
コンピュータビジョンシステム150により受信された画像130は、任意のタイプのカメラ装置により取り込むことができる。カメラ装置は、撮像センサ、カメラ、または光学装置を含む任意の装置を含むことができる。例えば、カメラ装置は、スチル画像カメラ、ビデオカメラ、および/または画像/ビデオセンサを含む他の装置を代表することができる。カメラ装置は、下記に制限されないが、紫外線(UV)、赤外線(IR)、または陽電子放出断層撮影(PET)、磁気共鳴画像法(MRI)、X線、超音波、他のタイプの医療および非医療画像法を含む可視および非可視スペクトルの両者を取り込むことができ、および/または格納できる。カメラ装置としてはまた、撮像センサ、カメラ、または光学装置を備え、画像の取り込みとは関係のない他の機能を実行できる装置を含むことができる。例えば、カメラ装置としては、モバイル装置(例えば、スマートフォン、セルフォン)、タブレット装置、演算装置、デスクトップコンピュータなどを含むことができる。カメラ装置は、カメラ装置の構成または設計に基づいて、アナログ/デジタル(A/D)コンバータ、および/または、デジタル/アナログ(D/A)コンバータを装備できる。ある実施形態においては、図1に示されている演算装置110としては、上記のカメラ装置および他のタイプのカメラ装置の何れをも含むことができる。
【0053】
画像130(または画像130に取り込まれている対応するシーン)のそれぞれは、1つ以上のオブジェクト135を含むことができる。一般的に言えば、如何なるタイプのオブジェクト135も画像130に含むことができ、画像130に含まれているオブジェクト135のタイプは、大きく変動し得る。画像130に含まれているオブジェクト135は、種々のタイプの非生命体(例えば、車両、ベッド、机、窓、工具、家電製品、産業機器、カーテン、スポーツ用品、備品など)、生命体(例えば、人間、顔、動物、植物など)、構造物(例えば、建物、家屋など)、記号(アルファベットのラテン文字、アラビア数字、漢字など)、および/または同様なものに対応することができる。解析される基盤となるデータが、本質的に見ることができないときは(DNAまたはRNA配列、マイクロフォンまたはオーディオセンサにより取り込まれた聴覚データなどのような)、オブジェクト135は、データにおいて見出された重要な任意のパターンまたは特徴を含むことができる。コンピュータビジョンシステム150により受信された画像130は、処理および/または解析のためにニューラルネットワークアーキテクチャ140に提供できる。
【0054】
とりわけ、ニューラルネットワークアーキテクチャ140は画像130から、向上された、または最適化されたオブジェクト表現165を抽出できる。オブジェクト表現165は、特徴、埋め込み、符号化、ベクトルおよび/または同様のものを表現でき、各オブジェクト表現165は、画像130に含まれている1つ以上のオブジェクト135を表現する、および/または、識別する符号化データを含むことができる。ある実施形態においては、ニューラルネットワークアーキテクチャ140は、それに提示されたパターンを順次学習でき、この学習された知識は、オブジェクト表現165を最適化し、ここにおいて記述されている他の機能を実行するために活用できる。
【0055】
ニューラルネットワークアーキテクチャ140の構造または構成は変化し得る。ある実施形態においては、ニューラルネットワークアーキテクチャ140は1つ以上の反復ニューラルネットワーク(RNN)を含むことができる。例えば、幾つかの場合においては、ニューラルネットワークアーキテクチャ140は、ここにおいて記述されているタスクを実行するように修正および最適化されているホップフィールドネットワークを含むことができる。ある実施形態においては、修正されたホップフィールドネットワークは、入力ノード(または入力ニューロン)の第1層および表現ノード(または、表現ニューロン)第2層を備える浅層二層RNNである。表現ノードのそれぞれは、オールツーオール構成において入力ノードのそれぞれに接続でき、入力と表現ノードとの間のフィードフォワード重みは、2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択できる。追加的に、表現ノードは、反復接続を使用して互いに接続できる。幾つかの実施形態においては、ノード間のバイアス接続性は、確率的勾配降下(SGD)に基づく学習機構と結合されて、ニューラルネットワークアーキテクチャ140が、破局的忘却なしに複数の入力を順次識別することを可能にする。ニューラルネットワークアーキテクチャ140におけるバイアス接続性と側方向抑制は、表現ノードが個々のオブジェクトを唯一的に識別する構造を符号化することを可能にする。
【0056】
ある実施形態においては、低速シナプス重み変化は、個々の例からの継続的学習を可能にする。そのような実施形態においては、その低速(従来の画像解析システムに対して)は全体のネットワーク接続における障害を引き起こさないが、特定のパターンが符号化されることを可能にする。幾つかの実施形態においては、各学習反復での正規化ステップはなく、それは、負のシナプス重みの生成または割り当てを防止できる。そのような結果は、低速シナプス重み変化によるものであり、生物学的システムと類似している(例えば、シナプス重みが決して負にならない動物の脳において)。
【0057】
ある実施形態においては、ニューラルネットワークアーキテクチャ140に含まれている表現ノードの数は、認識が所望される画像またはオブジェクトの数に正比例することができる。そのような例においては、表現層は、識別される画像の数とほぼ同数のノードを含むことができる。幾つかの実施形態においては、一次層から表現層へのノード数の2倍以上(10倍以上まで)の拡張があり得る。ニューラルネットワークアーキテクチャ140の多数の適用に対しては、各層におけるより多くのノードはより良好な結果を生み出す。ニューラルネットワークアーキテクチャ140を構成しているノードの総数には上限はない。
【0058】
幾つかの実施形態においては、ニューラルネットワークアーキテクチャ140は、入力層と表現層との間の接続性が、処理されている所与の入力画像に基づいて変化することが可能なように適合性を有するように構成できる。入力層と表現層との間の接続のこの動的適合は、ニューラルネットワークアーキテクチャ140が、生成されるオブジェクト表現165を最適化することを可能にする。結果としてのオブジェクト表現165は疎であり、ニューラルネットワークアーキテクチャ140の個々のノードは相関性がなく、それにより、入力パターンの効率的な符号化に繋がる。更に、ニューラルネットワークアーキテクチャ140は、画像130におけるオブジェクト135から有益な構造を抽出できるので、結果としてのオブジェクト表現165は、劣化、破損、および遮蔽の種々の形状に対して強靭である。
【0059】
ニューラルネットワークアーキテクチャ140の他の構成もまた採用できる。本開示のある部分は、ニューラルネットワークアーキテクチャ140が修正されたホップフィールドネットワークまたはRNNを含んでいる実施形態を記述しているが、ここにおいて記述されている原理は、種々の学習モデルまたはネットワークに適用できるということは理解されるべきである。幾つかの例においては、ニューラルネットワークアーキテクチャ140の層は、ここにおいて記述されている機能を実行する深層ニューラルネットワークを形成するための種々の構成において適切に積み重ねることができ、および/または、平行化できる。ニューラルネットワークアーキテクチャ140が積み重ねられるある実施形態においては、その表現層またはその分類層(ニューラルネットワークアーキテクチャ140が第3層を含んでいる例において)、またはその両者の出力は、次のニューラルネットワーク(他の二または三層修正ホップフィールドネットワークなどのような)に対する入力として使用できる。そのような実施形態においては、これらの後者のニューラルネットワークに対する入力は、前のニューラルネットワークアーキテクチャ140の各ノードからの活動から導出され、次のネットワークへの入力の画素として扱うことができる。ある実施形態においては、ニューラルネットワークアーキテクチャ140は、古典的パーセプトロンを、クラス情報を読み込む追加層として含むことができる。
【0060】
ニューラルネットワークアーキテクチャ140が積み重ねられるある実施形態においては、第1ニューラルネットワークアーキテクチャ140を走査装置として使用でき、それにより、制限のある数の画素がより大きいシーンをカバーすることを可能にする(生物学的生命体が自身の目を使用して、一度に視野の1つの領域に焦点を当てるが、全体のシーンを合成することに類似している)。全体のシーンを合成するためには、走査された画像(またはサブシーン)は、異なる時点において取得されたとしても、時間に対して不変なものとして扱うことができる。
【0061】
1つの例においては、ここにおいて記述されている原理は、本開示において特定的には言及していない他のタイプのRNNに拡張でき、または適用できる。他の例においては、ここにおいて記述されている原理は、強化された学習ニューラルネットワークに拡張でき、または適用できる。更なる例においては、ここにおいて記述されている原理は、畳み込みニューラルネットワーク(CNN)に拡張でき、または適用できる。
【0062】
例えば、ある実施形態においては、ニューラルネットワークアーキテクチャ140は、追加的に、または代替的に、畳み込みニューラルネットワーク(CNN)または複数の畳み込みニューラルネットワークを備えることができる。各CNNは人工ニューラルネットワークを表現でき、画像130を解析し、画像130に対して深層学習機能および/または機械学習機能を実行するように構成できる。各CNNは、下記に制限されないが、1つ以上の入力層、1つ以上の出力層、1つ以上の畳み込み層(例えば、学習可能フィルタを含んでいる)、1つ以上のReLU(正規化線形ユニット)層、1つ以上のプーリング層、1つ以上の完全結合層、1つ以上の正規化層などを含んでいる複数の層を含むことができる。CNNの構成およびそれらの対応する層は、CNNが、本開示において記述されている機能の何れも含む、画像130を解析、解釈、および理解するための種々の機能を学習および実行することを可能にするように構成できる。
【0063】
その構成に拘わらず、ニューラルネットワークアーキテクチャ140は、入力画像130から強靭なオブジェクト表現165を抽出するように訓練できる。幾つかの実施形態においては、ニューラルネットワークアーキテクチャ140はまた、1つ以上のコンピュータビジョン機能を実行するためにオブジェクト表現165を利用するように訓練できる。例えば、幾つか場合においては、オブジェクト表現165は、オブジェクト検出機能を実行するために利用でき、オブジェクト検出機能は、画像130における1つ以上の目標クラスと関連付けられているオブジェクト135の位置を予測または識別する(例えば、バウンディングボックスを使用して)ことを含むことができるオブジェクト検出機能を実行するために利用できる。追加的に、または代替的に、オブジェクト表現165は、オブジェクト分類機能(例えば、画像130におけるオブジェクト135が1つ以上の目標セマンティッククラスに属しているかどうかを予測または決定すること、および/または、画像130におけるオブジェクト135に対する標識を予測または決定することを含むことができる)、および/または、インスタンスセグメンテーション機能(例えば、画像130におけるオブジェクト135の正確な位置を、画素レベルの精度で予測または識別することを含むことができる)を実行するために利用できる。ニューラルネットワークアーキテクチャ140は、他のタイプのコンピュータビジョン機能も実行するように訓練できる。
【0064】
コンピュータビジョンシステム150のニューラルネットワークアーキテクチャ140は、画像130の解析に基づいて、解析情報160を生成且つ出力するように構成されている。画像130に対する解析情報160は、一般的には、画像130および画像130に含まれているオブジェクト135を解析、解釈、理解、および/または分類することと関連付けられている任意の情報またはデータを含むことができる。ある実施形態においては、解析情報160は、入力画像130から抽出されるオブジェクト表現165を表現している情報またはデータを含むことができる。解析情報160は更に、画像130に含まれているオブジェクト135の回転の角度、向き、または位置を示す向き情報を更に含むことができる。
【0065】
追加的に、または、代替的に、解析情報160は、ニューラルネットワークアーキテクチャ140により実行されたコンピュータビジョン機能の結果を示す情報またはデータを含むことができる。例えば、解析情報160は、オブジェクト検出、オブジェクト分類、および/または他のコンピュータビジョン機能を実行することと関連付けられている予測および/または結果を含むことができる。
【0066】
図1において示されている例としてのシステム100においては、コンピュータビジョンシステム150は、1つ以上のサーバ120に格納でき、または、1つ以上のサーバ120により実行できる。他の例としてのシステムにおいては、コンピュータビジョンシステム150は、追加的に、または代替的に、演算装置110および/または他の装置に格納でき、または演算装置110および/または他の装置により実行できる。例えば、ある実施形態においては、コンピュータビジョンシステム150は、カメラ装置が、ここにおいて記述されている技術を使用して画像を解析することを可能にするためにカメラ装置に直接統合できる。
【0067】
同様に、コンピュータビジョンシステム150はまた、ここにおいて記述されている技術を実現するために、演算装置110にローカルアプリケーションとして格納でき、または、演算装置110に格納されているローカルアプリケーションと統合できる。例えば、ある実施形態においては、コンピュータビジョンシステム150は、下記に制限されないが、顔認識アプリケーション、自動化車両アプリケーション、インテリジェント交通アプリケーション、監視アプリケーション、セキュリティアプリケーション、産業品質制御尾アプリケーション、医療アプリケーション、農業アプリケーション、獣医アプリケーション、画像編集アプリケーション、ソーシャルメディアアプリケーション、および/または、演算装置110および/またはサーバ120に格納される他のアプリケーションを含む種々のアプリケーションと統合できる(または、それらの種々のアプリケーションと通信できる)。
【0068】
幾つかの特別な有用アプリケーションにおいては、ニューラルネットワークアーキテクチャ140は、顔認識アプリケーションと統合でき、顔、または顔オブジェクトの識別において支援するために擬似画像を生成する。例えば、顔オブジェクトを含んでいる所与の画像130を受信すると、ニューラルネットワークアーキテクチャ140は、未知の、または変形された形状(例えば、変形された顔オブジェクトを含むことができる)の一貫性のある擬似画像を強靭に生成でき、擬似画像は顔認識の目的のために使用できる。実際の顔オブジェクトの格納は要求されず、それは、技術的観点(例えば、格納空間の使用を削減することにより)およびプライバシーの観点の両者から恩典であることができる。
【0069】
ニューラルネットワークアーキテクチャ140による継続的学習が利用されないある実施形態においては、ニューラルネットワークアーキテクチャ140がその割り当てられたアプリケーションに対してすぐに利用可能になるように、ニューラルネットワークアーキテクチャ140を予め学習された重み行列で展開できる。追加的に、ニューラルネットワークアーキテクチャ140はまた、それが予め学習された重み行列で展開されたとしても、所望であれば追加的学習を実行できる。新しいオブジェクトが予期されない、または、予期されてもごく少数のオブジェクトしか予期されないある実施形態においては、重みの学習されたセットでのニューラルネットワークアーキテクチャ140は、その性能を加速するための如何なる学習(または適合)機構なしで直接格納および使用できる。代替的に、または追加的に、ニューラルネットワークアーキテクチャ140は、新しいオブジェクトを考慮するためにその重みを継続的に更新することを可能にできる。
【0070】
ある実施形態においては、1つ以上の演算装置110は、個人がネットワーク190を介して(例えば、ウェブブラウザアプリケーションによりインターネットを介して)コンピュータビジョンシステム150にアクセスすることを可能にできる。例えば、カメラ装置(例えば、演算装置110に直接統合でき、または、演算装置110とは別個の装置であってよい)が1つ以上の画像130を取り込んだ後に、個人は、1つ以上の画像130をネットワーク190を介してコンピュータビジョンシステム150に送信するために演算装置110を利用できる。コンピュータビジョンシステム150は、本開示において記述されている技術を使用して、1つ以上の画像130を解析できる。コンピュータビジョンシステム150により生成された解析情報160は、1つ以上の画像130を送信した演算装置110、および/または、他の演算装置110にネットワーク190を介して送信できる。
【0071】
図2において例示されているように、ニューラルネットワークアーキテクチャ140は、入力ノード210a~dの第1層(ここにおいては、一次層ノードとも称することができる)と、表現ノード220a~eの第2層(ここにおいては、識別ノード、表現ノード、または二次層ノードとも称することができる)を備えている、浅層二層ANN200(例えば、修正されたホップフィールドネットワーク)を含むことができる。入力ノード210a~dのそれぞれは、オールツーオール構成において表現ノード220a~eのそれぞれに接続できる。ある実施形態においては、入力ノード210a~dと表現ノード220a~eとの間の初期フィードフォワード重みは、表現ノード220a~eの何れかの2つが同時にアクティブになる可能性を最小限にするために、入力データセットの分散構造に少なくとも部分的には基づいて選択できる。追加的に、表現ノード220a~eは、抑制的である反復接続を使用してオールツーオール構成において互いに接続できる。ニューラルネットワークアーキテクチャ140におけるバイアス接続性および側方向抑制は、ノードが個々のオブジェクト135を唯一的に識別する構造を符号化することを可能にする。画像130において埋め込まれているオブジェクト135のオブジェクト表現165の疎性は、表現ノード220a~e間の抑制性反復接続のためである。これらの抑制性接続は、興奮性反復接続を含む従来のホップフィールドネットワークには存在しない。
【0072】
幾つかの実施形態においては、二層ANN200は、入力層ノード210a~dと表現層ノード220a~eとの間の接続性が、処理されている所与の入力画像に基づいて変化することが可能なように適合性を有するように構成できる。入力層ノード210a~dと表現層ノード220a~eとの間の接続のこの動的適合は、二層ANN200が、生成されるオブジェクト表現165を最適化することを可能にする。結果としてのオブジェクト表現165は疎であり、二層ANN200の個々の表現層ノード220a~eは相関性がなく、それにより、入力パターンの効率的な符号化に繋がる。更に、二層ANN200は、画像130におけるオブジェクト135から有益な構造を抽出できるので、結果としてのオブジェクト表現165は、劣化、破損、および遮蔽の種々の形状に対して強靭である。
【0073】
ある実施形態においては、任意の2つのノード間の重みは、局所学習ルールを使用して更新される。例えば、入力ノードと表現ノードとの間の接続は、両方のノードがアクティブなときに強めることができる。表現ノード220a~eの2つが同時にアクティブなときは、これらの2つのノードに対する入力接続は弱められ、抑制性重みは、表現ノード220a~eの2つが同じレベルの活動を有しているときに増大させることができる。入力ノード210a~dと表現ノード220a~eとの間の接続の強化は、局所ヘブ行動の例であり、一方、同時にアクティブな、表現ノード220a~eの任意の2つを弱めることは、局所非ヘブ行動の例である。
【0074】
これらの接続が強められ、または弱められる様子は、現実世界の生物学的認知プロセスを模倣するために、表現ノード220a~eにおいて局所学習ルールを使用して唯一的にモデル化できる。生物学的システムにおいては、ヘブ学習ルール(p個のパターンをNユニットを有するネットワークに格納するためには、パターンの記憶を確実にする重みは
【数1】
を使用して設定され、ここにおいてx は、r番目のパターンにおけるi番目のユニットの状態を示している)は一般的には、ニューロンが活性化され他のニューロンに接続されるときを特定し、これらの接続は弱く開始するが、接続は刺激が反復されるたびにますます強くなる。同様に、ここにおいて記述されているANN200においては、入力ノード210a~dと表現ノード220a~eとの間の接続は、接続が形成されるときに強くなり、それにより、関連する特徴情報を取り込むことができる、入力ノード210a~dと表現ノード220a~eにより抽出された特徴間の対応付けを確立する。追加的に、表現ノード220a~eの2つがコアクティブのときは、学習ルールは、入力ノード210a~dと表現ノード220a~eのそれらの2つの間の接続の強度を削減できる。更に、初期化のときに、入力ノード210a~dと表現ノード220a~eとの間の接続性は入力データセットの分散構造を考慮し、表現ノード220a~eの任意の2つが、任意の所与の入力に対して一緒に発火する可能性が低くなることを確実にする。ANN200の初期バイアスに対するこのアプローチは学習速度を高めることができる。
【0075】
ある実施形態においては、二層ANN200は、画像130に晒された後に画像130を迅速に表現できる。例えば、二層ANN200は、世界の言語からの符号の画像を含む入力の構造的特徴を精度よく取り込むことができ、符号に晒されることが10回未満でも性能の学習プラトーに到達する。更に、二層ANN200は継続的学習が可能である。例えば、二層ANN200は、より早期の入力タイプをどのように表現したかを「忘却する」ことなく異なる入力タイプ(世界の言語からの符号などのような)を表現することを学習した後に、新しい入力タイプ(顔など)を表現することを学習できる。
【0076】
ある実施形態においては、ニューラルネットワークアーキテクチャ140に含まれている表現ノード220a~eの数は、認識が所望される画像130またはオブジェクト135の数に正比例することができる。そのような例においては、表現層220は、識別される画像130の数とほぼ同数のノードを含むことができる。幾つかの実施形態においては、入力層210から表現層220へのノード数の2倍、10倍またはそれ以上の拡張があり得る。ニューラルネットワークアーキテクチャ140の多数の適用に対しては、各層におけるより多くのノードはより良好な結果を生み出す。ニューラルネットワークアーキテクチャ140を構成しているノードの総数には上限はない。ある実施形態においては、表現220または分類(下記により詳細に検討される)層において、入力層210よりも少ないノードであることが可能である。例えば、二層ANN200の入力層は10,000ノードを有することができ、表現層においてはおよび500ノードである。二層ANN200の他の例においては、入力層210は10,000ノードを含むことができ、表現層220は1,000ノードを含むことができる。
【0077】
ある実施形態においては、低速シナプス重み変化は、個々の例からの継続的学習を可能にする。そのような実施形態においては、その低速(従来の画像解析システムに対して)は全体のネットワーク接続における障害を引き起こさないが、特定のパターンが符号化されることを可能にする。幾つかの実施形態においては、各学習反復での正規化ステップはなく、それは、負のシナプス重みの生成または割り当てを防止できる。そのような結果は、低速シナプス重み変化によるものであり、生物学的システムと類似している(例えば、シナプス重みが決して負にならない動物の脳において)。
【0078】
第2層における表現ノード220a~eの特質はモデル化でき、または、生物学的システムにおいて観測されるニューロンの特質に基づくことができる。例えば、生物学的ニューラルネットワークまたはそこにおけるニューロンから取り出される膜電位および発火率などのようなあるコンセプトは、ANN200におけるノードの属性を設定するために使用できる。(一次)入力層ノード210a~dと(二次)表現層ノード220a~eとの間の接続は、入力ノード210a~dの数と、表現層ノード220a~eの数(そして、そのため対称である必要はない)によって、接続行列の形状の接続行列により表現できる。一方、第2層における表現ノード220a~eの間の反復接続は、対象行列により記述できる。ある実施形態においては、表現層220におけるノードiからノードjへの接続強度は、ノードjからノードiへの接続強度と同じである。
【0079】
ノード間の接続強度は、静的または、時間の経過と共に適合することができる。例えば、ノードの特性は、ANN200が入力に遭遇するときに変化できる。ANN200があるタイプの入力に特に適合しないある実施形態においては、第2層における表現ノード220a~eの特性は、入力ノード210a~dへのそれらの接続のために生じる。従って、反復接続の強度は、一次ノード210a~eへの表現ノード220a~e接続の類似度であることができる。表現ノード220a~eの2つが同様に一次層における入力ノード210a~dに同様に接続されている実施形態においては、任意の所与の入力はそれらを活性化し、それらの反復相互作用もまた類似する。
【0080】
ANN200は、幾つかの実施形態においては完全に動的であることができる。例えば、ANN200は、入力ノード210a~dと表現ノード220a~eとの間の接続における変化を通してだけではなく、反復接続強度(表現ノード220a~e間の)を更新することを通しても入力に適合できる。ある実施形態においては、ANN200は
【数2】
としてモデル化でき、ここにおいて
【数3】
であり、Wは、第2層の表現ノード220a~eに接続されている一次層における入力ノード210a~d間の重みの行列であり、τはニューロンモデルのパラメータに関連する時定数であり、
【数4】
は第1層の活動であり、
【数5】
は膜電位のベクトルであり、
【数6】
は第2層におけるノードの発火率または表現パターンである。関数gは、膜電位を生物学的システムにおけるニューロンの発火率と関連させることができる。ある実施形態においては、膜電位は、既存のモデルにおいて見出される膜電位と同じであることができる。第2層Sの反復接続は、方程式S=-(WW-I)により入力ノード210a~dと表現ノード220a~eとの間の重みに関連付けられる。
【0081】
ANN200におけるノードは、ある非線形行動を提示することができる。例えば、表現層におけるノード220a~eはある閾値を有することができ、ノードの値がその閾値未満のときはノードは非アクティブである(または「発火」していない)。この値は、それらの入力に適用されている重みを掛けた、ノードへの入力を合計することで決定できる。閾値に到達した後、ノードはその入力に線形に応答できる。ある実施形態においては、線形応答のこの領域は、例えば、ノード応答は活動のあるレベルで飽和するので制限され得る。ノードの行動は多数の方法でモデル化できる。ある実施形態においては、ANN200の表現ノード220a~eの行動は、ニューロンなどのような生物学的構造に基づいてモデル化される。これらのノードの行動は、生物学的状況から取り出されたあるパラメータ、つまり、膜電位、発火率などにより決定される。例えば、表現層220a~eにおけるノードは、「漏洩積分・発火」モデルを使用してモデル化できる。
【0082】
ある実施形態においては、ANN200の適合の適合度または品質は、入力と、表現ノード220a~e調整特性と応答値から取得されるその再構成との間の差により測定できる。適合のこの適合度は
【数7】
としてモデル化でき、ここにおいてφはノードの調整特性の行列であり、Eは各更新で削減される。この項は、入力層210への入力と表現層220から導出された表現との間の不一致を測定するために使用できる。ある実施形態においては、この項は、疎且つ非負制約と組み合わされると、ANN200に対する学習ルールを導出することを支援できる(下記に、より詳細に記述されるように)。ノードが線形に行動する実施形態においては、調整特性における変化が、その接続性における変化に直接対応するように、つまり、ΔWαΔφであるように、各ノードの活動はその入力の重み付けされた合計の関数である。
【0083】
ANN200の接続性は多数の方法で更新できる。例えば、ANN200の接続性は、下記の3つのステップ手順を使用して更新できる。第1に、接続性の各状態に対して、調整特性が決定される。第2に、エラーを削減する調整特性における変化が表現から計算され、そして最後に、それに比例する変化が接続性においてなされる。
【0084】
ANN200が異なる入力間を区別できないことは、その有効性を低下させ得る。ある実施形態においては、ANN200は、最も有益な構造に基づいて入力を表現し、入力の異なる形状に適合するように最適化でき、ANN200の初期重みは、それが入力した第1入力とは異なる入力間を区別することを達成するために設定できる。そうでなければ、ANN200は異なる入力間を区別できない可能性があり、欠陥のある適合プロセスに繋がり、選択的な適合のみという結果になり得る。
【0085】
ある実施形態においては、異なる入力は異なるノードを活性化し、異なる入力を同じ表現に対応付けることを回避するために、初期重みは、表現ノード220a~eの任意の2つが同じ入力により活性化される可能性を最小限にするように設定される。この制約は、ノードの応答プロファイルの分散共分散行列の期待値を単位行列、つまりE[VV]=Iと設定することによりモデル化でき、ここにおいてVは、異なる入力の表現の行列であり、Iは単位行列である。関数gによりANN200に与えられる非線形性が無視される実施形態においては、Vは入力行列と重み行列WによりV=WYと近似でき、ここにおいてYは入力行列である。重み行列Wは、入力のセットに基づく早期ノード(Σyyにより示される)の応答プロファイルの分散共分散行列に基づいて
【数8】
として計算でき、ここにおいてηは直交列を有する実数のN×M一般化行列、ΛはΣyyの固有値の対角行列、そしてQはΣyyの直交固有ベクトルの行列である。Mは一次ノードの数であり、Nは表現ノードの数である。ある実施形態においては、ηはまずN×N対称行列を構築し(NがMより大きいとき)、そしてその固有ベクトルを計算することにより作成される。そして、一般化行列は、固有ベクトルのMを取ることにより作成できる。言い換えると、上記のように導出された接続性行列Wは、表現ノードの応答プロファイルの分散共分散行列と単位行列と一致させる。
【0086】
入力の完全な知識は要求されない。例えば、遭遇する可能性がより高い入力のサブサンプルはまた、ANN200の予期される入力が同じ表現と対応付けられないようにANN200を構成できる。NがM以上のある実施形態においては、ANN200は、ηが直交列を有することを確実にすることにより(言い換えれば、表現ノードの数が一次ノードの数よりも大きいときに)一般化できる。
【0087】
ANN200の一次層入力ノード210a~dと表現層表現ノード220a~eとの間の接続性が更新されるある実施形態においては、更新は
【数9】
を使用してφを最小化することを目標とする最適化問題として記述でき、ここにおいて
【数10】
はANN200への入力であり、
【数11】
はその対応する出力である。
【0088】
一次層入力ノード210a~dと表現層表現ノード220a~eとの間の接続性を更新するためのこの最適化問題は、勾配降下アプローチを採用することにより解決できる。このアプローチにおいては、関数の値は、その勾配に沿ってその変数を更新することにより反復的に削減される。言い換えると、すべての変数に対して、関数を更に削減する値を、変数に関して、関数の負の勾配に沿って移動することにより求める。最終的に、関数の最小値に到達する。勾配降下ステップは
【数12】
として公式化でき、ここにおいてαはステップサイズであり、
【数13】
である。
【0089】
【数14】
がゼロに近づく実施形態においては、Δφはnの任意の値に対してゼロに近づき、それは、勾配降下がないことを意味している。
【数15】
が1より大きい実施形態においては、Δφはnとの共振を開始する。
【数16】
が1に等しい実施形態においては、Δφは0に等しく、φ=ΔφM(Λ=Λ
p)であり、ここにおいてM=QΛQであり、
【数17】
であり、ここにおいてDは対角行列を表し、対角要素は列ベクトルにより引数として与えられる。更に、M=QΛであり、ここにおいて
【数18】
である。これらの実施形態においても降下はない。
【0090】
【数19】
である実施形態においては
【数20】
が、ω は、その値がpに依存する有限の正の数である
【数21】
を意味すると仮定するときは、任意のp>1に対して、
【数22】

【数23】
よりも速く降下する。
【数24】
が1に等しいように制約されている実施形態においては、
【数25】
であり、ここにおいてCは(1-(1-α))に等しい定数である。そのため、勾配降下のnステップの後は、φにおける変化は2つの成分を有し、加法成分はランク1行列
【数26】
により与えられ、減法成分はランク1行列
【数27】
により与えられる。行列
【数28】
はyとVが両方とも正であり、そしてそのときのみに、位置(i,j)において正のエントリを有する。そのため、この行列は、一次層における入力ノード210a~dの1つおよび表現層における表現ノード220a~eの1つが共に発火するときに接続を強化するヘブ更新ルールに対応する。同様に、行列
【数29】
はVとVが共に正であるときのみ正であることができる。
【0091】
しかし、この更新成分の前の負符号は、それを本質的に非ヘブとする。つまり、更新は、一次層における入力ノード210a~dと、表現層220における2つの同様にアクティブなノードとの間のすべての接続を削減する。言い換えると、表現ノード220a~eの2つが共に発火している場合、それらの入力は、それらが分離できるように削減される。全体として、接続性における更新は、一次層210と表現層220における同時に発火しているノード間の接続を強化するが、表現ノード220a~eの2つが同時に発火する可能性を削減する。このプロセスは、ANN200が、それに提示された複数の入力からの特徴に徐々に調整され得ることを可能にする。
【0092】
接続を、上記の方法で新しい入力に適合するために更新することは、以前に遭遇した入力へのANN200適合を妨害するある実施形態においては、ANN200は、そのような妨害の効果を最小限にするために、すべての以前の入力からの特徴の同時再学習を利用できる。
【0093】
ある実施形態においては、ANN200は、以前に遭遇した入力へのANNの適合の妨害の問題を解決するために、確率的勾配降下(SGD)を使用できる。これは、勾配降下最適化の確率的近似である。この方法においては、すべての訓練データに対して目的関数を最適化する代わりに、ANN200は、データのランダムに選択されたサブセットのみに対して関数を最適化する。このアプローチをより良好に理解するために、任意の最適化問題に、目的関数の値が、各データポイントに対する損失の合計で表すことができる、つまり、
【数30】
である有限和問題としてアプローチできる。ここにおいてfは目的関数であり、fはi番目のデータポイントにおける損失であり、xは最適化変数である。そして、目的関数の勾配はこの有限和の勾配であり、すべての訓練データポイントに関して計算され
【数31】
である。SGDを使用して、降下の各ステップは、訓練データポイントのサブセットのみを使用して決定され、そのため、勾配は、この有限和の一部のみに基づいて
【数32】
として決定され、ここにおいて、S⊂[1,N]である。この方法は最適値には到達しないが、目的関数の最適値の非常に近く到達することができる。
【0094】
ある実施形態においては、ANN200は、それが最も有益な構造に基づいて入力の有限セットを効率的に表現することを学習するように、その接続性を更新するように設計されている。目的関数は、適合性の尺度として使用でき、最適化変数は、調整特性の行列として使用でき、訓練データポイントは、入力およびそれらの対応する表現の対として使用できる。単一の入力は、データポイントのサブセットであることができるので、SGD法は、SGDは最適値には到達しないが、連続して提示されるすべての入力に対してANN200を訓練できる。ステップサイズは、SGD法を使用するときは任意のサイズであることができる。ある実施形態においては、ANN200の所与の実現形態に対するステップサイズは、反復プロセスを通して決定できる。プロセスは、非常に小さいステップサイズを選択し、あるテスト入力データに対してANN200のシミュレーションを作動させることにより開始する。ANN200の重みが調整されると、ANN200の出力は、入力されたテストデータに対する最適出力と比較できる。ステップサイズの値は、ANN200の出力が入力と一致しなくなるまで上方に調整できる。しかし、データポイントのサブセットのみが勾配を推定する間に考慮されているので、SGDにおいてより大きい勾配ステップを取ることは、更新されたポイントを最適値から非常に遠くにしてしまう可能性がある。ある実施形態においては、小さなステップサイズのみが使用される。適合プロセスはまた、最小限のステップサイズまたは最小更新が必要となるように、適合を効果的にするために(接続性におけるより小さな更新は、適合されていない接続性と区別できない可能性がある)接続性を特別な強度に更新されることを要求できる。この問題に対処するために、接続性の更新はより小さなステップサイズで実行され、所望される適合レベルに到達するために同じ入力の複数の表現を利用する。更新のこれらの種類は現実的に実現でき、入力の頻度が適合プロセスにどのように影響したかを理解する方法を提供する。
【0095】
入力行列に含まれていない入力を表現できない(そして、入力の疎回復のために別個のアルゴリズムを使用すること要求する可能性がある)行列因子分解などのような、ある従来のアプローチとは異なり、ANN200は、これらのタスクの両者を実行できる(つまり、SGDを使用して疎回復問題を解決することと、一次層入力ノード210a~dと表現ノード220a~eとの間の接続性を更新すること)。ANN200は2つのモードにおいて機能できる。モード0においては、ANN200は、プライマリ210a~dと表現ノード220a~eとの間の接続性と入力はANN200への引数として与えられるので、所望される表現を生成するために疎回復を実行できるだけである。モード0において機能するときは、接続性における更新は実行されない。モード1においては、ANN200は、疎回復と初期接続性との基底適合の両者を実行し、入力はANN200への引数として与えられる。モード1においては、ANN200はまた、入力の疎表現を生成でき、種々のノード間の接続は、学習を確実にするために、取得された表現および対応する入力を使用して更新される。モード1において動作するANN200は、データの初期セット(訓練セットデータなどのような)を非常に良好に表現することを学習できるが、ANN200はまた、初期(または訓練)データセットに含まれている画像と類似し、しかし同一ではない画像130に対しても良好に機能できる。ANN200は新しい画像130に適合でき、継続学習を採用できるので、画像130を、より疎におよびより強靭に表現できる。
【0096】
ここにおいて記述されているANN200は、視覚経路に沿う受容野特性の増大する複雑さを説明しようと試み、後になって畳み込みニューラルネットワークの基盤を形成した従来の階層アセンブリモデルとは異なる。これらの従来のモデルは、認知センターにおけるニューロンが正確なオブジェクト詳細を再現することを仮定している。しかし、正確なオブジェクト画像再構築は強靭な表現のために常に必要であるわけではなく、この深く根差した仮定は、オブジェクト認識をモデル化することにおいて不要な複雑さを生み出す。
【0097】
ここにおいて記述されているANN200は、自身の学習性能を評価するために再構築エラーを計算する必要がない。オブジェクト135とそれらのクラスを定義する依存性を取り込むことにより、ANN200は異なる条件にわたって、同じオブジェクト135の著しく一貫性のある表現を生成できる。サイズ、平行移動、および回転不変性は、ANN200が、オブジェクト135またはそのクラスを定義する特徴を、そうするように表面上は設計されることなく、自然に一緒にリンクすることができるということを示している。それは、入力信号の、識別および区別に適切な表現幾何学形状への非線形変換を可能にする。ANN200の1つの態様は、部分的には、その設計はインスピレーションによる生物学的システムを採用するという理由のために、破損した入力に対して不変応答を生成できるということである。感覚的刺激は、異なるオブジェクトのアイデンティティばかりでなく、その状況、頭脳の内部状態、および他の感覚運動性活動も反映する高次元神経活動を引き起こす。高次元応答は、オブジェクトに特有の、神経および環境変動性に擾乱されないで済む低次元多様体と対応付けることができる。
【0098】
従来のフレームワークとの比較におけるANN200の1つの顕著な特徴は、識別(または表現)層における入力ノード210a~dと表現ノード220a~eとの間の初期接続性は、入力データセットの分散構造を考慮し、表現ノード220a~eの任意の2つが任意の入力に対して一緒に発火する可能性がより低いことを確実にするということである。更に、学習プロセスは如何なる標識も利用せず、如何なる予め決定されている結果も要求しない。表現は、個々の画像に晒されることと共に進化するので、それは全体的に教師なしである。そのため、反復重みは、予め決定されている表現パターン間の相関構造を反映しない。注目すべきことであるが、学習ルールはすべて局所的であり、下記の
【数33】
のようにモデル化され、ここにおいて
【数34】
は入力ベクトルであり、
【数35】
は識別(または表現)層におけるその表現であり、φは識別(または表現)層における入力ノード210a~dと表現ノード220a~eとの間の接続性であり、αは学習率であり、wは反復抑制性重み行列である。更新は、ANN200が、再構築エラーまたはクレジット割り当てを使用することに頼ることなく包括的入力構造を学習することを可能にする。ある実施形態においては、学習ルールは、ANN200の重みを計算および調整するための行列演算と微分方程式の組み合わせを通して実現される。
【0099】
応答を推進するための活動の線形和と同時に、ANN200は、活動に依存する方法で接続強度を調整する。学習ルールの第1項
【数36】
は、1つ以上の入力ノード210a~dと表現層表現ノード220a~eの1つの両者がアクティブのときの接続強度の小さな増分である。この更新は、(入力における)特徴と、情報を取り込むための表現単位との関連付けを可能にする。第2項
【数37】
は、反復層における表現ノード220a~eの2つがコアクティブ(そして相互に抑制されている)ときに、入力層210a~dにおけるノードからこれらのノードへのすべての接続の強度は削減されることを示している。反復(第2または表現)層220における抑制性重みは、類似する入力に対応している表現ノード220a~eの任意の2つが強い相互抑制を有するようになっている。これらの更新は本質的には局所ヘブまたは非ヘブルールであり、接続更新は、ノードの活動により決定されるだけである。この構成、つまり、初期のバイアス接続性および局所学習ルールは、ANN200を、更新しない入力層からのランダム初期接続(例えば、他のモデルにおける畳み込み入力強度)を組み込んでいる既存のニューラルネットワークから区別する。更に、すべてのノードと接続におけるすべての活動は非負であり、生物学的ニューラルネットワークからの制約を反映している。
【0100】
ANN200は入力のノイズを除去し、入力からよりきれいな構造を抽出できる。ANN200の表現ノード220a~eの受容野は、ANN200に入力された顔に類似した構造を生成できるが(ランダムノイズと共に)、如何なる入力された顔に対しても特定的ではなかった。受容野は、最も高い空間周波数における平均パワーで測定されるように、訓練のすべてのレベルにおいて、入力された顔よりもノイズが非常に少ないことが可能である(平均パワーが高いほど、より高いノイズ含有量を示した)。
【0101】
ANN200は、純粋な経験から学習し、一貫性のある表現を生成する能力を有することができる。ANN200は、自身が経験したことがない入力パターンを一貫性を有して表現するように定義されている、有望な強靭性を達成できる。例えばANN200は、ガウスノイズにより、または遮蔽により破損された見えない画像を含む、訓練セットにはない顔画像を表現する能力を有している。ANN200は、新しい顔の疎且つ一貫性のある表現を生成できる。破損された入力の表現は、一貫性を有して表現されている広範囲の遮蔽を有する画像であっても、きれいな画像の表現とほぼ同一であることができる。ANN200の特異性は、すべてのノイズレベルと遮蔽による破損に対して高いことが可能である。
【0102】
画像の特定のセットで訓練されたANN200は、画像と一致する(表現、または第2層220における)受容野を迅速に学習する。例えば、世界の言語からの符号を使用して訓練されたANN200においては、受容野と符号との間の類似度は、ANN200が同じ文字に繰り返し遭遇するにつれて迅速に増大する。符号表現の特異性は更に速く増大し、10回未満の遭遇で学習プラトーに到達する。そのため、ANN200は、入力について最大に有益である構造的特徴を効果的に取り込む。
【0103】
ANN200は、自身の以前の識別能力を損なうことなく、新しい入力タイプを表現することを学習できる。例えば、ANN200は、符号の固定のセットを表現し、それに引き続いて顔を学習するように訓練できる。文字の後に顔を学習することは、ノードのサブセットの受容野特性を変える可能性があるが、ANN200に対しては、顔などのような異なる入力を学習する前と後の符号表現の特異性は、比較的高く留まっていた。ANN200はまた、顔表現の高い特異性を維持できる(または、その逆)。言い換えると、ANN200は、多数の他のニューラルネットワークモデルが遭遇する破局的忘却問題を回避する。ANN200は、画素の異なる部分が反転しているような、破損された符号の画像130から学習できる。
【0104】
ANN200は、その一次層210およびその表現層220において任意の数のノードを有することができる。例えば、ANN200は、256個の一次ノードと500個の表現ノードを有することができる。
【0105】
ある実施形態においては、ANN200は、適合の前に入力を首尾よく区別できるように構築される。ANN200は、適合の前に入力を区別するために多数の方法で構築できる。例えば、ANN200は、一次層入力ノード210a~dと、二次層の表現ノード220a~eとの間の接続強度が、0と1の間の値として選択された非負の一様な接続性を使用できる。非負の一様な接続性では、接続強度が任意の値を達成する確率は同じであり、つまり、接続重みは、(0,1)上の一様分布から導出される。重みは、任意の表現ノードに対応する重みベクトルの長さが1となるように正規化できる。
【0106】
ANN200はまた、重みが、平均が0、標準偏差が1である正規分布から導出される、正規分布接続性を使用して構築できる。重みはまた、長さ1を有するように正規化できる。
【0107】
ANN200はまた、この場合もまた、重みが長さ1を有するように正規化される非相関接続性で構築できる。非相関は、入力の分散共分散行列の固有ベクトルに基づくことができる。ある実施形態においては、これらのベクトルに沿う入力空間の分散は、150次元の後は飽和するので、150個の固有ベクトルのみが入力空間の有効次元として利用された。しかし、固有ベクトルの他の数を、入力の分散共分散行列を作成するために使用できる。
【0108】
相関および単位行列間の差のフロベニウスノルムは計算でき、この2つの行列間の差を測定するために使用できる。より低いフロベニウスノルムは、より良好な非相関を示している。ある実施形態においては、相関行列と単位行列との間の差のフロベニウスノルムは、接続性の非相関モデルに対して最も低く、それがノードを最も非相関にできたことを示している。ANN200への入力が500個の画像130を備えているときは、各画像130は、500個の表現ノードのそれぞれに対応することができ、各画像における画素のそれぞれは、一次ノードのそれぞれに対応している。
【0109】
ANN200は、任意の数の画像の入力セットに適合できる。例えば、ANN200は、500、800、または1,000個の入力を含んでいる入力セットに適合できる。各入力は、連続して(ランダムに選択されたそれらの表現の順に)1度に1つ提示される入力との適合(例えば、SGDを使用して)を可能にするために反復的に(例えば、最大100回まで)提示できる。変化は初期非相関接続性に関して計算でき、表現ノード220a~eの特別なノードが、一次層ノード210a~dにどの程度強く接続されているかを表現できる。(表現ノード220a~eの)表現ノードに強く接続されている入力ノード(入力ノード210a~dの1つ)は、その表現ノードにおいて最大の応答を引き出すので、これらの接続は、表現ノード220a~eの調整特性を反映できる。ある実施形態においては、異なる表現ノード220a~eは、入力とは異なる構造に調整される。異なる状態にわたる異なるノードに対する接続性の変化のコサイン類似度の分布は、接続性類似度が、符号に反復的に遭遇した間に維持されたかどうかを決定するために使用できる。持続された類似度レベルは、ノード調整の識別性は変化しないままであったことを示している。これらの類似度レベルは、特別な状態における全体的な接続性変化を測定できるが、接続性が異なる状態にわたり個々のノードに対してどのように変化したかについての情報は提供しない。
【0110】
ある実施形態においては、ANN200の接続性構造は、個々のノードに対しては変化せず、ノードへの接続性の類似度は状態にわたってわずかに増大し、そして飽和し、それは、個々の表現ノード220a~eへの接続は、入力に反復的に遭遇するにつれてわずかに変化し、ある数の遭遇の後に安定状態に到達したことを示している。これは、ノードの接続性におけるそのような安定状態の達成が最終的にどのように飽和に到達するかを示すことができる。これは、ANN200のある実施形態においては、任意の入力の最初の少数の遭遇のみが接続性の構造を変え、入力の表現は、ANN200の直接の経験に基づいて変化し、その後、飽和することを示唆している。この飽和は、ANN200のフレームワークと、入力の表現が、直接の遭遇だけではなく、それらの全体の統計値に依存する古典的効率符号化パラダイムとの間の重要な差を強調している。
【0111】
ある実施形態に対しては、低い平均類似度(<0.5)が観測され、異なるノードの接続が異なるように変化したことを示している。平均類似度は、一貫して小さいままであり、状態と共にわずかに減少した。
【0112】
ANN200が入力に遭遇する回数が増大するにつれ、ANN200により出力される構造は、入力の構造により類似してくる。ある実施形態においては、ANN200は、同じ入力に反復的に遭遇することにより入力から包括的で固有の構造を首尾よく識別する。しかし、別個の入力の数が増加すると共に、表現ノード220a~eは、より局在化された構造に調整される。
【0113】
接続性における変化とANN200への入力との間のコサイン類似度は、異なる段階において測定できる。ある実施形態においては、類似度はネットワークの状態と共に増大したが、入力の数が増加するにつれて減少した。
【0114】
ある実施形態においては、ANN200の表現は、入力との遭遇が多くなるほど、より疎になる。更に、入力の数が増大するにつれ、ANN200の応答は、より少ない数のノードに限定される。表現効率は、多様な数の入力に適合する間に起こる変化を強調するための3つの方法で定量化できる(応答プロファイルの相関、尖度、および疎性)。これらの測定値は、異なる入力数にわたってと共に、ANN200の異なる状態にわたって測定できる。ある実施形態おいては、ANN200がより多くの入力を経験すると、表現ノード220a~e応答はますます非ガウス的になる。入力表現の数を増大することは、ノード応答プロファイルの尖度を増大させることもできる。入力の経験とサンプリングの両者は、ANN200の表現効率を増大させることができる。表現ノード220a~e間の相関はまた、新しい入力との遭遇と共に、入力の同じセットとのより多くの遭遇で(相関と単位行列の差の、より小さなフロベニウスノルムにより、およびL0とL1の疎性の測定値により示されているように)減少することができる。ANN200の応答は、入力数と共に、適合状態でより疎となることができる。ノード応答プロファイル尖度の計算は、表現の疎性の観点における効率を評価できる。ノード応答プロファイル尖度は、入力数と共に、ANN200ネットワーク状態で増大した。ノード間の相関は測定でき、相関と単位行列との間の差のフロベニウスノルムは計算できる。ノルムはまた、状態と入力数と共に減少することができ、これは非相関傾向を示している。表現の疎性はまた、ある実施形態に従って、ANN200に対する類似の傾向を示すことができる。L0とL1の疎性測定値の両者は、入力数にわたってレベルを維持しながら、ANN200ネットワーク状態と共に減少することができる。ある実施形態に従うANN200の性能は、表現における効率が入力の増大と共に降下する、行列因子分解などのような既知のアプローチを通して取得されたものを上回る。
【0115】
ANN200は、すべてのタイプの破損にわたり、異なるネットワーク状態において一貫性のある表現を生成できる。例えば、破損形状における5つの異なる入力を経験すると、表現は、破損の異なる形状にわたり、およびANN200の異なる状態にわたり一貫性がある。破損の異なる形状に対する表現の特異性は、破損していない入力と破損した入力の表現間のzスコアコサイン類似度を使用して計算できる。特異性は、実践と共に、つまり、破損のすべての形状に対してより多い回数だけ入力に遭遇した後にわずかに増大することができる(ネットワークの100番目の状態におけるわずかな増大で、表現の高い特異性が観測されている)。100番目の状態におけるANN200の表現は、50番目の状態におけるANN200の表現よりもより疎であることができる。特異性は、破損、遮蔽、またはノイズの追加のレベルが増加するにつれて減少し得る。ある実施形態においては、表現の一貫性は、ANN200の表現ノード220a~eが、入力からの固有の特徴に調整されることでより特定的になるにつれて増大した。ANN200は、効率的であるために入力空間の統計値の全体を知る必要はなく、多様な状況において入力の一貫性ある表現を生成できる。
【0116】
ANN200は、入力の種々の変形例を見ると、その入力を同様に一般化できる。(画素の10%~20%が変化している入力などのような)破損した入力を経験すると、ANN200における接続性の変化は、破損していない符号への適合の場合のように、破損していない入力に非常に類似し得る。類似度は入力によって変動し得るが、ANN200への任意の入力で観測された最大類似度は高い。ANN200は、このように機能することが示されている複雑な深層または畳み込みニューラルネットワークに類似して、入力変種にわたり存在していた一貫性を見出すことができ、それに適合できる。しかし、ANN200の実施形態(2層のみで、800個の例から学習する実施形態を含む)とは異なり、これらの他のネットワークは非常に複雑で、複数の層を含み、多数の例を要求する。
【0117】
図3は、ある実施形態に従う、ANN200に対する表現層において、入力シーケンスにおける入力がどのように調整されるかを例示している図である。一連の符号画像310a~cは、ANN200の入力層入力ノード210a~dに遅延することなく順次入力できる。ANN200は、一連の符号画像310a~cにおける各符号を学習し、表現ノード220a~eの出力から符号を再構築できる。符号画像310a~cのそれぞれのANN200への入力の間に、入力ノード210a~dと表現ノード220a~eとの間の重み、または、表現ノード220a~e間の重み、またはその両者を更新できる。ANN200は破局的忘却を経験しない。そのため、一連の310a~cにおける各符号が入力されるときに、ANN200はその特質を取り込み、グリッド320a~cのシーケンス上に表現されているようにそれらを記憶する。各符号が、グリッド320a~cの自身の正方形を占めるという事実は、ANN200はそれらを忘れず順次学習できるということを例示している。符号グリッド330は、表現の学習された調整特性のサブセットを表現している。符号グリッド330は、入力された符号310の最も有益な成分がANN200により取り込まれるということを示している。
【0118】
図4は、ある実施形態に従う、ANN200に対する表現層220により、入力シーケンスに含まれている破損した入力がどのように学習され得るかを例示している図である。一連の破損した符号形状410は、例えば、(画素の10%または20%などのような)画素のあるパーセンテージをランダムに反転することにより生成でき、ANN200の入力ノード210a~dに入力される。一連の破損した符号形状410は、各符号の約100個の異なる破損形状を含むことができる。ANN200により学習された調整特性420は、入力された符号形状410のきれいなバージョンである。
【0119】
図5は、ある実施形態に従う、多様な画像が入力されたオブジェクトの特質が、ANN200の出力においてどのように取り込まれるかを例示している図である。異なるオブジェクト3Dモデルが、異なるオブジェクト画像(ここでは、人間の顔オブジェクト510の例で示されている)を生成するためにxおよびy方向において回転された。すべてのオブジェクトからの画像のサブセット520を選択でき、ANN200に提示できる。サンプル調整特性530はANN200により学習でき、単一画像および複数画像の重ね合わせを含むことができる。この例においては、入力された画像520へのANN200の応答から、2つのセルのグループ540が出現している。1つのセルのグループ540aは、オブジェクトのアイデンティティに対して特定的であり、一方、他のセルのグループ540bは、回転の方向と角度に対して特定的である。セル540aと540bの出力は、図5Cにおける出力グリッドの列において示されているように、オブジェクトとその回転を識別するために使用できる。
【0120】
図6は、ある実施形態に従う、分類層に接続されている二層ANNを備えている分類ネットワーク600の図である。分類ネットワーク600の最初の2つの層は、上記の二層ANN200の二層と同じように機能する。分類ネットワーク600は、入力ノード610a~d(または第1層ノード)の第1層、識別ノード620a~e(または表現または第2層ノード)の第2層、および、分類ノード630a~e(または、第3層ノード)の第3層を備えている。分類層におけるノード630a~eは、識別層(ノード620a~e)における単一ノードからの直接興奮性入力を受信でき、一方では、入力層(入力ノード610a~d)におけるノードからの興奮性入力のミラーリングを行うフィードフォワード抑制も並行して受信できる。分類層630a~eにおけるノードはまた、反復興奮性接続を有することができ、分類層630a~eにおけるすべてのノードに課せられる包括的な抑制性信号640を受信できる(これは、この層における擬似および/または暴走活動を制限することを支援する)。
【0121】
ある実施形態においては、包括的抑制640は定数である。包括的抑制640の値は、分類層のノード630a~eにおける暴走行動を防止できる任意の値であることができる。例えば、包括的抑制640は、10などのような定数であることができる。この値は、分類ノード630a~eへの予期される入力に基づいて設定できる。識別層620におけるノードのそれぞれと、分類層630におけるその対応するノードとの間の興奮性接続は、1などのような定数であることができる。入力ノード610a~dにおけるノードと分類ノード630a~eにおけるノードとの間の接続に対する抑制性重みもまた定数であることができる。
【0122】
ある実施形態においては、識別層620a~eにおけるノード数は、分類層630a~eにおけるノード数と等しいことが可能である。識別ノード620よりも分類ノード630が少ない実施形態においては、各層におけるノードは、各層におけるノードをグループ化し、それらのノードを他の層におけるノードのグループと関連させることにより互いに関連付けることができる。例えば、分類層630よりも、識別層620において2倍のノードがある分類ネットワーク600においては、分類ノード630における各ノードは、識別層620における2つのノードに接続できる。
【0123】
分類ネットワーク600における学習はまた、局所学習ルールに基づくことができる。最初の2つの層(入力層610a~dと識別層620a~e)に対する学習は、二層ANN200に関して上述した技術と同じ技術を使用して達成できる。第3層(分類層630a~e)におけるノードは、識別層620a~eにおけるノードと分類層630a~eにおけるノードが同時にアクティブなときに、または、分類ノード630a~eにおける2つのノードが同時にアクティブなときに増強される。ある実施形態においては、分類層630a~eにおけるノードと入力ノード610a~dとの間の重みと、包括的抑制からの重みは変化しない。
【0124】
ある実施形態においては、分類ネットワーク600は、個々のノード(ニューロン)は、別個のオブジェクトに関する最大情報を取り込むべきであることを規定する最大依存取り込み(MDC)の原理を使用して設計されている。この目標を達成するために、分類ネットワーク600は、その初期応答におけるオブジェクトを区別できるように設計されている。これを達成するために、入力層入力ノード610a~dと識別層ノード620a~eとの間の重みは、別個の入力が特定の学習なしに本質的に異なる応答を引き出すことを可能にするために較正される。ある実施形態においては、接続性における初期バイアスは、分類ノード630a~eの任意の2つを同時に共に活性化する可能性を最小限にするために設定され、それにより、種々の入力に対する分類ネットワーク600の初期応答における区別を最大化する。例えば、接続性行列φは、入力層610a~dの各ノードと、識別層620a~eの各ノードとの間の重みの行列であるが、表現層におけるノードの応答プロファイルの分散共分散行列が単位行列と一致するように設定できる。
【0125】
ある実施形態においては、識別層620a~eにおけるノードは、閾値化による漏洩積分および発火ニューロンとしてモデル化できる。例えば、識別層620a~eにおけるノードは、方程式
【数38】
に基づく動的応答を有することができ、ここにおいて
【数39】
は識別層におけるノードに対する応答ベクトルであり、
【数40】
は層への入力ベクトルであり、演算子T(.)は、閾値化活動である
【数41】
を生じさせる閾値化関数(ReLU)である。
【0126】
分類層630a~eにおけるノードの動的応答は、2つの主要な違いがあるが、識別層620a~eにおけるノードと同じように機能できる。分類層における各ノード(分類ノード630a~eのそれぞれ)への入力は2つの成分、つまり、識別層620a~eにおけるノードからの興奮性入力と、入力層入力ノード610a~dからの抑制性入力(入力ノード610a~dの単一のノードからの、または、入力ノード610a~dのある組み合わせからの重み付けされた抑制性入力であることができる)を有する。更に、抑制性反復接続行列wは、wclass inhibからwclass excitを減じたものに等しい分類層wclassにおける反復接続行列に変えられる。分類層630a~eに対する有効層ダイナミックスは、方程式
【数42】
によりモデル化できる。ここで
【数43】
は識別層におけるノードからの信号であり、
【数44】
は入力層610a~dにおけるノードからの信号である。
【0127】
分類ネットワーク600は、方程式
【数45】
を最適化するために、入力層610a~dにおけるノードからの接続を更新でき、ここにおいて、
【数46】
は入力ベクトルであり、
【数47】
は識別層620a~eにおける表現ベクトルであり、φは入力層610a~dにおけるノードと識別層620a~eにおけるノードとの間の重みの行列である。この関数に対する接続性における更新は、
【数48】
として記述でき、ここにおいてαは学習率である。識別層620a~eにおける反復抑制性重みwは、方程式w=(φ+Δφ)(φ+Δφ)を使用して設定できる。ある実施形態においては、反復重みを計算する前のφの正規化はない。
【0128】
分類ネットワーク600においては、識別層620a~eにおけるノードと分類層630a~eにおけるノードとの間の重みは、関連する2つのノードの活動に基づいて更新できる。分類層630a~e内のノード間の反復興奮性接続は初期に0に設定できるが、この層におけるノードすべては包括的抑制を受ける。そして重みは、分類ノード630a~eの任意のペア間の増強効果の合計に基づいて更新できる。例えば、2つのノードが共にコアクティブのときは、それらの接続に対する増強効果は増加する。代替的に、2つのノードの1つのみがある設定された時間においてアクティブのときは、それらの接続の増強効果は減少する。最終的に、両方のノードがある時間において非アクティブのままであるときは、それらの接続に対する増強効果は変わらない。分類ノード630a~eの任意の2つのノードiとjの間の増強効果における変化Δpijは、i=1およびj=1のときはΔpij=1、i=1およびj=0、またはi=0およびj=1のときはΔpij=-1、そしてi=0およびj=0のときはΔpij=0として表現できる。分類層(分類ノード630a~e)における任意の2つのノード間の接続重みは、任意の数の入力に遭遇した後のすべての増強効果の合計が予め設定された閾値に到達する場合は1に設定される。他のすべての重みは0のままである。すべての可能な接続の増強効果値はゼロにリセットされ、それらを更新するプロセスが再開する。重みのこの更新を表現する他の方法は、方程式
【数49】
によるものである。
【0129】
分類ネットワーク600の表現関数は、オブジェクト135間の差を最大化し、それらを区別して表現する。分類のために、分類ネットワーク600は、異なる視点でオブジェクト135を識別する共有された特徴、またはクラスを取り込むことができる。分類ネットワーク600においては、同じタイプのオブジェクト135の特徴を区別することは、相互興奮を使用して共にリンクすることができ、抑制を使用して他のカテゴリの類似の特徴から判別される。脊椎動物の脳においては、反復興奮と広い抑制が感覚皮質の上層において広く行き渡っている。分類ネットワーク600の設計は、これらの回路モチーフ(特徴的部分構造)をシミュレートし、分類のための演算を実行するために、反復層、分類層630(第3層)を追加することによりこれらの生物学的システムからインスピレーションを引き出す。この層におけるノードは、識別層620(第2層)から、列状の、1対1の方式で直接興奮性入力を受信する。並行して、それらのノードは、入力層610からの興奮性入力のミラーリングを行うフィードフォワード抑制を受信する。分類層630におけるノードはまた、互いの間の反復興奮性接続を有することができ、この層のすべてのノードに課せられる包括的抑制を受ける。分類ノード630a~eと識別ノード620a~eとの間の接続もまたは適合的であることができる。例えば、学習ルールは、2つの興奮性ノードが共にアクティブのときは、接続はそれらのノード間で(識別から分類へ、および分類ニューロンまたはノード間において)強固になるということである。抑制性ニューロン(またはノード)への、またはそこからの接続に対する重みの変化はない。
【0130】
分類ネットワーク600のこのアーキテクチャ構成は、オブジェクト135からクラス特有の特徴を取り込むことを可能にする。まず、分類層630におけるノードは、識別層620から興奮性入力を受信し、入力層610から中継されたフィードフォワード抑制を受信する。この組み合わせは、分類層630に識別層620において学習された特徴を通知するために、更新された興奮性出力と、更新されていない抑制出力との間の差を伝える。そして、分類ノード630a~e間の側方興奮性接続は、クラス情報を提供する相関付けられている特徴をリンクする。最終的に、包括的抑制640は、十分な興奮性入力を受信するノードのみが、擬似および/または暴走活動を削減するためにアクティブであることが可能なことを確実にする。結果は、相互興奮を有する分類ノード630a~eの何れもが、クラス特有の特徴に対するアトラクタ様活動を表示する。
【0131】
分類ネットワーク600の分類能力は従来のアプローチを上回る。例えば、MNIST手書き数字データセットにおいてオブジェクトを分類するときに、標識付けされていないサンプルの25%のみによる訓練では、識別層620における数字と類似する、分類ネットワーク600の受容野という結果になる。更に、分類ネットワーク600の分類層630における集団活動は、同じ数字タイプに対して高い一致を提示するが、異なるクラス間の区別は維持している。分類ネットワーク600は、各グループの最も一貫性のあるアクティブノードからのプールされたノードを使用するときは、数字タイプの94%を正確に識別できる。一方、最も洗練された既存のネットワークモデルは現在、85~99%の精度を達成するが、それらはすべて、何等かの形状の教師を必要とする。例えば、自己教師ありネットワークは、初期の訓練において数字の標識を要求する。
【0132】
生物学的脳と同様に、分類ネットワーク600は、個々の符号、顔、および手書き数字を認識および分類することにおいて、これらのタスクのために明示的に設計されなくても強靭である。具体的には、その識別層620において、分類ネットワーク600は、オブジェクト135を唯一的に識別する特徴を識別でき、分類層630において、クラス特有のノード全体を形成するためにそれらの特徴をリンクできる。この最後の特徴は、分類ネットワーク600が、サイズ、位置、および視点が多様な画像から三次元オブジェクト135を識別することを可能にする。オブジェクトのアイデンティティを抽出するために種々の画像を関連付ける問題は特に難しい。種々の他のニューラルネットワークモデルは、良好な性能を達成するために、深層畳み込み層と相当な教師を有する高度に洗練されたアルゴリズムを要求する。しかし、分類ネットワーク600に対しては、同じオブジェクトの異なる画像は、共有された特徴を有する画像クラスを形成し、それは、分類ネットワーク600が、そうするように表面上は設計されることなく、画像クラスの共有された特徴を取り込むことを可能にする。言い換えれば、分類ネットワーク600は、サイズ、位置、および視点が多様な三次元オブジェクト135を一貫性を有して表現することを学習できる。
【0133】
分類ネットワーク600は、種々のサイズおよび位置からのオブジェクト135を識別できる。例えば、ランダムなクリップ(フィルムの一部)は部分的に重なる可能性があるが、全体のアニメーションシーケンスの合計33%未満しかカバーされていない、種々の位置およびサイズからのオブジェクト135の連続動画フレームの幾つかの短いクリップを経験した後は、分類ネットワーク600は、入力における特定の画像および異なるオブジェクト135の重なりを学習できる。全体のアニメーションシーケンス(その多くを分類ネットワーク600は経験していない、つまり、すべての画像の67%未満しか経験していない)を解析するときに、異なるフレームの表現は識別層620において区別され、ノードは、分類層630において、アニメーションの大部分に対して(すべてのオブジェクト135に対して)持続的にアクティブである。アクティブノード全体は、オブジェクト135の間の幾つかの間の類似度が高かったときでさえ、個々のオブジェクト135に対して特定的である。分類ネットワーク600に対しては、表現ドメインにおいては、同じオブジェクトの画像間の全体の類似度は、別個のオブジェクトの画像間の類似度よりも相当に高い。
【0134】
三次元回転に対して不変な表現を生成することは、既存のシステムにとっては難しいタスクである。しかし、分類ネットワーク600に対しては、垂直軸に沿う回転の短いクリップでの分類ネットワーク600の訓練を伴う三次元回転シーケンスのアニメーションが提示されるときに、分類ノード630a~eは、表現角度に無関係に、同じオブジェクト135に対して一貫性のある応答を示すことができる。これは、非常に不規則な形状のモデルに対しても同様である。例えば、4脚の動物の入力に関して、表現における変動は、類似の視点において起こり、それらの共通の特徴を反映していた。全体として、同じオブジェクトの異なる視点間の類似度は高いが、分類ネットワーク600に対しては、異なるオブジェクト間の類似度は低い。従って、分類ネットワーク600は、すべての可能な角度の3分の1未満しか経験していないときでも、不変のアイデンティティ表現を生成できる。更に、分類ネットワーク600は、不変表現に対する能力を有しており、オブジェクト135を一貫性を有して表現するために、すべての可能な変形例に遭遇する必要はない。
【0135】
オブジェクト135のアイデンティティは、その特徴間の構造的関係において埋め込まれる。これらの関係、または依存性は、オブジェクトのアイデンティティを符号化するために利用できる。分類ネットワーク600は、入力パターンの正確な詳細を要求することなくオブジェクト135の存在を識別するためにそれらの依存性を最大限取り込む。ここで、分類ネットワーク600の特定的構成は、不変表現を可能にするための依存性取り込みを可能にする。この設計は、視覚経路に沿う受容野特性の増大する複雑さを説明し、後日、畳み込みニューラルネットワークの基盤を形成した階層的アセンブリモデルとは区別される。これらのモデルは、認知センターにおけるニューロンが正確なオブジェクト詳細を再現することを仮定している。しかし、正確なオブジェクト画像の再構築は強靭な表現には必要なく、この深く根差した仮定は、オブジェクト認識をモデル化することにおいて望ましくない複雑さを生み出す可能性がある。分類ネットワーク600は、自身の学習性能を評価するために再構築エラーを計算しない。オブジェクト135およびそれらのクラスを定義する依存性を取り込むことにより、異なる条件にわたり、同じオブジェクト135の著しく一貫性のある表現を生成できる。サイズ、平行移動、および回転不変性は、分類ネットワーク600が、そうするように表面上は設計されることなく、オブジェクトまたはそのクラスを共に定義する特徴を自然にリンクできることを示している。それは、入力信号の、識別および区別のために適している表現幾学的形状への非線形変換を可能にできる。
【0136】
分類ネットワーク600は、個々のシナプスにおける局所的且つ連続的変化を通して、依存性取り込みがオブジェクト135についてどのように学習でき、それらを安定して表現できる(生物学的システムに類似した方法で)かを例示できる。2つの回路アーキテクチャは、既知の接続性パターンに基づいている。両者の設計は、オブジェクト135とクラスを定義する特徴依存性を取り込むが、それらの接続は異なり、異なる機能を提供する。識別層620は、個々の表現を可能な限り区別的にする。分類層630は、異なるオブジェクトタイプを強調および区別するためにクラス特有の特徴を結合する。この2本柱の表現は、入力空間における距離とは線形には関連しない知覚距離を生み出すことができる。
【0137】
既知のネットワークは、それらの最終層における表現の投影間の改良された分離を示すが、生物学的システムの感覚処理の早期に観測される投影矯正を再現できない。分類ネットワーク600における集団応答の如何なる多様体構造でも、三次元オブジェクトを回転するために、入力層610における低次元多様体はギザギザであり、占有された畳み込まれたサブ空間である。幾何学形状は識別層620においてより組織化され、幾つかの例としてのオブジェクトは、湾曲した、またはギザギザを有する空間を占有している。ほぼすべてのサンプルは、分類層630における矯正されたハイパープレーン上に投影され、ノードによるそれられの不変表現と一貫性がある。多様体矯正を示しているより低い曲率では、オブジェクト135における変形例のすべての形状に対して観測された相当な線形化、および、多様体を矯正するために分類ネットワーク600により実行された変換は、知覚不変性と強靭性を可能にする。この行動は、多様体の幾何学形状は、複数の感覚処理段階に沿ってより分離可能となり、生物学的システムにおける不変表現を可能にするために後のステップで矯正されるということを提案する最近の理論と一致している。
【0138】
表現の特異性は、入力の表現がどれほど特定的であるかを評価する。特異性を推定するために、すべてのオブジェクトのすべての表現間のペアワイズ類似度が、類似度行列Sを取得するために計算される。そして、すべての他の表現に対する入力表現の類似度のzスコアが計算される。言い換えると、
【数50】
であり、ここにおいて、mean(S,dims=1)とstd(S,dims=1)は行列Sの行における平均と標準偏差を示しており、ドット演算(.)は、エレメントワイズ計算を示している。入力表現の特異性は、自身とのzスコア類似度、つまり、特異性=log(1.+diag(S))であった。
【0139】
画像130におけるノイズのレベルと、分類ネットワーク600により学習されたそれらの特徴を推定するために、パワースペクトル解析を実行できる。画像130および学習された画像の両者はフーリエ変換でき、それらの対数/べき乗を計算できる。画像130および学習された構造の二次元対数/べき乗は、一次元パワースペクトルを取得するために放射状に平均することができる。ノイズの存在は、スペクトルのより高い周波数における、より高いパワーにより示される。比較は、周波数の上位20%を使用して実行できる。
【0140】
分類層630a~eにおける三次元オブジェクトの異なる画像の表現は、オブジェクトのすべての画像に対して一貫してアクティブであるノードから構成された。分類ネットワーク600の分類層630a~eにおけるオブジェクト表現の全体の一貫性は計算できる。一貫性を計算するために、オブジェクト135の連続する画像の表現間のコサイン類似度を測定できる。類似度における変動は、表現における一貫性を示している。類似度測定値における、より低い変動は、より高い一貫性を意味し、その逆もまた同様である。
【0141】
多様体構造の幾何学形状を評価するために、行列Iにおけるすべてのオブジェクト135のすべての画像を収集できる。同様に、行列RとRそれぞれにおける識別層620a~eと分類層630a~eからのそれらの表現を収集できる。主成分解析を、3つすべての行列に対して別個に実行でき、および最初の2つの主成分上の投影としてプロットされた個々のオブジェクトのすべての画像に対して実行できる。プロットは、オブジェクト多様体の二次元投影を示している。多様体の二次元投影の曲率を計算するために、3つの連続する点p、pi+1、およびpi+2が選択される。ベクトル点p、pi+1、およびpi+2間の角度は、方程式
【数51】
を使用して計算できる。これらの角度は、iのすべての可能な値に対して測定できる。多様体の曲率は、すべての角度測定値の平均として計算できる。
【0142】
図7は、ある実施形態に従う、様々な画像が入力されている、オブジェクト135の特質が、分類ネットワーク600に対する出力においてどのように取り込まれるかを示している例示である。サイズ変動(SF)730と位置変動(PF)740を示しているムービーフレームとしてアニメーションが描画された。異なる位置変動721aと721bの例が、ボックス720において道路上の自動車に対して示されている。ミニバン(711aと711b)に対するサイズ変動の例は、ボックス710において示されている。サイズ変動フレーム730と位置変動フレーム740の合計で全体シーケンスの33%を超えては一般的にカバーしていないこれらのフレーム730と740の短いシーケンスはランダムに選択でき、分類ネットワーク600に供給できる。識別層620においては、分類ネットワーク600は、サイズと位置において変動する完全なオブジェクト形状を取り込むことができる。同じオブジェクト間、および異なるオブジェクト間の類似度スコアを比較しているグラフ750は、同じオブジェクト(自身)に属するフレームの表現間の平均類似度は、別個のオブジェクト(その他)のフレーム間の表現類似度よりも相当に高いことを示している。
【0143】
ニューラルネットワークアーキテクチャ140への入力画像130は、100×100画素などのような任意の数の画素を含むことができる。識別層620のノードと分類ノード630(使用されるとき)の数は変化し得る。例えば、識別層620のノードと分類ノード630の数は、ニューラルネットワークアーキテクチャ140への入力の画素数によって変化し得る。例えば、入力が100×100画素のときは、識別層620におけるノード数は500または1,000であることができる。入力された画像が16×16(画素単位)のある実施形態においては、識別層620のサイズは500ノードであることができる。入力画像が28×28(画素単位)のある実施形態においては、識別層620と分類層630の両者は10,000ノード含んでいる。オブジェクト画像が100×100画素のときは、サイズは(識別層620と分類層630の両者において)1,000、10,000、またはそれ以上であることができる。代替的に、分類層630と識別層620は、入力層610と同じ、またはそれ以上のノードを有することができる。例えば、分類ネットワーク600においては、入力層610は784のノードを有することができ、識別層620と分類層630はそれぞれ10,000ノード有することができる。
【0144】
図8は、ある実施形態に係わる、例としての方法800のフローチャートを例示している。方法800は例に過ぎず、ここにおいて提示されている実施形態に制限されない。方法800は、ここにおいて特定的に示されていない、または記述されていない多数の異なる実施形態または例において採用できる。幾つかの実施形態においては、方法800のステップは提示されている順序で実行できる。他の実施形態においては、方法800の動作は、任意の適切な順序で実行できる。更に他の実施形態においては、方法800のステップの1つ以上を組み合わせることができ、またはスキップできる。多数の実施形態においては、システム100および/またはコンピュータビジョンシステム150は、方法800および/または方法800のステップの1つ以上を実行するように構成できる。これらの、または他の実施形態においては、方法800のステップの1つ以上は、1つ以上の処理装置201において作動するように構成され、1つ以上の非一時的コンピュータストレージ装置202において格納されるように構成されている1つ以上のコンピュータ命令として実現できる。そのような非一時的メモリストレージ装置202は、システム100および/またはコンピュータビジョンシステム150などのようなコンピュータシステムの一部であることができる。処理装置201は、コンピュータシステム100および/またはコンピュータビジョンシステム150に関して上述した処理装置201に類似することができ、またはそれと同一であることができる。
【0145】
ステップ810において、ニューラルネットワークアーキテクチャの入力層間の重みと、表現層におけるノード間の反復重みが初期化される。重みが初期化される方法は変化し得る。ある実施形態においては、入力層におけるノードと表現層におけるノードとの間の初期重みは、入力の分散共分散行列の固有ベクトルに基づいて計算できる。表現層のノード間の接続の重みは、公式S=-(WW-I)を使用して計算できる。
【0146】
ステップ820において、入力シーケンスに含まれている画像は、入力層のノードに入力される。画像が画素で構成されている実施形態においては、各画素は別個のノードに入力できる。言い換えると、入力ノードの数は、解析されるデータセットの画像における画素数と等しい。ある実施形態においては、画素は前処理されることなく入力層に入力され、それにより、その入力ノードにその画素の値を与える。代替的に、データセットにおける画像は前処理できる。例えば、各画像の値は、すべての画像値を(0から1などのような)ある範囲内になるように変倍することによるなどのように、ある範囲において変倍できる。フーリエ変換またはウェーブレット変換などのようなある変換を、画像データを入力層のノードに入力する前に画像に対して実行できる。
【0147】
ステップ830において、表現層に含まれているノードの初期値は、ステップ820における入力層のノードの値のベクトルに、入力層におけるノードと表現層におけるノードとの間のニューラルネットワークアーキテクチャにおける接続に対する重みの行列を掛けることにより計算される。1回目のステップ830が実行され、これらの重みはANNの初期重みであり、それらはステップ810で計算された。追加画像が反復的に処理されるにつれ、これらの重みは下記のステップ850に従って更新される。
【0148】
ステップ840において、表現層におけるノードに対する行動モデルが、表現層におけるノードに対する値を計算するために適用される。種々のタイプの行動モデルを使用でき、それらのモデルには、生物学的ニューラルネットワークから引き出されたモデルが含まれる。例えば、ANNの表現層におけるノードの行動は「漏洩積分・発火」ニューロンとしてモデル化できる。ステップ840の一部として、表現層におけるノード間の反復接続からの値を、表現層におけるノードの値を計算するために使用できる。ノードの値の計算は、各ノードの値が定常状態に到達するまで反復して実行できる。
【0149】
ニューラルネットワークアーキテクチャが、ノードの第3層を有する分類ネットワークに対応する実施形態においては、分類層におけるノードの値は、上述した段落で検討したように、行動モデルに対するプロセスを適用することにより更新できる。例えば、分類層におけるノードの初期値は、各ノードに対して、a)識別(または表現層)におけるノードからの(興奮性接続重みを掛けた)入力の値、b)入力層におけるノードからの(抑制性接続重みを掛けた)入力の値、およびc)分類層におけるすべてのノードに適用された包括的抑制の値を合計することにより計算できる。
【0150】
分類層を有しているニューラルネットワークアーキテクチャにおいては、分類層における任意の2つのノードが共にアクティブである回数は、所与の数の入力にわたり追尾できる。任意の2つのノードが共にアクティブである回数がある閾値を超えていると、それらのノード間の重みは、(1などの)興奮性値に設定できる。典型的には共にアクティブにならない(閾値未満であることにより決定される)分類層におけるノード間の接続の重みは0に設定できる。
【0151】
ステップ850において、ニューラルネットワークアーキテクチャにおけるノード間の重みが更新される。ある実施形態においては、入力層におけるノードと表現層におけるノードとの間の接続に対する重み行列の更新は、勾配降下アプローチを使用して実行される。そして、表現層における反復重みは、公式S=-(WW-I)を使用して、入力層におけるノードと表現層におけるノードとの間の重みに基づいて更新される。
【0152】
ステップ860において、データセットに他の画像があるかどうかが決定される。ない場合は方法800は終了する。ある場合は、方法800はステップ820に戻る。
【0153】
ステップ870において、方法800は、ニューラルネットワークアーキテクチャが入力された画像に調整されて終了する。
【0154】
ある実施形態においては、ニューラルネットワークアーキテクチャ140に入力されるデータは、画像でもなく視覚データでもない。例えば、解析されるデータは、DNAまたはRAN配列、オーディオデータ、または他の感覚データであることができる。このデータは、ニューラルネットワークアーキテクチャ140の入力層に入力できるように「画素化」または別の方法で変換できる。
【0155】
ニューラルネットワークアーキテクチャ140は、他の既知のニューラルネットワークに対して利点を有している。ニューラルネットワークアーキテクチャ140は、既存のモデルとは根本的に異なる学習アルゴリズムを利用し、エラー伝播に依存しない。ニューラルネットワークアーキテクチャ140はまた、深層学習におけるクレジット割り当ての問題を回避できる。ニューラルネットワークアーキテクチャ140は、より少ないノード、より少ないパラメータ、および深層に対する何らの条件もなく、遥かにより複雑なネットワークに匹敵する著しい結果を生成できる。この性能は、より優れた演算力に依存する高度に洗練された深層学習モデルにはかなわないが、ニューラルネットワークアーキテクチャ140はまた、改良された性能で追加タスクを実行するために複雑な構造に展開できる。学習すべき例が遥かに少なくてすみ、エネルギー効率が遥かによいことを考えると、ニューラルネットワークアーキテクチャ140は、現在の代替物に匹敵またはそれを凌ぐことができる。
【0156】
ここにおける開示により明白なように、本開示において記述されている発明的技術は、画像から強靭なオブジェクト表現を抽出し、および/または、コンピュータビジョン機能を実行することに対処する問題を含む、既知のコンピュータビジョンシステムにおける既存の問題を克服するコンピュータ技術に根差している。本開示において記述されている技術は、既知の技術と関連付けられている制限を克服するための技術的ソリューション(例えば、種々のAIに基づくニューラルネットワーク化および機械学習技術を利用するソリューション)を提供する。この技術に基づくソリューションは、コンピュータビジョン(または機械学習)機能の精度を改良し、そのような機能を実行するために要求される情報を削減することにより、コンピュータビジョンおよび機械学習システムに関連する既存の能力および機能性を上回る改良を特徴としている。更に、ある実施形態においては、(顔または顔オブジェクトなどのような)基準オブジェクトの格納が必要ないので、これは、格納必要条件を最小限にし、プライバシーの問題を回避する役割を果たすことができる。更に、ここにおいて開示されているニューラルネットワークアーキテクチャは他のニューラルネットワークよりも複雑さがより少なく、従って、計算コストがより少ない。更に、訓練セットデータの、時間とリソースを大量に消費する作成、および標識付けも必要としない。
【0157】
追加的に、ここにおいて記述されているニューラルネットワークアーキテクチャは、完全に解釈可能であり(いわゆるホワイトボックス)、および、ニューラルネットワークにおいて共通して観測される「破局的忘却」になりにくいという利点も追加的に提供できる。これらの結果は、生物学的脳が不変オブジェクト表現をどのように達成するかを理解し、効率的且つ強靭な生物学的に現実的な知能的ネットワークを開発することにおいて大きな意味を有している。
【0158】
ある実施形態においては、画像からオブジェクト表現を抽出するためのシステムは、1つ以上の処理装置および、演算命令を格納している1つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、演算命令は、1つ以上の処理装置上で実行され、1つ以上の処理装置に、演算装置にて、画素を備えている画像を受信することと、演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、画像からオブジェクト表現を生成することを備えている機能を実行させるように構成されており、すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第2セットに対する接続重みの第2セットは、表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、入力層の入力ノードは値の第1セットを受信し、その値のそれぞれは画像の画素の1つに関連し、表現層における表現ノードに対する値の第2セットは、入力ノードと表現ノードとの間の重み付けされた接続の第1セットと、表現ノード間の重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、表現層における表現ノードに対する値の第2セットは、画像に対するオブジェクト表現を生成するために利用される。
【0159】
ある実施形態においては、重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。
【0160】
ある実施形態においては、学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、接続重みの第1セットを継続的に更新する。
【0161】
ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。
【0162】
ある実施形態においては、表現層における表現ノードに対する値の第2セットおよび、入力層における入力ノードに対する値の第1セットはすべて非負値である。
【0163】
ある実施形態においては、重み付けされた接続の第2セットに対する接続重みの第2セットは、接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新される。
【0164】
ある実施形態においては、オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいる。
【0165】
ある実施形態においては、重み付けされた接続の第2セットは抑制的である。
【0166】
ある実施形態においては、確率的勾配降下法は、0と1の間のステップサイズのステップを使用する。
【0167】
ある実施形態においては、1つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からオブジェクト表現を抽出するための方法は、演算装置にて、画素を備えている画像を受信することと、演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、画像からオブジェクト表現を生成することを備えており、すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第2セットに対する接続重みの第2セットは、表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、入力層の入力ノードは値の第1セットを受信し、その値のそれぞれは画像の画素の1つに関連し、表現層における表現ノードに対する値の第2セットは、入力ノードと表現ノードとの間の重み付けされた接続の第1セットと、表現ノード間の重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、表現層における表現ノードに対する値の第2セットは、画像に対するオブジェクト表現を生成するために利用される。
【0168】
ある実施形態においては、重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。
【0169】
ある実施形態においては、学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、接続重みの第1セットを継続的に更新する。
【0170】
ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。
【0171】
ある実施形態においては、表現層における表現ノードに対する値の第2セットおよび、入力層における入力ノードに対する値の第1セットはすべて非負値である。
【0172】
ある実施形態においては、二層ニューラルネットワークは、入力層における入力ノードよりも、表現層におけるより多くの表現ノードを含んでいる。
【0173】
ある実施形態においては、重み付けされた接続の第2セットに対する接続重みの第2セットは、接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新される。
【0174】
ある実施形態においては、オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいる。
【0175】
ある実施形態においては、重み付けされた接続の第2セットは抑制的である。
【0176】
ある実施形態においては、画像からオブジェクト表現を抽出するためのコンピュータプログラム製品は、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、命令は演算装置に、演算装置にて、画素を備えている画像を受信させ、演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、画像からオブジェクト表現を生成させ、すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第2セットに対する接続重みの第2セットは、表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、入力層の入力ノードは値の第1セットを受信し、その値のそれぞれは画像の画素の1つに関連し、表現層における表現ノードに対する値の第2セットは、入力ノードと表現ノードとの間の重み付けされた接続の第1セットと、表現ノード間の重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、表現層における表現ノードに対する値の第2セットは、画像に対するオブジェクト表現を生成するために利用される。
【0177】
ある実施形態においては、重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。
【0178】
ある実施形態においては、画像からのオブジェクト表現を分類するためのシステムは、1つ以上の処理装置および、演算命令を格納している1つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、演算命令は、1つ以上の処理装置上で実行され、1つ以上の処理装置に、演算装置にて、画素を備えている画像を受信することと、演算装置にて、i)入力ノードを備えている入力層、ii)表現ノードを備えている表現層、および、iii)分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、画像における1つ以上のオブジェクトに対する分類データを生成することを備えている機能を実行させるように構成されており、すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第2セットに対する接続重みの第2セットは、表現層における任意の2つの表現ノード間の接続重みが両方向において同じになるように決定され、分類層の分類ノードは、表現層の表現ノードに1対1の興奮的方法で接続され、入力層の入力ノードに1対1の抑制的方法で接続され、分類層の分類ノードは、分類層における任意の2つの分類ノード間の接続重みが両方向において同じになるように、重み付けされた接続の第3セットを通して互いに接続され、分類層の分類ノードは包括的抑制性入力を受信し、入力層の入力ノードは値の第1セットを受信し、その値のそれぞれは画像の画素の1つに関連し、表現層における表現ノードに対する値の第2セットは、入力ノードと表現ノードとの間の重み付けされた接続の第1セットと、表現ノード間の重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、分類層における分類ノードに対する値の第3セットは、入力ノード、表現ノード、および他の分類ノードからの分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、画像における1つ以上のオブジェクトに対する分類データは、値の第3セットに少なくとも部分的には基づいて生成される。
【0179】
ある実施形態においては、重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。
【0180】
ある実施形態においては、学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、接続重みの第1セットを継続的に更新する。
【0181】
ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。
【0182】
ある実施形態においては、分類層における分類ノードに対する値の第3セット、表現層における表現ノードに対する値の第2セット、および入力層における入力ノードに対する値の第1セットはすべて非負値である。
【0183】
ある実施形態においては、重み付けされた接続の第2セットに対する接続重みの第2セットは、接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新される。
【0184】
ある実施形態においては、分類データは、画像における少なくとも1つのオブジェクトに関連する識別データを備えている。
【0185】
ある実施形態においては、重み付けされた接続の第2セットは抑制的である。
【0186】
ある実施形態においては、確率的勾配降下法は、0と1の間のステップサイズのステップを使用する。
【0187】
ある実施形態においては、1つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からのオブジェクト表現を分類するための方法は、演算装置にて、画素を備えている画像を受信することと、演算装置にて、i)入力ノードを備えている入力層、ii)表現ノードを備えている表現層、および、iii)分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、画像における1つ以上のオブジェクトに対する分類データを生成することを備え、すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第2セットに対する接続重みの第2セットは、表現層における任意の2つの表現ノード間の接続重みが両方向において同じになるように決定され、分類層の分類ノードは、識別層の識別ノードに1対1の興奮的方法で接続され、入力層の入力ノードに1対1の抑制的方法で接続され、分類層の分類ノードは、分類層における任意の2つの分類ノード間の接続重みが両方向において同じになるように、重み付けされた接続の第3セットを通して互いに接続され、分類層の分類ノードは包括的抑制性入力を受信し、入力層の入力ノードは値の第1セットを受信し、その値のそれぞれは画像の画素の1つに関連し、表現層における表現ノードに対する値の第2セットは、入力ノードと表現ノードとの間の重み付けされた接続の第1セットと、表現ノード間の重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、分類層における分類ノードに対する値の第3セットは、入力ノード、表現ノード、および他の分類ノードからの分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、画像における1つ以上のオブジェクトに対する分類データは、値の第3セットに少なくとも部分的には基づいて生成される。
【0188】
ある実施形態においては、重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。
【0189】
ある実施形態においては、学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、接続重みの第1セットを継続的に更新する。
【0190】
ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。
【0191】
ある実施形態においては、分類層における分類ノードに対する値の第3セット、表現層における表現ノードに対する値の第2セット、および入力層における入力ノードに対する値の第1セットはすべて非負値である。
【0192】
ある実施形態においては、重み付けされた接続の第2セットに対する接続重みの第2セットは、接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新される。
【0193】
ある実施形態においては、分類データは、画像における少なくとも1つのオブジェクトに関連する識別データを備えている。
【0194】
ある実施形態においては、重み付けされた接続の第2セットは抑制的である。
【0195】
ある実施形態においては、確率的勾配降下法は、0と1の間のステップサイズのステップを使用する。
【0196】
ある実施形態においては、画像からのオブジェクト表現を分類するためのコンピュータプログラム製品は、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、命令は演算装置に、演算装置にて、画素を備えている画像を受信させ、演算装置にて、i)入力ノードを備えている入力層、ii)表現ノードを備えている表現層、および、iii)分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、画像における1つ以上のオブジェクトに対する分類データを生成させ、すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第2セットに対する接続重みの第2セットは、表現層における任意の2つの表現ノード間の接続重みが両方向において同じになるように決定され、分類層の分類ノードは、識別層の識別ノードに1対1の興奮的方法で接続され、入力層の入力ノードに1対1の抑制的方法で接続され、分類層の分類ノードは、分類層における任意の2つの分類ノード間の接続重みが両方向において同じになるように、重み付けされた接続の第3セットを通して互いに接続され、分類層の分類ノードは包括的抑制性入力を受信し、入力層の入力ノードは値の第1セットを受信し、その値のそれぞれは画像の画素の1つに関連し、表現層における表現ノードに対する値の第2セットは、入力ノードと表現ノードとの間の重み付けされた接続の第1セットと、表現ノード間の重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、分類層における分類ノードに対する値の第3セットは、入力ノード、表現ノード、および他の分類ノードからの分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、画像における1つ以上のオブジェクトに対する分類データは、値の第3セットに少なくとも部分的には基づいて生成される。
【0197】
ある実施形態においては、重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。
【0198】
実施形態は、コンピュータまたは任意の命令実行システムによる使用のために、またはそれと関連するプログラムコードを提供するコンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能またはコンピュータ読み取り可能媒体は、命令実行システム、装置、またはデバイスによる、またはそれと関連しての使用のためにプログラムを格納する、通信で送る、伝播する、または移植する任意の装置を含むことができる。媒体は、磁気的、光学的、電子的、電磁的、赤外線、または半導体システム(または装置またはデバイス)、または伝播媒体であることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、剛性磁気ディスク、および光磁気ディスクなどを含むことができる。
【0199】
プログラムコードを格納および/または実行するために適切なデータ処理システムは、システムバスを通してメモリ要素に直接または間接的に結合されている少なくとも1つのプロセッサを含むことができる。メモリ要素は、プログラムコードの実際の実行の間に採用されるローカルメモリ、バルクストレージ、および、実行の間にバルクストレージからコードが取り出させる回収を減少するために、少なくともあるプログラムコードの一時的ストレージを提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(下記に制限されないが、キーボード、ディスプレイ、ポインティングデバイスなどを含む)は、直接または介在するI/Oコントローラを介しての何れかでシステムに結合できる。
【0200】
ネットワークアダプタもまた、処理システムが、介在する私的または公共ネットワークを通して、他のデータ処理システム、またはリモートプリンタ、またはストレージデバイスに結合されることを可能にするためにシステムに結合できる。モデム、ケーブルモデム、およびイーサネットカードは、現在利用可能なタイプのネットワークアダプタのほんの幾つかにすぎない。
【0201】
発明の種々の新しい特徴が、その特別な実施形態に適用されるものとして示され、検討され、および記述されてきたが、記述且つ例示されてきたシステムと方法の形状および詳細において種々の省略、置換、および変化を本発明の精神から逸脱することなくこの技術における技量を有する者は行うことができるということは理解されるべきである。特に、方法におけるステップは、適切であれば、多くの場合において異なる順序で実行できる。この技術における技量を有する者は、上記の開示および本発明の教示の理解に基づいて、ここにおいて記述されているシステムの一部である特別なハードウェアおよび装置、およびここにおいて提供され、および組み込まれている一般の機能は、本発明異なる実施形態においては変化し得るということを認識するであろう。従って、システム構成要素の記述は、本発明のシステムおよび方法の実施形態において実現されるように、種々の態様および本発明の特別な実施形態の機能の全体且つ完全な理解および認識を容易にするための例示としての目的である。この技術における技量を有する者は、本発明は、例示の目的で提示され、制限的でない、記述されている実施形態以外においても実践できるということを認識するであろう。
上述の実施形態は下記のようにも記載され得るが下記には限定されない。
[構成1]
画像からオブジェクト表現を抽出するためのシステムであって、
1つ以上の処理装置と、
演算命令を格納している1つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、前記演算命令は、前記1つ以上の処理装置上で実行され、前記1つ以上の処理装置に、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成することを備えている機能を実行させるように構成されており、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第1セットを受信し、前記値のそれぞれは前記画像の前記画素の1つに関連し、
前記表現層における前記表現ノードに対する値の第2セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第1セットと、前記表現ノード間の前記重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第2セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とするシステム。
[構成2]
前記重み付けされた接続の第1セットと関連付けられている前記接続重みの第1セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成1に記載のシステム。
[構成3]
学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、前記接続重みの第1セットを継続的に更新することを特徴とする構成1に記載のシステム。
[構成4]
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成3に記載のシステム。
[構成5]
前記表現層における前記表現ノードに対する前記値の第2セットおよび、前記入力層における前記入力ノードに対する前記値の第1セットはすべて非負値であることを特徴とする構成1に記載のシステム。
[構成6]
前記重み付けされた接続の第2セットに対する前記接続重みの第2セットは、前記接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成1に記載のシステム。
[構成7]
前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする構成1に記載のシステム。
[構成8]
前記重み付けされた接続の第2セットは抑制的であることを特徴とする構成1に記載のシステム。
[構成9]
前記確率的勾配降下法は、0と1の間のステップサイズのステップを使用することを特徴とする構成4に記載のシステム。
[構成10]
1つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からオブジェクト表現を抽出するための方法であって、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第1セットを受信し、前記値のそれぞれは前記画像の前記画素の1つに関連し、
前記表現層における前記表現ノードに対する値の第2セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第1セットと、前記表現ノード間の前記重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第2セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とする方法。
[構成11]
前記重み付けされた接続の第1セットと関連付けられている前記接続重みの第1セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成10に記載の方法。
[構成12]
学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、前記接続重みの第1セットを継続的に更新することを特徴とする構成10に記載の方法。
[構成13]
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成12に記載の方法。
[構成14]
前記表現層における前記表現ノードに対する前記値の第2セットおよび、前記入力層における前記入力ノードに対する前記値の第1セットはすべて非負値であることを特徴とする構成10に記載の方法。
[構成15]
前記二層ニューラルネットワークは、前記入力層における入力ノードよりも、前記表現層におけるより多くの表現ノードを含んでいることを特徴とする構成10に記載の方法。
[構成16]
前記重み付けされた接続の第2セットに対する前記接続重みの第2セットは、前記接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成10に記載の方法。
[構成17]
前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする構成10に記載の方法。
[構成18]
前記重み付けされた接続の第2セットは抑制的であることを特徴とする構成10に記載の方法。
[構成19]
画像からオブジェクト表現を抽出するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素を備えている画像を受信させ、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第1セットを受信し、前記値のそれぞれは前記画像の前記画素の1つに関連し、
前記表現層における前記表現ノードに対する値の第2セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第1セットと、前記表現ノード間の前記重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第2セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とするコンピュータプログラム製品。
[構成20]
前記重み付けされた接続の第1セットと関連付けられている前記接続重みの第1セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成19に記載のコンピュータプログラム。
[構成21]
画像からのオブジェクト表現を分類するためのシステムであって、
1つ以上の処理装置と、
演算命令を格納している1つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、前記演算命令は、前記1つ以上の処理装置上で実行され、前記1つ以上の処理装置に、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、i)入力ノードを備えている入力層、ii)表現ノードを備えている表現層、および、iii)分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における1つ以上のオブジェクトに対する分類データを生成することを備えている機能を実行させるように構成されており、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記表現層の前記表現ノードに1対1の興奮的方法で接続され、前記入力層の前記入力ノードに1対1の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の2つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第3セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第1セットを受信し、前記値のそれぞれは前記画像の前記画素の1つに関連し、
前記表現層における前記表現ノードに対する値の第2セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第1セットと、前記表現ノード間の前記重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第3セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における1つ以上のオブジェクトに対する前記分類データは、前記値の第3セットに少なくとも部分的には基づいて生成されることを特徴とするシステム。
[構成22]
前記重み付けされた接続の第1セットと関連付けられている前記接続重みの第1セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成21に記載のシステム。
[構成23]
学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、前記接続重みの第1セットを継続的に更新することを特徴とする構成21に記載のシステム。
[構成24]
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成23に記載のシステム。
[構成25]
前記分類層における前記分類ノードに対する前記値の第3セット、前記表現層における前記表現ノードに対する前記値の第2セット、および前記入力層における前記入力ノードに対する前記値の第1セットはすべて非負値であることを特徴とする構成21に記載のシステム。
[構成26]
前記重み付けされた接続の第2セットに対する前記接続重みの第2セットは、前記接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成21に記載のシステム。
[構成27]
前記分類データは、前記画像における少なくとも1つのオブジェクトに関連する識別データを備えていることを特徴とする構成23に記載のシステム。
[構成28]
前記重み付けされた接続の第2セットは抑制的であることを特徴とする構成21に記載のシステム。
[構成29]
前記確率的勾配降下法は、0と1の間のステップサイズのステップを使用することを特徴とする構成24に記載のシステム。
[構成30]
1つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からのオブジェクト表現を分類するための方法であって、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、i)入力ノードを備えている入力層、ii)表現ノードを備えている表現層、および、iii)分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における1つ以上のオブジェクトに対する分類データを生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、識別層の識別ノードに1対1の興奮的方法で接続され、前記入力層の前記入力ノードに1対1の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の2つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第3セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第1セットを受信し、前記値のそれぞれは前記画像の前記画素の1つに関連し、
前記表現層における前記表現ノードに対する値の第2セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第1セットと、前記表現ノード間の前記重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第3セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における前記1つ以上のオブジェクトに対する前記分類データは、前記値の第3セットに少なくとも部分的には基づいて生成されることを特徴とする方法。
[構成31]
前記重み付けされた接続の第1セットと関連付けられている前記接続重みの第1セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成30に記載の方法。
[構成32]
学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、前記接続重みの第1セットを継続的に更新することを特徴とする構成31に記載の方法。
[構成33]
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成32に記載の方法。
[構成34]
前記分類層における前記分類ノードに対する前記値の第3セット、前記表現層における前記表現ノードに対する前記値の第2セット、および前記入力層における前記入力ノードに対する前記値の第1セットはすべて非負値であることを特徴とする構成30に記載の方法。
[構成35]
前記重み付けされた接続の第2セットに対する前記接続重みの第2セットは、前記接続重みの第1セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成30に記載の方法。
[構成36]
前記分類データは、前記画像における少なくとも1つのオブジェクトに関連する識別データを備えていることを特徴とする構成32に記載の方法。
[構成37]
前記重み付けされた接続の第2セットは抑制的であることを特徴とする構成30に記載の方法。
[構成38]
前記確率的勾配降下法は、0と1の間のステップサイズのステップを使用することを特徴とする構成33に記載の方法。
[構成39]
画像からのオブジェクト表現を分類するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素を備えている画像を受信させ、
前記演算装置にて、i)入力ノードを備えている入力層、ii)表現ノードを備えている表現層、および、iii)分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における1つ以上のオブジェクトに対する分類データを生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第1セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第2セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第1セットと関連付けられている接続重みの第1セットは、前記表現層における2つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第2セットに対する接続重みの第2セットは、前記表現層における任意の2つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、識別層の識別ノードに1対1の興奮的方法で接続され、前記入力層の前記入力ノードに1対1の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の2つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第3セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第1セットを受信し、前記値のそれぞれは前記画像の前記画素の1つに関連し、
前記表現層における前記表現ノードに対する値の第2セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第1セットと、前記表現ノード間の前記重み付けされた接続の第2セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第3セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における前記1つ以上のオブジェクトに対する前記分類データは、前記値の第3セットに少なくとも部分的には基づいて生成されることを特徴とするコンピュータプログラム製品。
[構成40]
前記重み付けされた接続の第1セットと関連付けられている前記接続重みの第1セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成39に記載のコンピュータプログラム。
図1A
図1B
図2
図3
図4
図5A
図5B
図5C
図6
図7A
図7B
図8