特開2024-106338 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ストワーズ　インスティテュート　フォー　メディカル　リサーチの特許一覧

特開2024-106338局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5A
5B
5C
6
7A
7B
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024106338

(43)【公開日】2024-08-07

(54)【発明の名称】局所ヘブ則に基づく更新を使用する不変オブジェクト表現と分類のためのニューラルネットワークアーキテクチャ

(51)【国際特許分類】

G06N 3/08 20230101AFI20240731BHJP

G06V 10/82 20220101ALI20240731BHJP

G06T 7/00 20170101ALI20240731BHJP

G06N 3/04 20230101ALI20240731BHJP

【ＦＩ】

G06N3/08

G06V10/82

G06T7/00 350C

G06N3/04

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024010122

(22)【出願日】2024-01-26

(62)【分割の表示】P 2023574482の分割

【原出願日】2023-04-06

(31)【優先権主張番号】63/328,063

(32)【優先日】2022-04-06

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/480,675

(32)【優先日】2023-01-19

(33)【優先権主張国・地域又は機関】US

【新規性喪失の例外の表示】新規性喪失の例外適用申請有り

(71)【出願人】

【識別番号】508297654

【氏名又は名称】ストワーズインスティテュートフォーメディカルリサーチ

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100114018

【弁理士】

【氏名又は名称】南山知広

(74)【代理人】

【識別番号】100153729

【弁理士】

【氏名又は名称】森本有一

(72)【発明者】

【氏名】ツォンロンユイ

(72)【発明者】

【氏名】リシャブラジ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096EA39

5L096HA11

5L096JA11

(57)【要約】

【課題】オブジェクト検出、オブジェクト分類、および／またはインスタンスセグメンテーションを含む機能を含んでいる種々のコンピュータビジョン機能を高める。
【解決手段】本開示は、コンピュータビジョンおよび他の問題を解決するためにニューラルネットワークアーキテクチャを構築および採用するための改良されたシステム、方法、および技術に関する。ニューラルネットワークアーキテクチャは、第１層におけるすべてのノードが第２層におけるすべてのノードに接続されている２層または３層を有することができる。第２層におけるノードは互いに接続できる。最初の２層におけるこれらのノード間の種々の接続の重みまたは値はまた、ニューラルネットワークアーキテクチャへの入力の処理の間に更新できる。これらのニューラルネットワークアーキテクチャは、大量な訓練を必要とせず、継続的に学習できる。ここにおいては他の実施形態もまた記述されている。
【選択図】図１Ａ

【特許請求の範囲】

【請求項1】

画像からオブジェクト表現を抽出するためのシステムであって、
１つ以上の処理装置と、
演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、前記演算命令は、前記１つ以上の処理装置上で実行され、前記１つ以上の処理装置に、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成することを備えている機能を実行させるように構成されており、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第２セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とするシステム。

【請求項2】

前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする請求項１に記載のシステム。

【請求項3】

学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする請求項１に記載のシステム。

【請求項4】

前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項３に記載のシステム。

【請求項5】

前記表現層における前記表現ノードに対する前記値の第２セットおよび、前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする請求項１に記載のシステム。

【請求項6】

前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項１に記載のシステム。

【請求項7】

前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする請求項１に記載のシステム。

【請求項8】

前記重み付けされた接続の第２セットは抑制的であることを特徴とする請求項１に記載のシステム。

【請求項9】

前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする請求項４に記載のシステム。

【請求項10】

１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からオブジェクト表現を抽出するための方法であって、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第２セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とする方法。

【請求項11】

前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする請求項１０に記載の方法。

【請求項12】

学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする請求項１０に記載の方法。

【請求項13】

前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項１２に記載の方法。

【請求項14】

前記表現層における前記表現ノードに対する前記値の第２セットおよび、前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする請求項１０に記載の方法。

【請求項15】

前記二層ニューラルネットワークは、前記入力層における入力ノードよりも、前記表現層におけるより多くの表現ノードを含んでいることを特徴とする請求項１０に記載の方法。

【請求項16】

前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項１０に記載の方法。

【請求項17】

前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする請求項１０に記載の方法。

【請求項18】

前記重み付けされた接続の第２セットは抑制的であることを特徴とする請求項１０に記載の方法。

【請求項19】

画像からオブジェクト表現を抽出するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素を備えている画像を受信させ、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第２セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とするコンピュータプログラム製品。

【請求項20】

前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする請求項１９に記載のコンピュータプログラム。

【請求項21】

画像からのオブジェクト表現を分類するためのシステムであって、
１つ以上の処理装置と、
演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、前記演算命令は、前記１つ以上の処理装置上で実行され、前記１つ以上の処理装置に、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における１つ以上のオブジェクトに対する分類データを生成することを備えている機能を実行させるように構成されており、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記表現層の前記表現ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに１対１の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における１つ以上のオブジェクトに対する前記分類データは、前記値の第３セットに少なくとも部分的には基づいて生成されることを特徴とするシステム。

【請求項22】

前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする請求項２１に記載のシステム。

【請求項23】

学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする請求項２１に記載のシステム。

【請求項24】

前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項２３に記載のシステム。

【請求項25】

前記分類層における前記分類ノードに対する前記値の第３セット、前記表現層における前記表現ノードに対する前記値の第２セット、および前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする請求項２１に記載のシステム。

【請求項26】

前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項２１に記載のシステム。

【請求項27】

前記分類データは、前記画像における少なくとも１つのオブジェクトに関連する識別データを備えていることを特徴とする請求項２３に記載のシステム。

【請求項28】

前記重み付けされた接続の第２セットは抑制的であることを特徴とする請求項２１に記載のシステム。

【請求項29】

前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする請求項２４に記載のシステム。

【請求項30】

１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からのオブジェクト表現を分類するための方法であって、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における１つ以上のオブジェクトに対する分類データを生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記識別層の前記識別ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに１対１の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における前記１つ以上のオブジェクトに対する前記分類データは、前記値の第３セットに少なくとも部分的には基づいて生成されることを特徴とする方法。

【請求項31】

前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする請求項３０に記載の方法。

【請求項32】

学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする請求項３１に記載の方法。

【請求項33】

前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項３２に記載の方法。

【請求項34】

前記分類層における前記分類ノードに対する前記値の第３セット、前記表現層における前記表現ノードに対する前記値の第２セット、および前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする請求項３０に記載の方法。

【請求項35】

前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項３０に記載の方法。

【請求項36】

前記分類データは、前記画像における少なくとも１つのオブジェクトに関連する識別データを備えていることを特徴とする請求項３２に記載の方法。

【請求項37】

前記重み付けされた接続の第２セットは抑制的であることを特徴とする請求項３０に記載の方法。

【請求項38】

前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする請求項３３に記載の方法。

【請求項39】

画像からのオブジェクト表現を分類するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素を備えている画像を受信させ、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における１つ以上のオブジェクトに対する分類データを生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記識別層の前記識別ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに１対１の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における前記１つ以上のオブジェクトに対する前記分類データは、前記値の第３セットに少なくとも部分的には基づいて生成されることを特徴とするコンピュータプログラム製品。

【請求項40】

前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする請求項３９に記載のコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願への相互参照
本出願は、２０２２年４月６日に出願された米国仮特許出願第６３／３２８，０６３号および２０２３年１月１９日に出願された米国仮特許出願第６３／４８０，６７５号の利益および優先権を主張する。上記に特定される出願の内容は、参照によりその全体がここにおいて組み込まれる。

【0002】

政府による資金供与
本発明は、国立衛生研究所により授与された授与番号ＮＩＨＲ０１ＤＣ０１４７０１のもとで政府の支援によりなされた。政府は本発明において一定の権利を有する。

【0003】

本開示は、不変オブジェクト表現と分類のための改良された機械学習構成および技術に関する。ある実施形態においては、ここにおいて記述されている構成と技術は、下記に制限されないが、オブジェクト検出、オブジェクト分類、および／またはインスタンスセグメンテーションを含む機能を含んでいる種々のコンピュータビジョン機能を高めるために実行できる。

【背景技術】

【0004】

コンピュータビジョンシステムは、オブジェクト検出、オブジェクト分類、および／またはインスタンスセグメンテーションを含む機能などのような種々の機能を実行するように構成できる。これらのコンピュータビジョン機能は、顔認識、医療画像解析、スマート監視、および／または画像解析タスクなどのような多くの異なる状況において適用できる。

【0005】

コンピュータビジョンシステムは、上述したコンピュータビジョン機能を正確に実現するためには多様な技術的問題を考慮しなければならない。例えば、１つの技術的問題は、入力画像から特徴を正確に抽出することに関する。これは、入力画像に含まれているオブジェクト（例えば、顔オブジェクト）が部分的に隠されていたり、または大きく遮蔽されていたり、および／または、ノイズ、照明不足、および／または均一でない照明により品質が低下している状況においては特に難しい。特徴抽出を阻害し得る他の要因は、異なる画像間におけるカメラの角度、動き、視点、姿勢、およびオブジェクトの見え方（例えば、顔の表情における変動）における変動に由来すると考えることができる。

【0006】

他の技術的難しさは、画像から特徴を効率よく抽出することができるコンピュータビジョンシステムを設計することにある。多くの特徴抽出機構は計算コストが高くリソースを大量に使用する。更にそれらは、多数の複雑な処理段階を含んでいる深層学習モデルに基づいて構築されていることがよくあり、それは、教師あり訓練を容易にするために、広範囲にわたる訓練データセットが正確に標識付けされることを必要とする。

【0007】

特徴抽出を実行するためのフレームワークは、多様な他の欠点の悪影響も受ける。例えば、ブラインドソース分離技術を使用するフレームワークに関して、これらのフレームワークは、それらの相対的な存在量に基づく特徴の有益性を考慮できない。有益な特徴を取り込むように設定されているフレームワークセットは、オブジェクトの正確な発生頻度を知る必要はないが、特徴の相対的な存在量は考慮すべきである。しかし、ブラインドソース分離および他の関連する技術はそうすることができない。

【0008】

ブラインドソース分離技術が特徴を表現するために辞書を利用するシナリオを考える。同じ入力の複数の発生を含むために入力行列を変えることは辞書の性質を変えない。複数の発生は、疎性（スパース性）と再構築エラーの同じレベルの反復表現に繋がる。従って、辞書と表現は、各入力を一度のみ考慮する間に取得されるものと類似したままである。言い換えると、入力の相対的な発生に従って変わることを強制する辞書への制約はない。従って、ブラインドソース分離アプローチは、性能を改良するために環境の統計的特性を利用できない。

【0009】

特徴抽出のために疎（スパースな）非負行列因子分解を利用するフレームワークもまた欠点を含んでいる。これらのフレームワークは、幾つかのシナリオにおいては、入力の不変且つ効率的な表現を首尾よく生成できるが、特徴を取得することにおいて使用される疎非負行列因子分解に基づくアプローチは、その現在の形状においては、常に技術的に妥当または実現可能であるというわけではない。幾つかの場合においては、これらのフレームワークにより利用されるアルゴリズムは、生物学的システムが直面している生理学的制約を取り込んでいないので制限が生じる。

【0010】

更に、ある特徴抽出アプローチにおいては、入力から最も有益な構造を取り込むことは、入力表現を取得することとは異なるプロセスであることがよくある。そのため、両者を達成する如何なるネットワークも、一般的にはこれらの２つの目標を達成するために２つの別個の構造を組み込んでいる。これらの制限の多くは、視覚データを処理でき、学習を提示できる生物学的システムが直面している生理学的制約の観点から、これらのアプローチを支えている数学的アルゴリズムを調べるときに改良または克服できる。任意の感覚符号化プロセスにおいて望ましい生物学的システムの幾つかの態様は、感覚処理に対する既知のアプローチにおいては存在しない。

【0011】

既存の技術の他の欠点は、生物学的システムのプロセスを正確に模倣しないということである。生物学的システムの本質的な態様はその発展である。生物は時間と共に成長および発達し、成熟に達し、そして最終的には死ぬ。その生存中に生物はそれらの周囲を体験し、それらに適合することを学習する。感覚処理の観点から、これは、感覚体験の連続期間を構成し、生物が感覚イベントを学習し、および再学習することを可能にする。当然の結果として、生物学的システムは、それが適合するすべてのイベントおよび刺激にある一時点において遭遇するわけではない。生物学的システムはこれらのイベントを徐々に発見し、体験との関連性を決定し、それらを表現するためにそれ相応に順応する。

【0012】

更に、生物学的システムは、特徴を取り込み、表現を生成するための別個の「回路」を有していない。同じ構造体が入力のセットに適合し、それらを表現する。更に、入力表現は、適合のプロセスをガイドすることが期待されている。対照的に、既存の特徴抽出アプローチは典型的にはこれらの重要な感覚処理態様を再現できず、この２つのプロセスを統合しない。

【0013】

動物は、相対的に単純な頭脳を有しているものでさえ、変形、破損、または遮蔽されているオブジェクトを認識できる。動物の知能は何もないところから進化し、多様な環境においてこれらの信号を迅速且つ一貫性を有して学習、表現、および一般化する能力は、絶えず変化する環境を生き残るための動物の能力に対して重要である。認知の洗練度における大きなばらつきにも拘わらず、驚くべき事実は、認知機能は、局所演算とシナプス学習ルールに基づいているということである。シナプス強度における修正は、シナプス前ニューロンとシナプス後ニューロンの活動によってのみ指示される。それらは、脳の他の部分の変化には無関心であるが、脳は、単純であろうと複雑であろうと、少数の例から環境信号を抽出し、それらを一般化し、そして、オブジェクトのアイデンティティとクラスを認識し、適切な行動応答を推進することを学習できる。生物学的神経システムの理解における近年の進歩にも拘わらず、脳が、信号の破損、およびサイズ、位置、および視点における変動に対して不変オブジェクトの表現を生成するために局所学習ルールをどのように使用できるかは知られていない。

【0014】

視覚階層の早期の研究に喚起されて、既知の人工ニューラルネットワークモデルおよび深層学習変形例は、畳み込みと特徴の連続統合に依存して、認知機能を模倣し、著しい性能を示すことができる。これらのモデルは、脳において行われる演算を再現することが示唆されているが、これらのモデルは、生物学的神経システムとは根本的に異なるように動作する。特定の工学的問題に対処するように設計されているので、モデルは典型的には、所望される出力と実際の出力との間の不一致（またはエラー、またはコスト関数）を最小限にする学習プロセスに依存している。このプロセスは、ネットワークが入力の予め決定されているセットおよびそれらの対応する結果を「知る」ことを要求し、検出された不一致は、ネットワークを通して、エラーを最小限にするために接続重みを更新するように伝播させることができる。これらの目標に向けられている更新および教師あり訓練技術は、これらのニューラルネットワークが特定のタスクを実行することにおける精度を非常に高くするが、これには種々のコストがかかる。例えば、これらのネットワークは、生物学的システムと同じ方法で継続的に学習する能力を有していない。そうではなく、訓練が完了すると、更新された接続重みは「フリーズ」され、それ以上は変化しない。追加的に、新しいタスクに晒されることは、破局的忘却に繋がり得る。特定の例に基づく訓練は、その訓練データを超えてデータを良好に一般化せず、また、ネットワークが敵対的な攻撃に晒されやすくする。性能と強靭さを改良するためには、多数の層と大量の訓練データが要求される。

【0015】

対照的に、生物学的脳は特定の入力を先験的には知らない。それらは、指示または標識なしで学習し、エラーを逆伝播する自然機構もない。有機システムはまた、経験を通して絶えず更新されており、既存の自然ネットワークとは対照的に、それらは、敵対的な攻撃に対して著しく強靭である。生物学的システムに固有な利点を取り込むためには、人工ネットワークモデルは、オブジェクトの特徴取り込み、表現、および分類において包括的な成功を達成するためには局所学習ルールを使用すべきである。このアプローチは、現在まで実現されていない。

【図面の簡単な説明】

【0016】

実施形態の更なる記述を容易にするために下記の図面が提供され、図面においては、類似の参照番号は、類似または対応する部分を指すことが意図されている。

【0017】

【図1A】図１Ａは、ある実施形態に従う、画像解析を生成するための例としてのシステムの図である。

【0018】

【図1B】図１Ｂは、ある実施形態に従う、コンピュータビジョンシステムの例としての特徴を提示しているブロック図である。

【0019】

【図2】図２は、ある実施形態に従う、例としてのニューラルネットワークアーキテクチャの図である。

【0020】

【図3】図３は、ある実施形態に従う、入力シーケンスにおける入力がニューラルネットワークアーキテクチャに対する表現層にどのようにして取り込むことができるかを例示している図である。

【0021】

【図4】図４は、ある実施形態に従う、ニューラルネットワークアーキテクチャにより、入力シーケンスにおける破損した入力をどのように学習できるかを例示している図である。

【0022】

【図5A】図５Ａは、ある実施形態に従う、オブジェクトの特質をニューラルネットワークアーキテクチャに対する表現層の出力においてどのようにして取り込むことができるかを例示している図である。

【図5B】図５Ｂは、ある実施形態に従う、オブジェクトの特質をニューラルネットワークアーキテクチャに対する表現層の出力においてどのようにして取り込むことができるかを例示している図である。

【図5C】図５Ｃは、ある実施形態に従う、オブジェクトの特質をニューラルネットワークアーキテクチャに対する表現層の出力においてどのようにして取り込むことができるかを例示している図である。

【0023】

【図6】図６は、ある実施形態に従う、例としてのニューラルネットワークアーキテクチャの図である。

【0024】

【図7A】図７Ａは、ある実施形態に従う、ニューラルネットワークアーキテクチャに対する出力に取り込まれるオブジェクトの特質を例示している図である。

【図7B】図Ｂは、ある実施形態に従う、ニューラルネットワークアーキテクチャに対する出力に取り込まれるオブジェクトの特質を例示している図である。

【0025】

【図8】図８は、ある実施形態に従う、ニューラルネットワークアーキテクチャのための例としての方法を示しているフローチャートである。

【0026】

明細書および特許請求の範囲における「第１」、「第２」、「第３」、「第４」などの用語は、記述されている場合、類似の要素を区別するために使用されており、特別な連続的または時間的順序を必ずしも示していない。そのように使用されている用語は、ここにおいて記述されている実施形態が、例えば、例示されている順序とは別の順序、またはここにおいて記述されている以外の順序での動作が可能なように、適切な状況においては交換可能であるということは理解されるべきである。

【0027】

明細書および特許請求の範囲における「左」、「右」、「前方」、「背後」、「後方」、「上部」、「底部」、「～の上方」、「～の下方」などの用語は、記述されている場合、記述の目的のために使用されており、固定的な相対的位置を必ずしも記述していない。そのように使用されている用語は、ここにおいて記述されている装置、方法、および／または製造品が、例えば、例示されているものとは異なる向きにおいても、または、ここにおいて記述されている以外の向きにおける動作が可能なように、適切な状況においては交換可能であるということは理解されるべきである。

【発明を実施するための形態】

【0028】

本開示は、画像に含まれているオブジェクトから、強靭で、不変なオブジェクト表現を抽出または生成するために、局所学習ルールおよび浅層二層ニューラルネットワークアーキテクチャを活用するニューラルネットワークアーキテクチャを提供するためのシステム、方法、装置、コンピュータプログラム製品、および技術に関する。ある実施形態においては、ニューラルネットワークアーキテクチャは、種々の形態で破損した画像入力対する不変応答を生成するように訓練できる。学習プロセスは、訓練セットの如何なる標識付けも、予め決定されている結果も要求せず、学習プロセスの間の大量訓練データセットに対する必要性をなくす。代わりに、ニューラルネットワークアーキテクチャは、局所学習ルールのみを使用して、学習プロセスの間の逆伝播も要求せず、または、再構築エラーまたはクレジット割り当てを使用することに頼ることなく不変オブジェクト表現を生成できる。ニューラルネットワークアーキテクチャにより生成された、高められたオブジェクト表現は、例えば、オブジェクト検出、オブジェクト分類、オブジェクト表現、オブジェクト分割などを含むことができる機能などのような、種々のコンピュータビジョン機能の性能を改良するために利用できる。

【0029】

既知の特徴抽出技術の限界を克服するために、経験に依存する方法でオブジェクトから包括的な構造を学習する、生物学的に喚起された浅層二層、冗長取り込み人工ニューラルネットワーク（ＡＮＮ）が提供される。ある実施形態においては、ＡＮＮは、固有の入力構造を抽出し、入力を効率的に表現するように構成できるノードを備えている。幾つかのシナリオにおいては、単一のＡＮＮは、ブラインドソース分離技術と疎回復技術の両者の機能を組み込むことができる。ＡＮＮは、冗長取り込みを可能にする学習ルールを実現する修正されたホップフィールドネットワークを含むことができる。ある実施形態においては、ＡＮＮは、破局的忘却なしに、複数の入力を順次識別するためのバイアス接続性および確率的勾配降下型学習を含んでいる。ＡＮＮは、個々のオブジェクトを唯一的に識別する構造を取り込むことができ、入力破損の種々の形状に対して強靭な疎非相関表現を生成する。注目すべきことであるが、ＡＮＮは、教師なしの方法で破損していない特徴を抽出し、アイデンティティおよび回転情報を、回転三次元オブジェクトの異なる画像から分離するために種々の破損した入力形状から学習でき、教師なしの条件で異なるオブジェクトの向きに調整されたセルを生成できる。ＡＮＮは、データの初期セット（訓練セットデータなどの）を表現するために非常に良好に学習できるが、ＡＮＮはまた、初期（または訓練）データセットに含まれている画像に類似しているが、同一ではない画像に対しても良好に性能を発揮する。そのようなシナリオにおいては、ＡＮＮは継続学習を採用できるので、新しい画像に適合でき、それらをより疎に、およびより強靭に表現できる。

【0030】

ある実施形態においては、ＡＮＮは、表現ノードの第２層とオールツーオール構成において接続できる入力ノードの第１層を含んでいる。第２層における表現ノード間の抑制性反復接続は負の入力値を提供し、また、オールツーオール構成において接続できる。入力ノードは、入力データセットにおいてパターンを検出するように構成でき、これらのパターンを、第２層における表現ノードに投影できる。ＡＮＮの表現ノードからの表現の疎性は、表現層におけるノード間の抑制性反復接続により生成される。これらの抑制性接続は、興奮性反復接続である従来のホップフィールドネットワークにおける第２層ノード間の接続とは異なる。入力ノードと表現ノード間の接続を確立することは、表現ノードが、入力ノードにより抽出される特徴に関連する情報を学習することを可能にする。

【0031】

ＡＮＮにおいては、有益な構造の取り込みは、表現ノード（または、第２層のノード）の調整特性において反映できる。調整特性は、ＡＮＮが、（重みの更新を通してなどように）それに入力された画像から特徴（またはオブジェクト）を抽出することにどの程度良好に適合したかの尺度である。表現ノードの調整特性は、それらが、感覚経路（信号経路）において早期段階のノード（入力ノードなどのような）にどのように接続されているかにより決定できる。従って、入力に対する適合は、ＡＮＮの接続における変化に関することができる。

【0032】

ＡＮＮは、ニューラルネットワーク設計に対する従来のアプローチと比較すると、現実世界の生物学的認知プロセスをより正確に模倣する。上述のように、オブジェクトを表現するために設計された多数の従来の人工ニューラルネットワークは、実際の出力と所望される出力との間の不一致が、エラー逆伝播などのような機構を通してネットワーク接続を更新することにより削減される最適化プロセスを利用する。このアプローチは、人工ニューラルネットワークのすべてのレベルにおける個々の接続が、ネットワークの後段において見出されるエラーを感知することを要求する。しかし、生物学的神経システムにおける学習は、シナプス前活動およびシナプス後活動によって局所的に起こることが知られている。更に、従来の技術は、人工ニューラルネットワークが、入力のあるセットに対する正確な結果を「知っている」ことを要求するが、それは、生物学的ニューラルネットワークは要求しない。更に、多数の既存の人工ニューラルネットワークは別個の訓練フェーズを要求するが、生物学的ニューラルネットワークは絶えず学習している（つまり、種々のニューロン／ノード間の接続の重みは、ニューラルネットワークの寿命を通して絶えず更新される）。生物学的ニューラルネットワークのこれらの態様は、それらの複雑さにも拘わらす、多数の既存の人工ニューラルネットワークよりも敵対的攻撃により晒されにくくする。本開示を通して記述されているＡＮＮは、生物学的ニューラルネットワークのこれらの、および他の態様をより正確に模倣するようにモデル化される。更に、生物学的システムと同様に、ＡＮＮにおける表現は非負であることができる。

【0033】

ある実施形態においては、ここにおいて記述されているＡＮＮは、ノードの接続が変化するときに、表現ノードの対する調整特性を動的に更新または変える。接続性における適切な変化は、ノードが最も有益な構造に調整されるように導くことができる。２つのノード間の接続は、興奮性および抑制性の両者であり得るので、これらの接続における変化は同様に何れかの性質であり得、従って、異なる接続における更新は、異なる正または負符号という結果になり得る。そのような更新は、有益な構造を取り込むことを支援するノードの値に対する非負の制約と矛盾しているように見える可能性がある。しかし、接続性の変化は双方向であり得るが、抑制性接続は、如何なるノードの値もゼロ未満にすることなくノードの活動を削減できるのみである。この設定においては、ＡＮＮはノードの特性を互いに減じなくてもよい。そのため、非負の制約は、ノードが興奮性および抑制性入力の両者を受信したとしても満たすことができる。

【0034】

更に、ＡＮＮは、経験に依存する方法で入力から固有の特徴を抽出でき、そのような構造に基づいて、入力の疎且つ効率的な表現を生成できる。従来のホップフィールドネットワークに基づくニューラルネットワークとは異なり、本開示を通して記述されているＡＮＮは適合性を有するように設計できる。入力層と表現層との間の接続性は、その表現を最適化するための入力に基づいて変化できる。ＡＮＮの接続性を更新することは、確率的勾配降下（ＳＧＤ）型アプローチを使用して達成できる。このＳＧＤに類似のアプローチを使用して、ＡＮＮは、他の以前の入力に対する自身の適合に影響を与えない方法で新しい入力に徐々に適合できる。入力に反復的に遭遇することによりＡＮＮはすべての異なる入力に適合できる。

【0035】

行列因子分解アプローチなどのような、入力の数と共に効率が減少するある方法とは異なり、ここにおいて記述されているＡＮＮの設計は、反復遭遇と入力の数の両者による効率における増大を可能にする。より多くの数の入力に適合することは、ＡＮＮが入力についてのより多くの情報を含むようにさせることができ、ＡＮＮにおいてより多くの情報を収容することは、ＡＮＮ容量の適切な利用と効率における増大という結果にすることができる。

【0036】

ある実施形態においては、ＡＮＮの二層ニューラルネットワークアーキテクチャは、分類ネットワークを作成するために分類層に拡張または接続できる。二層ニューラルネットワークの識別（または表現）層は、ニューラルネットワークにより入力として受信された異なるオブジェクト間の差を強調するが、分類層は、入力における異なるオブジェクト間の共有されている特徴を識別する。分類層におけるノードは、分類層における他のノードからの相互興奮および全体的な抑制に晒される可能性がある。幾つかの実施形態においては、これらのノードは、識別層におけるノードに１対１で興奮的に接続でき、入力層におけるノードに抑制的に接続できる。これらの設計コンセプトは、脊椎動物の感覚皮質における観測された構成の後でモデル化される。下記に更に詳細に説明されるように、分類ネットワークの設計は、それが類似のオブジェクトを分類し、同じオブジェクトを異なる視点、サイズ、および／または位置から識別することを可能にする。それは更に、分類ネットワークが、特別な表現を処理または経験していなくても、同じオブジェクト（サイズ、視点などが異なる）の表現を分類することを可能にする。

【0037】

分類ネットワークは従来のアプローチに対して完全に解釈可能であり（いわゆるホワイトボックス）、破局的忘却にならないということにおいて従来のアプローチに対して追加的な利点を有しており、破局的忘却は従来のアプローチにおいて共通して観測される現象であり、ニューラルネットワークが、あるタスクをどのように実行するかを、他のタスクに対して訓練された後は忘れてしまうという結果になる。分類ネットワークはその解析を、効率的且つ強靭な方法で入力に対して実行する。

【0038】

オブジェクトのアイデンティティは、その特徴間の構造的関係において埋め込まれており、本開示のニューラルネットワークアーキテクチャは、オブジェクトのアイデンティティを符号化するためにそれらの関係または依存性を利用できる。更に、下記において更に詳細に説明されるように、ニューラルネットワークアーキテクチャはこれらの依存性を最大限取り込むので、オブジェクトの存在を、入力パターンの正確な詳細なしに識別し、不変表現を生成または抽出できる。

【0039】

ここにおいて検討されている技術は、多様な異なる状況および環境において使用できる。これらの技術の１つの有用な適用は、コンピュータビジョンの状況においてであり、コンピュータビジョンは、広く多様な異なる適用にわたり適用できる。例えば、ここにおいて開示されている技術は、ここにおいて記述されているオブジェクト表現を使用することから恩恵を受けることができる任意の適用、装置、またはシステムに統合できる。

【0040】

これらの技術の１つの例としての適用は、顔認識の状況において適用できる。これらの技術の他の有用な適用は、監視システムの状況においてである（例えば、セキュリティチェックポイントにおいて）。これらの技術の他の有用な適用は、シーン解析適用の状況においてである（例えば、車両を制御するために自動化、無人、および／または自律システムに依存する自動化、無人、および／または自律車両において使用できる）。これらの技術の他の有用な適用は、インテリジェントまたは自動化交通制御システムの状況においてである。これらの技術の他の有用な適用は、画像編集適用においてである。これらの技術の他の有用な適用は、衛星撮像システムの状況においてである。追加的な有用適用には、品質制御システム（例えば、産業サンプルチェック、および産業欠陥検出）、農業解析システム、および医療解析システム（例えば、人間と動物両者への適用）を含むことができる。

【0041】

ここにおいて検討されている技術はまた、多数の他の状況にも適用できる。例えば、これらの技術は、ＤＮＡおよびＲＮＡ配列、聴覚データ、感覚データ、または他のソースから収集されたデータを処理および／または解析するために使用できる。これらの状況においては、ニューラルネットワークアーキテクチャは、データにおけるオブジェクトに関連する入力データから他の情報を識別、分類、または抽出でき、それは、データのあるパターンまたは他の特徴であってよい。ニューラルネットワークアーキテクチャは一般的には、それが視覚画像に対して可能なように、表現を抽出すること、および／または入力データの部分を分類することに関する同じ機能を実行できる。ニューラルネットワークアーキテクチャにより解析および／または処理されるデータは、ニューラルネットワークアーキテクチャに入力される画像を形成するためにそのデータを画素に変換することによるなどのように、何らかの方法で前処理できる。一定比率での拡大／縮小、および／または、ウェーブレットまたはフーリエ変換の適用などの他の前処理ステップは、すべてのタイプの入力に適用できる。

【0042】

本開示において記述されている実施形態は、種々の方法で組み合わせることができる。１つの実施形態に対して記述されている如何なる態様または特徴も、本開示において言及されている如何なる他の実施形態に組み込むことができる。更に、ここにおいて記述されている実施形態の何れも、ハードウェアに基づくことができ、ソフトウェアに基づくことができ、または、好ましくは、ハードウェアとソフトウェア要素の両者を混合したものを備えることができる。そのため、ここにおける記述は、ある実施形態、特徴、または構成要素をソフトウェアまたはハードウェアにおいて実現されるものとして記述できるが、本開示において言及される如何なる実施形態、特徴、および／または構成要素もハードウェアおよび／またはソフトウェアにおいて実現できるということは認識されるべきである。

【0043】

図１Ａは、ある実施形態に従う、例としてシステム１００の図である。図１Ｂは、コンピュータビジョンシステム１５０と関連付けられている、例としての特徴および／または機能を示している図である。図１Ａと１Ｂは下記において一緒に検討される。

【0044】

システム１００は、ネットワーク１９０を介して通信状態にある、１つ以上の演算装置１１０と１つ以上のサーバ１２０を備えている。コンピュータビジョンシステム１５０は、１つ以上のサーバ１２０上に格納され、１つ以上のサーバ１２０により実行される。ネットワーク１９０は、例えば、ローカルエリアネットワーク（例えば、Ｗｉ－Ｆｉネットワーク）、パーソナルエリアネットワーク（例えば、ブルートゥース（登録商標）ネットワーク）、ワイドエリアネットワーク、イントラネット、インターネット、セルラーネットワーク、テレビジョンネットワーク、および／または、他のタイプのネットワークを備える通信ネットワークなどのような任意のタイプの通信ネットワークを代表することができる。

【0045】

演算装置１１０、サーバ１２０、およびコンピュータビジョンシステム１５０を含む、図１Ａと１Ｂにおいて例示されているすべての構成要素は、互いに直接通信し、および／または、有線または無線通信リンク、またはその２つの組み合わせを介してネットワーク１９０を介して互いに通信するように構成できる。演算装置１１０、サーバ１２０、およびコンピュータビジョンシステム１５０のそれぞれはまた、１つ以上の通信装置、１つ以上のコンピュータストレージ装置２０１、およびコンピュータプログラム命令を実行できる１つ以上の処理装置２０２（中央処理ユニット）を装備することができる。

【0046】

１つ以上のコンピュータストレージ装置２０１は、（ｉ）例えば、リードオンリメモリ（ＲＯＭ）などのような不揮発性メモリ、および／または、（ｉｉ）例えば、ランダムアクセスメモリ（ＲＡＭ）などのような揮発性メモリを含むことができる。不揮発性メモリは、リムーバブルおよび／または非リムーバブル不揮発性メモリであってよい。一方、ＲＡＭは、ダイナミックＲＡＭ（ＤＲＡＭ）、スタティックＲＡＭ（ＳＲＡＭ）などを含むことができる。更に、ＲＯＭは、マスクプログラムＲＯＭ、プログラマブルＲＯＭ（ＰＲＯＭ）、ワンタイムプログラマブルＲＯＭ（ＯＴＰ）、消去可能型プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能型プログラマブルＲＯＭ（ＥＥＰＲＯＭ）（例えば、電気的書き換え可能型ＲＯＭ（ＥＡＲＯＭ）および／またはフラッシュメモリ）などを含むことができる。ある実施形態においては、コンピュータストレージ装置２０１は物理的非一時的媒体であってよい。１つ以上のコンピュータストレージ装置２０１は、コンピュータビジョンシステム１５０により実行される機能を実行することと関連付けられている命令を格納できる。

【0047】

１つ以上の処理装置２０２は、１つ以上の中央処理ユニット（ＣＰＵ）、１つ以上のマイクロプロセッサ、１つ以上のマイクロコントローラ、１つ以上のコントローラ、１つ以上の複合命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、１つ以上の縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、１つ以上の超長命令ワード（ＶＬＩＷ）マイクロプロセッサ、１つ以上のグラフィックスプロセッサユニット（ＧＰＵ）、１つ以上のデジタル信号プロセッサ、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、および／または、所望される機能を実行できる任意の他のタイプのプロセッサまたは処理回路を含むことができる。１つ以上の処理装置２０２は、下記に制限されないが、コンピュータビジョンシステム１５０により実行される機能を実行することと関連付けられている命令を含む１つ以上のコンピュータストレージ装置に格納されている、またはそこに含まれている任意のコンピュータプログラム命令を実行するように構成できる。

【0048】

１つ以上の通信装置のそれぞれは、有線および／または無線通信技術を使用する通信を可能にする有線および無線通信装置および／またはインタフェースを含むことができる。有線および／または無線通信は、有線および／または無線通信ネットワークトポロジー（例えば、リング、ライン、ツリー、バス、メッシュ、スター、デイジーチェーン、ハイブリッドなど）および／またはプロトコル（例えば、パーソナルエリアネットワーク（ＰＡＮ）プロトコル、ローカルエリアネットワーク（ＬＡＮ）プロトコル、ワイドエリアネットワーク（ＷＡＮ）プロトコル、セルラーネットワークプロトコル、パワーラインネットワークプロトコルなど）の何れか１つ、またはその組み合わせを使用して実現できる。ある実施形態においては、１つ以上の通信装置は、追加的に、または代替的に、１つ以上のモデム装置、１つ以上のルータ装置、１つ以上のアクセスポイント、および／または１つ以上のモバイルホットスポットを含むことができる。

【0049】

ある実施形態においては、演算装置１１０は、デスクトップコンピュータ、ラップトップコンピュータ、モバイル装置（例えば、スマートフォン、個人情報端末、タブレット装置、車両演算装置、または、本質的にモバイルである任意の他の装置）、および／または他のタイプの装置を代表することができる。１つ以上のサーバ１２０は、一般的には、上記の演算装置１１０の何れをも含む任意のタイプの演算装置を代表することができる。ある実施形態においては、１つ以上のサーバ１２０は、ネットワーク１９０を介して（例えば、インターネットを介して）演算装置１１０および他の装置と通信するためにウェブサーバを実行する１つ以上のメインフレーム演算装置を備えている。

【0050】

ある実施形態においては、コンピュータビジョンシステム１５０は、１つ以上のサーバ１２０に格納され、および１つ以上のサーバ１２０により実行される。コンピュータビジョンシステム１５０は、画像１３０を解析すること、および／または、下記に制限されないが、特徴抽出、オブジェクト検出、オブジェクト分類、およびオブジェクト分割を実行するための機能を含む、コンピュータビジョン機能を実行することと関連付けられている任意およびすべての動作を実行するように構成できる。

【0051】

コンピュータビジョンシステム１５０に提供され、および、コンピュータビジョンシステム１５０により解析される画像１３０は任意のタイプの画像を含むことができる。ある実施形態においては、画像１３０は１つ以上の二次元（２Ｄ）画像を含むことができる。ある実施形態においては、画像１３０は１つ以上の三次元（３Ｄ）画像を含むことができる。更に、画像１３０は、ＤＮＡまたはＲＡＮ配列、聴覚データ、感覚データ、および他のタイプのデータなどのように、画素化（つまり、非視覚データを、非視覚データの部分を表す１つ以上の「画素」を含む「画像」に変換すること）することにより非視覚データソースから作成できる。画像１３０は、任意のデジタルまたはアナログフォーマットにおいて、および、任意の色空間または色モデルを使用して取り込むことができる。画像１３０は、ビデオから抜粋された部分であることができる。例としての画像フォーマットとしては、下記に制限されないが、ビットマップ（ＢＭＰ）、ＪＰＥＧ（ジョイントフォトグラフィックエキスパーツグループ）、ＴＩＦＦ（タグ付き画像ファイル形式）、ＧＩＦ（グラフィックス交換形式）、ＰＮＧ（ポータブルネットワークグラフィックス）、ＳＴＥＰ（製品データ交換標準）などを含むことができる。例としての色空間またはモデルとしては、下記に制限されないが、ｓＲＧＢ（標準赤－緑－青）、ＡｄｏｂｅＲＧＢ、グレースケールなどを含むことができる。更に、幾つかの実施形態においては、画像１３０の幾つかまたはすべては、コンピュータビジョンシステム１５０により解析される前に、前処理および／または変換できる。例えば、画像１３０は、フーリエまたはウェーブレット変換などのような変換を介して異なる色要素に分割でき、および／または処理できる。他の前処理および変換操作もまた適用できる。

【0052】

コンピュータビジョンシステム１５０により受信された画像１３０は、任意のタイプのカメラ装置により取り込むことができる。カメラ装置は、撮像センサ、カメラ、または光学装置を含む任意の装置を含むことができる。例えば、カメラ装置は、スチル画像カメラ、ビデオカメラ、および／または画像／ビデオセンサを含む他の装置を代表することができる。カメラ装置は、下記に制限されないが、紫外線（ＵＶ）、赤外線（ＩＲ）、または陽電子放出断層撮影（ＰＥＴ）、磁気共鳴画像法（ＭＲＩ）、Ｘ線、超音波、他のタイプの医療および非医療画像法を含む可視および非可視スペクトルの両者を取り込むことができ、および／または格納できる。カメラ装置としてはまた、撮像センサ、カメラ、または光学装置を備え、画像の取り込みとは関係のない他の機能を実行できる装置を含むことができる。例えば、カメラ装置としては、モバイル装置（例えば、スマートフォン、セルフォン）、タブレット装置、演算装置、デスクトップコンピュータなどを含むことができる。カメラ装置は、カメラ装置の構成または設計に基づいて、アナログ／デジタル（Ａ／Ｄ）コンバータ、および／または、デジタル／アナログ（Ｄ／Ａ）コンバータを装備できる。ある実施形態においては、図１に示されている演算装置１１０としては、上記のカメラ装置および他のタイプのカメラ装置の何れをも含むことができる。

【0053】

画像１３０（または画像１３０に取り込まれている対応するシーン）のそれぞれは、１つ以上のオブジェクト１３５を含むことができる。一般的に言えば、如何なるタイプのオブジェクト１３５も画像１３０に含むことができ、画像１３０に含まれているオブジェクト１３５のタイプは、大きく変動し得る。画像１３０に含まれているオブジェクト１３５は、種々のタイプの非生命体（例えば、車両、ベッド、机、窓、工具、家電製品、産業機器、カーテン、スポーツ用品、備品など）、生命体（例えば、人間、顔、動物、植物など）、構造物（例えば、建物、家屋など）、記号（アルファベットのラテン文字、アラビア数字、漢字など）、および／または同様なものに対応することができる。解析される基盤となるデータが、本質的に見ることができないときは（ＤＮＡまたはＲＮＡ配列、マイクロフォンまたはオーディオセンサにより取り込まれた聴覚データなどのような）、オブジェクト１３５は、データにおいて見出された重要な任意のパターンまたは特徴を含むことができる。コンピュータビジョンシステム１５０により受信された画像１３０は、処理および／または解析のためにニューラルネットワークアーキテクチャ１４０に提供できる。

【0054】

とりわけ、ニューラルネットワークアーキテクチャ１４０は画像１３０から、向上された、または最適化されたオブジェクト表現１６５を抽出できる。オブジェクト表現１６５は、特徴、埋め込み、符号化、ベクトルおよび／または同様のものを表現でき、各オブジェクト表現１６５は、画像１３０に含まれている１つ以上のオブジェクト１３５を表現する、および／または、識別する符号化データを含むことができる。ある実施形態においては、ニューラルネットワークアーキテクチャ１４０は、それに提示されたパターンを順次学習でき、この学習された知識は、オブジェクト表現１６５を最適化し、ここにおいて記述されている他の機能を実行するために活用できる。

【0055】

ニューラルネットワークアーキテクチャ１４０の構造または構成は変化し得る。ある実施形態においては、ニューラルネットワークアーキテクチャ１４０は１つ以上の反復ニューラルネットワーク（ＲＮＮ）を含むことができる。例えば、幾つかの場合においては、ニューラルネットワークアーキテクチャ１４０は、ここにおいて記述されているタスクを実行するように修正および最適化されているホップフィールドネットワークを含むことができる。ある実施形態においては、修正されたホップフィールドネットワークは、入力ノード（または入力ニューロン）の第１層および表現ノード（または、表現ニューロン）第２層を備える浅層二層ＲＮＮである。表現ノードのそれぞれは、オールツーオール構成において入力ノードのそれぞれに接続でき、入力と表現ノードとの間のフィードフォワード重みは、２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択できる。追加的に、表現ノードは、反復接続を使用して互いに接続できる。幾つかの実施形態においては、ノード間のバイアス接続性は、確率的勾配降下（ＳＧＤ）に基づく学習機構と結合されて、ニューラルネットワークアーキテクチャ１４０が、破局的忘却なしに複数の入力を順次識別することを可能にする。ニューラルネットワークアーキテクチャ１４０におけるバイアス接続性と側方向抑制は、表現ノードが個々のオブジェクトを唯一的に識別する構造を符号化することを可能にする。

【0056】

ある実施形態においては、低速シナプス重み変化は、個々の例からの継続的学習を可能にする。そのような実施形態においては、その低速（従来の画像解析システムに対して）は全体のネットワーク接続における障害を引き起こさないが、特定のパターンが符号化されることを可能にする。幾つかの実施形態においては、各学習反復での正規化ステップはなく、それは、負のシナプス重みの生成または割り当てを防止できる。そのような結果は、低速シナプス重み変化によるものであり、生物学的システムと類似している（例えば、シナプス重みが決して負にならない動物の脳において）。

【0057】

ある実施形態においては、ニューラルネットワークアーキテクチャ１４０に含まれている表現ノードの数は、認識が所望される画像またはオブジェクトの数に正比例することができる。そのような例においては、表現層は、識別される画像の数とほぼ同数のノードを含むことができる。幾つかの実施形態においては、一次層から表現層へのノード数の２倍以上（１０倍以上まで）の拡張があり得る。ニューラルネットワークアーキテクチャ１４０の多数の適用に対しては、各層におけるより多くのノードはより良好な結果を生み出す。ニューラルネットワークアーキテクチャ１４０を構成しているノードの総数には上限はない。

【0058】

幾つかの実施形態においては、ニューラルネットワークアーキテクチャ１４０は、入力層と表現層との間の接続性が、処理されている所与の入力画像に基づいて変化することが可能なように適合性を有するように構成できる。入力層と表現層との間の接続のこの動的適合は、ニューラルネットワークアーキテクチャ１４０が、生成されるオブジェクト表現１６５を最適化することを可能にする。結果としてのオブジェクト表現１６５は疎であり、ニューラルネットワークアーキテクチャ１４０の個々のノードは相関性がなく、それにより、入力パターンの効率的な符号化に繋がる。更に、ニューラルネットワークアーキテクチャ１４０は、画像１３０におけるオブジェクト１３５から有益な構造を抽出できるので、結果としてのオブジェクト表現１６５は、劣化、破損、および遮蔽の種々の形状に対して強靭である。

【0059】

ニューラルネットワークアーキテクチャ１４０の他の構成もまた採用できる。本開示のある部分は、ニューラルネットワークアーキテクチャ１４０が修正されたホップフィールドネットワークまたはＲＮＮを含んでいる実施形態を記述しているが、ここにおいて記述されている原理は、種々の学習モデルまたはネットワークに適用できるということは理解されるべきである。幾つかの例においては、ニューラルネットワークアーキテクチャ１４０の層は、ここにおいて記述されている機能を実行する深層ニューラルネットワークを形成するための種々の構成において適切に積み重ねることができ、および／または、平行化できる。ニューラルネットワークアーキテクチャ１４０が積み重ねられるある実施形態においては、その表現層またはその分類層（ニューラルネットワークアーキテクチャ１４０が第３層を含んでいる例において）、またはその両者の出力は、次のニューラルネットワーク（他の二または三層修正ホップフィールドネットワークなどのような）に対する入力として使用できる。そのような実施形態においては、これらの後者のニューラルネットワークに対する入力は、前のニューラルネットワークアーキテクチャ１４０の各ノードからの活動から導出され、次のネットワークへの入力の画素として扱うことができる。ある実施形態においては、ニューラルネットワークアーキテクチャ１４０は、古典的パーセプトロンを、クラス情報を読み込む追加層として含むことができる。

【0060】

ニューラルネットワークアーキテクチャ１４０が積み重ねられるある実施形態においては、第１ニューラルネットワークアーキテクチャ１４０を走査装置として使用でき、それにより、制限のある数の画素がより大きいシーンをカバーすることを可能にする（生物学的生命体が自身の目を使用して、一度に視野の１つの領域に焦点を当てるが、全体のシーンを合成することに類似している）。全体のシーンを合成するためには、走査された画像（またはサブシーン）は、異なる時点において取得されたとしても、時間に対して不変なものとして扱うことができる。

【0061】

１つの例においては、ここにおいて記述されている原理は、本開示において特定的には言及していない他のタイプのＲＮＮに拡張でき、または適用できる。他の例においては、ここにおいて記述されている原理は、強化された学習ニューラルネットワークに拡張でき、または適用できる。更なる例においては、ここにおいて記述されている原理は、畳み込みニューラルネットワーク（ＣＮＮ）に拡張でき、または適用できる。

【0062】

例えば、ある実施形態においては、ニューラルネットワークアーキテクチャ１４０は、追加的に、または代替的に、畳み込みニューラルネットワーク（ＣＮＮ）または複数の畳み込みニューラルネットワークを備えることができる。各ＣＮＮは人工ニューラルネットワークを表現でき、画像１３０を解析し、画像１３０に対して深層学習機能および／または機械学習機能を実行するように構成できる。各ＣＮＮは、下記に制限されないが、１つ以上の入力層、１つ以上の出力層、１つ以上の畳み込み層（例えば、学習可能フィルタを含んでいる）、１つ以上のＲｅＬＵ（正規化線形ユニット）層、１つ以上のプーリング層、１つ以上の完全結合層、１つ以上の正規化層などを含んでいる複数の層を含むことができる。ＣＮＮの構成およびそれらの対応する層は、ＣＮＮが、本開示において記述されている機能の何れも含む、画像１３０を解析、解釈、および理解するための種々の機能を学習および実行することを可能にするように構成できる。

【0063】

その構成に拘わらず、ニューラルネットワークアーキテクチャ１４０は、入力画像１３０から強靭なオブジェクト表現１６５を抽出するように訓練できる。幾つかの実施形態においては、ニューラルネットワークアーキテクチャ１４０はまた、１つ以上のコンピュータビジョン機能を実行するためにオブジェクト表現１６５を利用するように訓練できる。例えば、幾つか場合においては、オブジェクト表現１６５は、オブジェクト検出機能を実行するために利用でき、オブジェクト検出機能は、画像１３０における１つ以上の目標クラスと関連付けられているオブジェクト１３５の位置を予測または識別する（例えば、バウンディングボックスを使用して）ことを含むことができるオブジェクト検出機能を実行するために利用できる。追加的に、または代替的に、オブジェクト表現１６５は、オブジェクト分類機能（例えば、画像１３０におけるオブジェクト１３５が１つ以上の目標セマンティッククラスに属しているかどうかを予測または決定すること、および／または、画像１３０におけるオブジェクト１３５に対する標識を予測または決定することを含むことができる）、および／または、インスタンスセグメンテーション機能（例えば、画像１３０におけるオブジェクト１３５の正確な位置を、画素レベルの精度で予測または識別することを含むことができる）を実行するために利用できる。ニューラルネットワークアーキテクチャ１４０は、他のタイプのコンピュータビジョン機能も実行するように訓練できる。

【0064】

コンピュータビジョンシステム１５０のニューラルネットワークアーキテクチャ１４０は、画像１３０の解析に基づいて、解析情報１６０を生成且つ出力するように構成されている。画像１３０に対する解析情報１６０は、一般的には、画像１３０および画像１３０に含まれているオブジェクト１３５を解析、解釈、理解、および／または分類することと関連付けられている任意の情報またはデータを含むことができる。ある実施形態においては、解析情報１６０は、入力画像１３０から抽出されるオブジェクト表現１６５を表現している情報またはデータを含むことができる。解析情報１６０は更に、画像１３０に含まれているオブジェクト１３５の回転の角度、向き、または位置を示す向き情報を更に含むことができる。

【0065】

追加的に、または、代替的に、解析情報１６０は、ニューラルネットワークアーキテクチャ１４０により実行されたコンピュータビジョン機能の結果を示す情報またはデータを含むことができる。例えば、解析情報１６０は、オブジェクト検出、オブジェクト分類、および／または他のコンピュータビジョン機能を実行することと関連付けられている予測および／または結果を含むことができる。

【0066】

図１において示されている例としてのシステム１００においては、コンピュータビジョンシステム１５０は、１つ以上のサーバ１２０に格納でき、または、１つ以上のサーバ１２０により実行できる。他の例としてのシステムにおいては、コンピュータビジョンシステム１５０は、追加的に、または代替的に、演算装置１１０および／または他の装置に格納でき、または演算装置１１０および／または他の装置により実行できる。例えば、ある実施形態においては、コンピュータビジョンシステム１５０は、カメラ装置が、ここにおいて記述されている技術を使用して画像を解析することを可能にするためにカメラ装置に直接統合できる。

【0067】

同様に、コンピュータビジョンシステム１５０はまた、ここにおいて記述されている技術を実現するために、演算装置１１０にローカルアプリケーションとして格納でき、または、演算装置１１０に格納されているローカルアプリケーションと統合できる。例えば、ある実施形態においては、コンピュータビジョンシステム１５０は、下記に制限されないが、顔認識アプリケーション、自動化車両アプリケーション、インテリジェント交通アプリケーション、監視アプリケーション、セキュリティアプリケーション、産業品質制御尾アプリケーション、医療アプリケーション、農業アプリケーション、獣医アプリケーション、画像編集アプリケーション、ソーシャルメディアアプリケーション、および／または、演算装置１１０および／またはサーバ１２０に格納される他のアプリケーションを含む種々のアプリケーションと統合できる（または、それらの種々のアプリケーションと通信できる）。

【0068】

幾つかの特別な有用アプリケーションにおいては、ニューラルネットワークアーキテクチャ１４０は、顔認識アプリケーションと統合でき、顔、または顔オブジェクトの識別において支援するために擬似画像を生成する。例えば、顔オブジェクトを含んでいる所与の画像１３０を受信すると、ニューラルネットワークアーキテクチャ１４０は、未知の、または変形された形状（例えば、変形された顔オブジェクトを含むことができる）の一貫性のある擬似画像を強靭に生成でき、擬似画像は顔認識の目的のために使用できる。実際の顔オブジェクトの格納は要求されず、それは、技術的観点（例えば、格納空間の使用を削減することにより）およびプライバシーの観点の両者から恩典であることができる。

【0069】

ニューラルネットワークアーキテクチャ１４０による継続的学習が利用されないある実施形態においては、ニューラルネットワークアーキテクチャ１４０がその割り当てられたアプリケーションに対してすぐに利用可能になるように、ニューラルネットワークアーキテクチャ１４０を予め学習された重み行列で展開できる。追加的に、ニューラルネットワークアーキテクチャ１４０はまた、それが予め学習された重み行列で展開されたとしても、所望であれば追加的学習を実行できる。新しいオブジェクトが予期されない、または、予期されてもごく少数のオブジェクトしか予期されないある実施形態においては、重みの学習されたセットでのニューラルネットワークアーキテクチャ１４０は、その性能を加速するための如何なる学習（または適合）機構なしで直接格納および使用できる。代替的に、または追加的に、ニューラルネットワークアーキテクチャ１４０は、新しいオブジェクトを考慮するためにその重みを継続的に更新することを可能にできる。

【0070】

ある実施形態においては、１つ以上の演算装置１１０は、個人がネットワーク１９０を介して（例えば、ウェブブラウザアプリケーションによりインターネットを介して）コンピュータビジョンシステム１５０にアクセスすることを可能にできる。例えば、カメラ装置（例えば、演算装置１１０に直接統合でき、または、演算装置１１０とは別個の装置であってよい）が１つ以上の画像１３０を取り込んだ後に、個人は、１つ以上の画像１３０をネットワーク１９０を介してコンピュータビジョンシステム１５０に送信するために演算装置１１０を利用できる。コンピュータビジョンシステム１５０は、本開示において記述されている技術を使用して、１つ以上の画像１３０を解析できる。コンピュータビジョンシステム１５０により生成された解析情報１６０は、１つ以上の画像１３０を送信した演算装置１１０、および／または、他の演算装置１１０にネットワーク１９０を介して送信できる。

【0071】

図２において例示されているように、ニューラルネットワークアーキテクチャ１４０は、入力ノード２１０ａ～ｄの第１層（ここにおいては、一次層ノードとも称することができる）と、表現ノード２２０ａ～ｅの第２層（ここにおいては、識別ノード、表現ノード、または二次層ノードとも称することができる）を備えている、浅層二層ＡＮＮ２００（例えば、修正されたホップフィールドネットワーク）を含むことができる。入力ノード２１０ａ～ｄのそれぞれは、オールツーオール構成において表現ノード２２０ａ～ｅのそれぞれに接続できる。ある実施形態においては、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の初期フィードフォワード重みは、表現ノード２２０ａ～ｅの何れかの２つが同時にアクティブになる可能性を最小限にするために、入力データセットの分散構造に少なくとも部分的には基づいて選択できる。追加的に、表現ノード２２０ａ～ｅは、抑制的である反復接続を使用してオールツーオール構成において互いに接続できる。ニューラルネットワークアーキテクチャ１４０におけるバイアス接続性および側方向抑制は、ノードが個々のオブジェクト１３５を唯一的に識別する構造を符号化することを可能にする。画像１３０において埋め込まれているオブジェクト１３５のオブジェクト表現１６５の疎性は、表現ノード２２０ａ～ｅ間の抑制性反復接続のためである。これらの抑制性接続は、興奮性反復接続を含む従来のホップフィールドネットワークには存在しない。

【0072】

幾つかの実施形態においては、二層ＡＮＮ２００は、入力層ノード２１０ａ～ｄと表現層ノード２２０ａ～ｅとの間の接続性が、処理されている所与の入力画像に基づいて変化することが可能なように適合性を有するように構成できる。入力層ノード２１０ａ～ｄと表現層ノード２２０ａ～ｅとの間の接続のこの動的適合は、二層ＡＮＮ２００が、生成されるオブジェクト表現１６５を最適化することを可能にする。結果としてのオブジェクト表現１６５は疎であり、二層ＡＮＮ２００の個々の表現層ノード２２０ａ～ｅは相関性がなく、それにより、入力パターンの効率的な符号化に繋がる。更に、二層ＡＮＮ２００は、画像１３０におけるオブジェクト１３５から有益な構造を抽出できるので、結果としてのオブジェクト表現１６５は、劣化、破損、および遮蔽の種々の形状に対して強靭である。

【0073】

ある実施形態においては、任意の２つのノード間の重みは、局所学習ルールを使用して更新される。例えば、入力ノードと表現ノードとの間の接続は、両方のノードがアクティブなときに強めることができる。表現ノード２２０ａ～ｅの２つが同時にアクティブなときは、これらの２つのノードに対する入力接続は弱められ、抑制性重みは、表現ノード２２０ａ～ｅの２つが同じレベルの活動を有しているときに増大させることができる。入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続の強化は、局所ヘブ行動の例であり、一方、同時にアクティブな、表現ノード２２０ａ～ｅの任意の２つを弱めることは、局所非ヘブ行動の例である。

【0074】

これらの接続が強められ、または弱められる様子は、現実世界の生物学的認知プロセスを模倣するために、表現ノード２２０ａ～ｅにおいて局所学習ルールを使用して唯一的にモデル化できる。生物学的システムにおいては、ヘブ学習ルール（ｐ個のパターンをＮユニットを有するネットワークに格納するためには、パターンの記憶を確実にする重みは

【数1】

を使用して設定され、ここにおいてｘ^ｒ _ｉは、ｒ番目のパターンにおけるｉ番目のユニットの状態を示している）は一般的には、ニューロンが活性化され他のニューロンに接続されるときを特定し、これらの接続は弱く開始するが、接続は刺激が反復されるたびにますます強くなる。同様に、ここにおいて記述されているＡＮＮ２００においては、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続は、接続が形成されるときに強くなり、それにより、関連する特徴情報を取り込むことができる、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅにより抽出された特徴間の対応付けを確立する。追加的に、表現ノード２２０ａ～ｅの２つがコアクティブのときは、学習ルールは、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅのそれらの２つの間の接続の強度を削減できる。更に、初期化のときに、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続性は入力データセットの分散構造を考慮し、表現ノード２２０ａ～ｅの任意の２つが、任意の所与の入力に対して一緒に発火する可能性が低くなることを確実にする。ＡＮＮ２００の初期バイアスに対するこのアプローチは学習速度を高めることができる。

【0075】

ある実施形態においては、二層ＡＮＮ２００は、画像１３０に晒された後に画像１３０を迅速に表現できる。例えば、二層ＡＮＮ２００は、世界の言語からの符号の画像を含む入力の構造的特徴を精度よく取り込むことができ、符号に晒されることが１０回未満でも性能の学習プラトーに到達する。更に、二層ＡＮＮ２００は継続的学習が可能である。例えば、二層ＡＮＮ２００は、より早期の入力タイプをどのように表現したかを「忘却する」ことなく異なる入力タイプ（世界の言語からの符号などのような）を表現することを学習した後に、新しい入力タイプ（顔など）を表現することを学習できる。

【0076】

ある実施形態においては、ニューラルネットワークアーキテクチャ１４０に含まれている表現ノード２２０ａ～ｅの数は、認識が所望される画像１３０またはオブジェクト１３５の数に正比例することができる。そのような例においては、表現層２２０は、識別される画像１３０の数とほぼ同数のノードを含むことができる。幾つかの実施形態においては、入力層２１０から表現層２２０へのノード数の２倍、１０倍またはそれ以上の拡張があり得る。ニューラルネットワークアーキテクチャ１４０の多数の適用に対しては、各層におけるより多くのノードはより良好な結果を生み出す。ニューラルネットワークアーキテクチャ１４０を構成しているノードの総数には上限はない。ある実施形態においては、表現２２０または分類（下記により詳細に検討される）層において、入力層２１０よりも少ないノードであることが可能である。例えば、二層ＡＮＮ２００の入力層は１０，０００ノードを有することができ、表現層においてはおよび５００ノードである。二層ＡＮＮ２００の他の例においては、入力層２１０は１０，０００ノードを含むことができ、表現層２２０は１，０００ノードを含むことができる。

【0077】

【0078】

第２層における表現ノード２２０ａ～ｅの特質はモデル化でき、または、生物学的システムにおいて観測されるニューロンの特質に基づくことができる。例えば、生物学的ニューラルネットワークまたはそこにおけるニューロンから取り出される膜電位および発火率などのようなあるコンセプトは、ＡＮＮ２００におけるノードの属性を設定するために使用できる。（一次）入力層ノード２１０ａ～ｄと（二次）表現層ノード２２０ａ～ｅとの間の接続は、入力ノード２１０ａ～ｄの数と、表現層ノード２２０ａ～ｅの数（そして、そのため対称である必要はない）によって、接続行列の形状の接続行列により表現できる。一方、第２層における表現ノード２２０ａ～ｅの間の反復接続は、対象行列により記述できる。ある実施形態においては、表現層２２０におけるノードｉからノードｊへの接続強度は、ノードｊからノードｉへの接続強度と同じである。

【0079】

ノード間の接続強度は、静的または、時間の経過と共に適合することができる。例えば、ノードの特性は、ＡＮＮ２００が入力に遭遇するときに変化できる。ＡＮＮ２００があるタイプの入力に特に適合しないある実施形態においては、第２層における表現ノード２２０ａ～ｅの特性は、入力ノード２１０ａ～ｄへのそれらの接続のために生じる。従って、反復接続の強度は、一次ノード２１０ａ～ｅへの表現ノード２２０ａ～ｅ接続の類似度であることができる。表現ノード２２０ａ～ｅの２つが同様に一次層における入力ノード２１０ａ～ｄに同様に接続されている実施形態においては、任意の所与の入力はそれらを活性化し、それらの反復相互作用もまた類似する。

【0080】

ＡＮＮ２００は、幾つかの実施形態においては完全に動的であることができる。例えば、ＡＮＮ２００は、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続における変化を通してだけではなく、反復接続強度（表現ノード２２０ａ～ｅ間の）を更新することを通しても入力に適合できる。ある実施形態においては、ＡＮＮ２００は

【数2】

としてモデル化でき、ここにおいて

【数3】

であり、Ｗは、第２層の表現ノード２２０ａ～ｅに接続されている一次層における入力ノード２１０ａ～ｄ間の重みの行列であり、τはニューロンモデルのパラメータに関連する時定数であり、

【数4】

は第１層の活動であり、

【数5】

は膜電位のベクトルであり、

【数6】

は第２層におけるノードの発火率または表現パターンである。関数ｇは、膜電位を生物学的システムにおけるニューロンの発火率と関連させることができる。ある実施形態においては、膜電位は、既存のモデルにおいて見出される膜電位と同じであることができる。第２層Ｓの反復接続は、方程式Ｓ＝－（Ｗ^ＴＷ－Ｉ）により入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の重みに関連付けられる。

【0081】

ＡＮＮ２００におけるノードは、ある非線形行動を提示することができる。例えば、表現層におけるノード２２０ａ～ｅはある閾値を有することができ、ノードの値がその閾値未満のときはノードは非アクティブである（または「発火」していない）。この値は、それらの入力に適用されている重みを掛けた、ノードへの入力を合計することで決定できる。閾値に到達した後、ノードはその入力に線形に応答できる。ある実施形態においては、線形応答のこの領域は、例えば、ノード応答は活動のあるレベルで飽和するので制限され得る。ノードの行動は多数の方法でモデル化できる。ある実施形態においては、ＡＮＮ２００の表現ノード２２０ａ～ｅの行動は、ニューロンなどのような生物学的構造に基づいてモデル化される。これらのノードの行動は、生物学的状況から取り出されたあるパラメータ、つまり、膜電位、発火率などにより決定される。例えば、表現層２２０ａ～ｅにおけるノードは、「漏洩積分・発火」モデルを使用してモデル化できる。

【0082】

ある実施形態においては、ＡＮＮ２００の適合の適合度または品質は、入力と、表現ノード２２０ａ～ｅ調整特性と応答値から取得されるその再構成との間の差により測定できる。適合のこの適合度は

【数7】

としてモデル化でき、ここにおいてφはノードの調整特性の行列であり、Ｅは各更新で削減される。この項は、入力層２１０への入力と表現層２２０から導出された表現との間の不一致を測定するために使用できる。ある実施形態においては、この項は、疎且つ非負制約と組み合わされると、ＡＮＮ２００に対する学習ルールを導出することを支援できる（下記に、より詳細に記述されるように）。ノードが線形に行動する実施形態においては、調整特性における変化が、その接続性における変化に直接対応するように、つまり、ΔＷαΔφであるように、各ノードの活動はその入力の重み付けされた合計の関数である。

【0083】

ＡＮＮ２００の接続性は多数の方法で更新できる。例えば、ＡＮＮ２００の接続性は、下記の３つのステップ手順を使用して更新できる。第１に、接続性の各状態に対して、調整特性が決定される。第２に、エラーを削減する調整特性における変化が表現から計算され、そして最後に、それに比例する変化が接続性においてなされる。

【0084】

ＡＮＮ２００が異なる入力間を区別できないことは、その有効性を低下させ得る。ある実施形態においては、ＡＮＮ２００は、最も有益な構造に基づいて入力を表現し、入力の異なる形状に適合するように最適化でき、ＡＮＮ２００の初期重みは、それが入力した第１入力とは異なる入力間を区別することを達成するために設定できる。そうでなければ、ＡＮＮ２００は異なる入力間を区別できない可能性があり、欠陥のある適合プロセスに繋がり、選択的な適合のみという結果になり得る。

【0085】

ある実施形態においては、異なる入力は異なるノードを活性化し、異なる入力を同じ表現に対応付けることを回避するために、初期重みは、表現ノード２２０ａ～ｅの任意の２つが同じ入力により活性化される可能性を最小限にするように設定される。この制約は、ノードの応答プロファイルの分散共分散行列の期待値を単位行列、つまりＥ［ＶＶ^Ｔ］＝Ｉと設定することによりモデル化でき、ここにおいてＶは、異なる入力の表現の行列であり、Ｉは単位行列である。関数ｇによりＡＮＮ２００に与えられる非線形性が無視される実施形態においては、Ｖは入力行列と重み行列ＷによりＶ＝Ｗ^ＴＹと近似でき、ここにおいてＹは入力行列である。重み行列Ｗは、入力のセットに基づく早期ノード（Σ_ｙｙにより示される）の応答プロファイルの分散共分散行列に基づいて

【数8】

として計算でき、ここにおいてηは直交列を有する実数のＮ×Ｍ一般化行列、ΛはΣ_ｙｙの固有値の対角行列、そしてＱはΣ_ｙｙの直交固有ベクトルの行列である。Ｍは一次ノードの数であり、Ｎは表現ノードの数である。ある実施形態においては、ηはまずＮ×Ｎ対称行列を構築し（ＮがＭより大きいとき）、そしてその固有ベクトルを計算することにより作成される。そして、一般化行列は、固有ベクトルのＭを取ることにより作成できる。言い換えると、上記のように導出された接続性行列Ｗは、表現ノードの応答プロファイルの分散共分散行列と単位行列と一致させる。

【0086】

入力の完全な知識は要求されない。例えば、遭遇する可能性がより高い入力のサブサンプルはまた、ＡＮＮ２００の予期される入力が同じ表現と対応付けられないようにＡＮＮ２００を構成できる。ＮがＭ以上のある実施形態においては、ＡＮＮ２００は、ηが直交列を有することを確実にすることにより（言い換えれば、表現ノードの数が一次ノードの数よりも大きいときに）一般化できる。

【0087】

ＡＮＮ２００の一次層入力ノード２１０ａ～ｄと表現層表現ノード２２０ａ～ｅとの間の接続性が更新されるある実施形態においては、更新は

【数9】

を使用してφを最小化することを目標とする最適化問題として記述でき、ここにおいて

【数10】

はＡＮＮ２００への入力であり、

【数11】

はその対応する出力である。

【0088】

一次層入力ノード２１０ａ～ｄと表現層表現ノード２２０ａ～ｅとの間の接続性を更新するためのこの最適化問題は、勾配降下アプローチを採用することにより解決できる。このアプローチにおいては、関数の値は、その勾配に沿ってその変数を更新することにより反復的に削減される。言い換えると、すべての変数に対して、関数を更に削減する値を、変数に関して、関数の負の勾配に沿って移動することにより求める。最終的に、関数の最小値に到達する。勾配降下ステップは

【数12】

として公式化でき、ここにおいてαはステップサイズであり、

【数13】

である。

【0089】

【数14】

がゼロに近づく実施形態においては、Δφ_ｎはｎの任意の値に対してゼロに近づき、それは、勾配降下がないことを意味している。

【数15】

が１より大きい実施形態においては、Δφ_ｎはｎとの共振を開始する。

【数16】

が１に等しい実施形態においては、Δφ_ｎは０に等しく、φ_ｎ＝Δφ_０Ｍ（Λ^ｐ＝Λ^∀
ｐ）であり、ここにおいてＭ＝ＱΛＱ^Ｔであり、

【数17】

であり、ここにおいてＤは対角行列を表し、対角要素は列ベクトルにより引数として与えられる。更に、Ｍ^ｐ＝ＱΛ^ｐＱ^Ｔであり、ここにおいて

【数18】

である。これらの実施形態においても降下はない。

【0090】

【数19】

である実施形態においては

【数20】

が、ω^２ _ｐは、その値がｐに依存する有限の正の数である

【数21】

を意味すると仮定するときは、任意のｐ＞１に対して、

【数22】

は

【数23】

よりも速く降下する。

【数24】

が１に等しいように制約されている実施形態においては、

【数25】

であり、ここにおいてＣは（１－（１－α）^ｎ）に等しい定数である。そのため、勾配降下のｎステップの後は、φにおける変化は２つの成分を有し、加法成分はランク１行列

【数26】

により与えられ、減法成分はランク１行列

【数27】

により与えられる。行列

【数28】

はｙ_ｉとＶ_ｊが両方とも正であり、そしてそのときのみに、位置（ｉ，ｊ）において正のエントリを有する。そのため、この行列は、一次層における入力ノード２１０ａ～ｄの１つおよび表現層における表現ノード２２０ａ～ｅの１つが共に発火するときに接続を強化するヘブ更新ルールに対応する。同様に、行列

【数29】

はＶ_ｉとＶ_ｊが共に正であるときのみ正であることができる。

【0091】

しかし、この更新成分の前の負符号は、それを本質的に非ヘブとする。つまり、更新は、一次層における入力ノード２１０ａ～ｄと、表現層２２０における２つの同様にアクティブなノードとの間のすべての接続を削減する。言い換えると、表現ノード２２０ａ～ｅの２つが共に発火している場合、それらの入力は、それらが分離できるように削減される。全体として、接続性における更新は、一次層２１０と表現層２２０における同時に発火しているノード間の接続を強化するが、表現ノード２２０ａ～ｅの２つが同時に発火する可能性を削減する。このプロセスは、ＡＮＮ２００が、それに提示された複数の入力からの特徴に徐々に調整され得ることを可能にする。

【0092】

接続を、上記の方法で新しい入力に適合するために更新することは、以前に遭遇した入力へのＡＮＮ２００適合を妨害するある実施形態においては、ＡＮＮ２００は、そのような妨害の効果を最小限にするために、すべての以前の入力からの特徴の同時再学習を利用できる。

【0093】

ある実施形態においては、ＡＮＮ２００は、以前に遭遇した入力へのＡＮＮの適合の妨害の問題を解決するために、確率的勾配降下（ＳＧＤ）を使用できる。これは、勾配降下最適化の確率的近似である。この方法においては、すべての訓練データに対して目的関数を最適化する代わりに、ＡＮＮ２００は、データのランダムに選択されたサブセットのみに対して関数を最適化する。このアプローチをより良好に理解するために、任意の最適化問題に、目的関数の値が、各データポイントに対する損失の合計で表すことができる、つまり、

【数30】

である有限和問題としてアプローチできる。ここにおいてｆは目的関数であり、ｆ_ｉはｉ番目のデータポイントにおける損失であり、ｘは最適化変数である。そして、目的関数の勾配はこの有限和の勾配であり、すべての訓練データポイントに関して計算され

【数31】

である。ＳＧＤを使用して、降下の各ステップは、訓練データポイントのサブセットのみを使用して決定され、そのため、勾配は、この有限和の一部のみに基づいて

【数32】

として決定され、ここにおいて、Ｓ⊂［１，Ｎ］である。この方法は最適値には到達しないが、目的関数の最適値の非常に近く到達することができる。

【0094】

ある実施形態においては、ＡＮＮ２００は、それが最も有益な構造に基づいて入力の有限セットを効率的に表現することを学習するように、その接続性を更新するように設計されている。目的関数は、適合性の尺度として使用でき、最適化変数は、調整特性の行列として使用でき、訓練データポイントは、入力およびそれらの対応する表現の対として使用できる。単一の入力は、データポイントのサブセットであることができるので、ＳＧＤ法は、ＳＧＤは最適値には到達しないが、連続して提示されるすべての入力に対してＡＮＮ２００を訓練できる。ステップサイズは、ＳＧＤ法を使用するときは任意のサイズであることができる。ある実施形態においては、ＡＮＮ２００の所与の実現形態に対するステップサイズは、反復プロセスを通して決定できる。プロセスは、非常に小さいステップサイズを選択し、あるテスト入力データに対してＡＮＮ２００のシミュレーションを作動させることにより開始する。ＡＮＮ２００の重みが調整されると、ＡＮＮ２００の出力は、入力されたテストデータに対する最適出力と比較できる。ステップサイズの値は、ＡＮＮ２００の出力が入力と一致しなくなるまで上方に調整できる。しかし、データポイントのサブセットのみが勾配を推定する間に考慮されているので、ＳＧＤにおいてより大きい勾配ステップを取ることは、更新されたポイントを最適値から非常に遠くにしてしまう可能性がある。ある実施形態においては、小さなステップサイズのみが使用される。適合プロセスはまた、最小限のステップサイズまたは最小更新が必要となるように、適合を効果的にするために（接続性におけるより小さな更新は、適合されていない接続性と区別できない可能性がある）接続性を特別な強度に更新されることを要求できる。この問題に対処するために、接続性の更新はより小さなステップサイズで実行され、所望される適合レベルに到達するために同じ入力の複数の表現を利用する。更新のこれらの種類は現実的に実現でき、入力の頻度が適合プロセスにどのように影響したかを理解する方法を提供する。

【0095】

入力行列に含まれていない入力を表現できない（そして、入力の疎回復のために別個のアルゴリズムを使用すること要求する可能性がある）行列因子分解などのような、ある従来のアプローチとは異なり、ＡＮＮ２００は、これらのタスクの両者を実行できる（つまり、ＳＧＤを使用して疎回復問題を解決することと、一次層入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続性を更新すること）。ＡＮＮ２００は２つのモードにおいて機能できる。モード０においては、ＡＮＮ２００は、プライマリ２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続性と入力はＡＮＮ２００への引数として与えられるので、所望される表現を生成するために疎回復を実行できるだけである。モード０において機能するときは、接続性における更新は実行されない。モード１においては、ＡＮＮ２００は、疎回復と初期接続性との基底適合の両者を実行し、入力はＡＮＮ２００への引数として与えられる。モード１においては、ＡＮＮ２００はまた、入力の疎表現を生成でき、種々のノード間の接続は、学習を確実にするために、取得された表現および対応する入力を使用して更新される。モード１において動作するＡＮＮ２００は、データの初期セット（訓練セットデータなどのような）を非常に良好に表現することを学習できるが、ＡＮＮ２００はまた、初期（または訓練）データセットに含まれている画像と類似し、しかし同一ではない画像１３０に対しても良好に機能できる。ＡＮＮ２００は新しい画像１３０に適合でき、継続学習を採用できるので、画像１３０を、より疎におよびより強靭に表現できる。

【0096】

ここにおいて記述されているＡＮＮ２００は、視覚経路に沿う受容野特性の増大する複雑さを説明しようと試み、後になって畳み込みニューラルネットワークの基盤を形成した従来の階層アセンブリモデルとは異なる。これらの従来のモデルは、認知センターにおけるニューロンが正確なオブジェクト詳細を再現することを仮定している。しかし、正確なオブジェクト画像再構築は強靭な表現のために常に必要であるわけではなく、この深く根差した仮定は、オブジェクト認識をモデル化することにおいて不要な複雑さを生み出す。

【0097】

ここにおいて記述されているＡＮＮ２００は、自身の学習性能を評価するために再構築エラーを計算する必要がない。オブジェクト１３５とそれらのクラスを定義する依存性を取り込むことにより、ＡＮＮ２００は異なる条件にわたって、同じオブジェクト１３５の著しく一貫性のある表現を生成できる。サイズ、平行移動、および回転不変性は、ＡＮＮ２００が、オブジェクト１３５またはそのクラスを定義する特徴を、そうするように表面上は設計されることなく、自然に一緒にリンクすることができるということを示している。それは、入力信号の、識別および区別に適切な表現幾何学形状への非線形変換を可能にする。ＡＮＮ２００の１つの態様は、部分的には、その設計はインスピレーションによる生物学的システムを採用するという理由のために、破損した入力に対して不変応答を生成できるということである。感覚的刺激は、異なるオブジェクトのアイデンティティばかりでなく、その状況、頭脳の内部状態、および他の感覚運動性活動も反映する高次元神経活動を引き起こす。高次元応答は、オブジェクトに特有の、神経および環境変動性に擾乱されないで済む低次元多様体と対応付けることができる。

【0098】

従来のフレームワークとの比較におけるＡＮＮ２００の１つの顕著な特徴は、識別（または表現）層における入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の初期接続性は、入力データセットの分散構造を考慮し、表現ノード２２０ａ～ｅの任意の２つが任意の入力に対して一緒に発火する可能性がより低いことを確実にするということである。更に、学習プロセスは如何なる標識も利用せず、如何なる予め決定されている結果も要求しない。表現は、個々の画像に晒されることと共に進化するので、それは全体的に教師なしである。そのため、反復重みは、予め決定されている表現パターン間の相関構造を反映しない。注目すべきことであるが、学習ルールはすべて局所的であり、下記の

【数33】

のようにモデル化され、ここにおいて

【数34】

は入力ベクトルであり、

【数35】

は識別（または表現）層におけるその表現であり、φは識別（または表現）層における入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の接続性であり、αは学習率であり、ｗは反復抑制性重み行列である。更新は、ＡＮＮ２００が、再構築エラーまたはクレジット割り当てを使用することに頼ることなく包括的入力構造を学習することを可能にする。ある実施形態においては、学習ルールは、ＡＮＮ２００の重みを計算および調整するための行列演算と微分方程式の組み合わせを通して実現される。

【0099】

応答を推進するための活動の線形和と同時に、ＡＮＮ２００は、活動に依存する方法で接続強度を調整する。学習ルールの第１項

【数36】

は、１つ以上の入力ノード２１０ａ～ｄと表現層表現ノード２２０ａ～ｅの１つの両者がアクティブのときの接続強度の小さな増分である。この更新は、（入力における）特徴と、情報を取り込むための表現単位との関連付けを可能にする。第２項

【数37】

は、反復層における表現ノード２２０ａ～ｅの２つがコアクティブ（そして相互に抑制されている）ときに、入力層２１０ａ～ｄにおけるノードからこれらのノードへのすべての接続の強度は削減されることを示している。反復（第２または表現）層２２０における抑制性重みは、類似する入力に対応している表現ノード２２０ａ～ｅの任意の２つが強い相互抑制を有するようになっている。これらの更新は本質的には局所ヘブまたは非ヘブルールであり、接続更新は、ノードの活動により決定されるだけである。この構成、つまり、初期のバイアス接続性および局所学習ルールは、ＡＮＮ２００を、更新しない入力層からのランダム初期接続（例えば、他のモデルにおける畳み込み入力強度）を組み込んでいる既存のニューラルネットワークから区別する。更に、すべてのノードと接続におけるすべての活動は非負であり、生物学的ニューラルネットワークからの制約を反映している。

【0100】

ＡＮＮ２００は入力のノイズを除去し、入力からよりきれいな構造を抽出できる。ＡＮＮ２００の表現ノード２２０ａ～ｅの受容野は、ＡＮＮ２００に入力された顔に類似した構造を生成できるが（ランダムノイズと共に）、如何なる入力された顔に対しても特定的ではなかった。受容野は、最も高い空間周波数における平均パワーで測定されるように、訓練のすべてのレベルにおいて、入力された顔よりもノイズが非常に少ないことが可能である（平均パワーが高いほど、より高いノイズ含有量を示した）。

【0101】

ＡＮＮ２００は、純粋な経験から学習し、一貫性のある表現を生成する能力を有することができる。ＡＮＮ２００は、自身が経験したことがない入力パターンを一貫性を有して表現するように定義されている、有望な強靭性を達成できる。例えばＡＮＮ２００は、ガウスノイズにより、または遮蔽により破損された見えない画像を含む、訓練セットにはない顔画像を表現する能力を有している。ＡＮＮ２００は、新しい顔の疎且つ一貫性のある表現を生成できる。破損された入力の表現は、一貫性を有して表現されている広範囲の遮蔽を有する画像であっても、きれいな画像の表現とほぼ同一であることができる。ＡＮＮ２００の特異性は、すべてのノイズレベルと遮蔽による破損に対して高いことが可能である。

【0102】

画像の特定のセットで訓練されたＡＮＮ２００は、画像と一致する（表現、または第２層２２０における）受容野を迅速に学習する。例えば、世界の言語からの符号を使用して訓練されたＡＮＮ２００においては、受容野と符号との間の類似度は、ＡＮＮ２００が同じ文字に繰り返し遭遇するにつれて迅速に増大する。符号表現の特異性は更に速く増大し、１０回未満の遭遇で学習プラトーに到達する。そのため、ＡＮＮ２００は、入力について最大に有益である構造的特徴を効果的に取り込む。

【0103】

ＡＮＮ２００は、自身の以前の識別能力を損なうことなく、新しい入力タイプを表現することを学習できる。例えば、ＡＮＮ２００は、符号の固定のセットを表現し、それに引き続いて顔を学習するように訓練できる。文字の後に顔を学習することは、ノードのサブセットの受容野特性を変える可能性があるが、ＡＮＮ２００に対しては、顔などのような異なる入力を学習する前と後の符号表現の特異性は、比較的高く留まっていた。ＡＮＮ２００はまた、顔表現の高い特異性を維持できる（または、その逆）。言い換えると、ＡＮＮ２００は、多数の他のニューラルネットワークモデルが遭遇する破局的忘却問題を回避する。ＡＮＮ２００は、画素の異なる部分が反転しているような、破損された符号の画像１３０から学習できる。

【0104】

ＡＮＮ２００は、その一次層２１０およびその表現層２２０において任意の数のノードを有することができる。例えば、ＡＮＮ２００は、２５６個の一次ノードと５００個の表現ノードを有することができる。

【0105】

ある実施形態においては、ＡＮＮ２００は、適合の前に入力を首尾よく区別できるように構築される。ＡＮＮ２００は、適合の前に入力を区別するために多数の方法で構築できる。例えば、ＡＮＮ２００は、一次層入力ノード２１０ａ～ｄと、二次層の表現ノード２２０ａ～ｅとの間の接続強度が、０と１の間の値として選択された非負の一様な接続性を使用できる。非負の一様な接続性では、接続強度が任意の値を達成する確率は同じであり、つまり、接続重みは、（０，１）上の一様分布から導出される。重みは、任意の表現ノードに対応する重みベクトルの長さが１となるように正規化できる。

【0106】

ＡＮＮ２００はまた、重みが、平均が０、標準偏差が１である正規分布から導出される、正規分布接続性を使用して構築できる。重みはまた、長さ１を有するように正規化できる。

【0107】

ＡＮＮ２００はまた、この場合もまた、重みが長さ１を有するように正規化される非相関接続性で構築できる。非相関は、入力の分散共分散行列の固有ベクトルに基づくことができる。ある実施形態においては、これらのベクトルに沿う入力空間の分散は、１５０次元の後は飽和するので、１５０個の固有ベクトルのみが入力空間の有効次元として利用された。しかし、固有ベクトルの他の数を、入力の分散共分散行列を作成するために使用できる。

【0108】

相関および単位行列間の差のフロベニウスノルムは計算でき、この２つの行列間の差を測定するために使用できる。より低いフロベニウスノルムは、より良好な非相関を示している。ある実施形態においては、相関行列と単位行列との間の差のフロベニウスノルムは、接続性の非相関モデルに対して最も低く、それがノードを最も非相関にできたことを示している。ＡＮＮ２００への入力が５００個の画像１３０を備えているときは、各画像１３０は、５００個の表現ノードのそれぞれに対応することができ、各画像における画素のそれぞれは、一次ノードのそれぞれに対応している。

【0109】

ＡＮＮ２００は、任意の数の画像の入力セットに適合できる。例えば、ＡＮＮ２００は、５００、８００、または１，０００個の入力を含んでいる入力セットに適合できる。各入力は、連続して（ランダムに選択されたそれらの表現の順に）１度に１つ提示される入力との適合（例えば、ＳＧＤを使用して）を可能にするために反復的に（例えば、最大１００回まで）提示できる。変化は初期非相関接続性に関して計算でき、表現ノード２２０ａ～ｅの特別なノードが、一次層ノード２１０ａ～ｄにどの程度強く接続されているかを表現できる。（表現ノード２２０ａ～ｅの）表現ノードに強く接続されている入力ノード（入力ノード２１０ａ～ｄの１つ）は、その表現ノードにおいて最大の応答を引き出すので、これらの接続は、表現ノード２２０ａ～ｅの調整特性を反映できる。ある実施形態においては、異なる表現ノード２２０ａ～ｅは、入力とは異なる構造に調整される。異なる状態にわたる異なるノードに対する接続性の変化のコサイン類似度の分布は、接続性類似度が、符号に反復的に遭遇した間に維持されたかどうかを決定するために使用できる。持続された類似度レベルは、ノード調整の識別性は変化しないままであったことを示している。これらの類似度レベルは、特別な状態における全体的な接続性変化を測定できるが、接続性が異なる状態にわたり個々のノードに対してどのように変化したかについての情報は提供しない。

【0110】

ある実施形態においては、ＡＮＮ２００の接続性構造は、個々のノードに対しては変化せず、ノードへの接続性の類似度は状態にわたってわずかに増大し、そして飽和し、それは、個々の表現ノード２２０ａ～ｅへの接続は、入力に反復的に遭遇するにつれてわずかに変化し、ある数の遭遇の後に安定状態に到達したことを示している。これは、ノードの接続性におけるそのような安定状態の達成が最終的にどのように飽和に到達するかを示すことができる。これは、ＡＮＮ２００のある実施形態においては、任意の入力の最初の少数の遭遇のみが接続性の構造を変え、入力の表現は、ＡＮＮ２００の直接の経験に基づいて変化し、その後、飽和することを示唆している。この飽和は、ＡＮＮ２００のフレームワークと、入力の表現が、直接の遭遇だけではなく、それらの全体の統計値に依存する古典的効率符号化パラダイムとの間の重要な差を強調している。

【0111】

ある実施形態に対しては、低い平均類似度（＜０．５）が観測され、異なるノードの接続が異なるように変化したことを示している。平均類似度は、一貫して小さいままであり、状態と共にわずかに減少した。

【0112】

ＡＮＮ２００が入力に遭遇する回数が増大するにつれ、ＡＮＮ２００により出力される構造は、入力の構造により類似してくる。ある実施形態においては、ＡＮＮ２００は、同じ入力に反復的に遭遇することにより入力から包括的で固有の構造を首尾よく識別する。しかし、別個の入力の数が増加すると共に、表現ノード２２０ａ～ｅは、より局在化された構造に調整される。

【0113】

接続性における変化とＡＮＮ２００への入力との間のコサイン類似度は、異なる段階において測定できる。ある実施形態においては、類似度はネットワークの状態と共に増大したが、入力の数が増加するにつれて減少した。

【0114】

ある実施形態においては、ＡＮＮ２００の表現は、入力との遭遇が多くなるほど、より疎になる。更に、入力の数が増大するにつれ、ＡＮＮ２００の応答は、より少ない数のノードに限定される。表現効率は、多様な数の入力に適合する間に起こる変化を強調するための３つの方法で定量化できる（応答プロファイルの相関、尖度、および疎性）。これらの測定値は、異なる入力数にわたってと共に、ＡＮＮ２００の異なる状態にわたって測定できる。ある実施形態おいては、ＡＮＮ２００がより多くの入力を経験すると、表現ノード２２０ａ～ｅ応答はますます非ガウス的になる。入力表現の数を増大することは、ノード応答プロファイルの尖度を増大させることもできる。入力の経験とサンプリングの両者は、ＡＮＮ２００の表現効率を増大させることができる。表現ノード２２０ａ～ｅ間の相関はまた、新しい入力との遭遇と共に、入力の同じセットとのより多くの遭遇で（相関と単位行列の差の、より小さなフロベニウスノルムにより、およびＬ０とＬ１の疎性の測定値により示されているように）減少することができる。ＡＮＮ２００の応答は、入力数と共に、適合状態でより疎となることができる。ノード応答プロファイル尖度の計算は、表現の疎性の観点における効率を評価できる。ノード応答プロファイル尖度は、入力数と共に、ＡＮＮ２００ネットワーク状態で増大した。ノード間の相関は測定でき、相関と単位行列との間の差のフロベニウスノルムは計算できる。ノルムはまた、状態と入力数と共に減少することができ、これは非相関傾向を示している。表現の疎性はまた、ある実施形態に従って、ＡＮＮ２００に対する類似の傾向を示すことができる。Ｌ０とＬ１の疎性測定値の両者は、入力数にわたってレベルを維持しながら、ＡＮＮ２００ネットワーク状態と共に減少することができる。ある実施形態に従うＡＮＮ２００の性能は、表現における効率が入力の増大と共に降下する、行列因子分解などのような既知のアプローチを通して取得されたものを上回る。

【0115】

ＡＮＮ２００は、すべてのタイプの破損にわたり、異なるネットワーク状態において一貫性のある表現を生成できる。例えば、破損形状における５つの異なる入力を経験すると、表現は、破損の異なる形状にわたり、およびＡＮＮ２００の異なる状態にわたり一貫性がある。破損の異なる形状に対する表現の特異性は、破損していない入力と破損した入力の表現間のｚスコアコサイン類似度を使用して計算できる。特異性は、実践と共に、つまり、破損のすべての形状に対してより多い回数だけ入力に遭遇した後にわずかに増大することができる（ネットワークの１００番目の状態におけるわずかな増大で、表現の高い特異性が観測されている）。１００番目の状態におけるＡＮＮ２００の表現は、５０番目の状態におけるＡＮＮ２００の表現よりもより疎であることができる。特異性は、破損、遮蔽、またはノイズの追加のレベルが増加するにつれて減少し得る。ある実施形態においては、表現の一貫性は、ＡＮＮ２００の表現ノード２２０ａ～ｅが、入力からの固有の特徴に調整されることでより特定的になるにつれて増大した。ＡＮＮ２００は、効率的であるために入力空間の統計値の全体を知る必要はなく、多様な状況において入力の一貫性ある表現を生成できる。

【0116】

ＡＮＮ２００は、入力の種々の変形例を見ると、その入力を同様に一般化できる。（画素の１０％～２０％が変化している入力などのような）破損した入力を経験すると、ＡＮＮ２００における接続性の変化は、破損していない符号への適合の場合のように、破損していない入力に非常に類似し得る。類似度は入力によって変動し得るが、ＡＮＮ２００への任意の入力で観測された最大類似度は高い。ＡＮＮ２００は、このように機能することが示されている複雑な深層または畳み込みニューラルネットワークに類似して、入力変種にわたり存在していた一貫性を見出すことができ、それに適合できる。しかし、ＡＮＮ２００の実施形態（２層のみで、８００個の例から学習する実施形態を含む）とは異なり、これらの他のネットワークは非常に複雑で、複数の層を含み、多数の例を要求する。

【0117】

図３は、ある実施形態に従う、ＡＮＮ２００に対する表現層において、入力シーケンスにおける入力がどのように調整されるかを例示している図である。一連の符号画像３１０ａ～ｃは、ＡＮＮ２００の入力層入力ノード２１０ａ～ｄに遅延することなく順次入力できる。ＡＮＮ２００は、一連の符号画像３１０ａ～ｃにおける各符号を学習し、表現ノード２２０ａ～ｅの出力から符号を再構築できる。符号画像３１０ａ～ｃのそれぞれのＡＮＮ２００への入力の間に、入力ノード２１０ａ～ｄと表現ノード２２０ａ～ｅとの間の重み、または、表現ノード２２０ａ～ｅ間の重み、またはその両者を更新できる。ＡＮＮ２００は破局的忘却を経験しない。そのため、一連の３１０ａ～ｃにおける各符号が入力されるときに、ＡＮＮ２００はその特質を取り込み、グリッド３２０ａ～ｃのシーケンス上に表現されているようにそれらを記憶する。各符号が、グリッド３２０ａ～ｃの自身の正方形を占めるという事実は、ＡＮＮ２００はそれらを忘れず順次学習できるということを例示している。符号グリッド３３０は、表現の学習された調整特性のサブセットを表現している。符号グリッド３３０は、入力された符号３１０の最も有益な成分がＡＮＮ２００により取り込まれるということを示している。

【0118】

図４は、ある実施形態に従う、ＡＮＮ２００に対する表現層２２０により、入力シーケンスに含まれている破損した入力がどのように学習され得るかを例示している図である。一連の破損した符号形状４１０は、例えば、（画素の１０％または２０％などのような）画素のあるパーセンテージをランダムに反転することにより生成でき、ＡＮＮ２００の入力ノード２１０ａ～ｄに入力される。一連の破損した符号形状４１０は、各符号の約１００個の異なる破損形状を含むことができる。ＡＮＮ２００により学習された調整特性４２０は、入力された符号形状４１０のきれいなバージョンである。

【0119】

図５は、ある実施形態に従う、多様な画像が入力されたオブジェクトの特質が、ＡＮＮ２００の出力においてどのように取り込まれるかを例示している図である。異なるオブジェクト３Ｄモデルが、異なるオブジェクト画像（ここでは、人間の顔オブジェクト５１０の例で示されている）を生成するためにｘおよびｙ方向において回転された。すべてのオブジェクトからの画像のサブセット５２０を選択でき、ＡＮＮ２００に提示できる。サンプル調整特性５３０はＡＮＮ２００により学習でき、単一画像および複数画像の重ね合わせを含むことができる。この例においては、入力された画像５２０へのＡＮＮ２００の応答から、２つのセルのグループ５４０が出現している。１つのセルのグループ５４０ａは、オブジェクトのアイデンティティに対して特定的であり、一方、他のセルのグループ５４０ｂは、回転の方向と角度に対して特定的である。セル５４０ａと５４０ｂの出力は、図５Ｃにおける出力グリッドの列において示されているように、オブジェクトとその回転を識別するために使用できる。

【0120】

図６は、ある実施形態に従う、分類層に接続されている二層ＡＮＮを備えている分類ネットワーク６００の図である。分類ネットワーク６００の最初の２つの層は、上記の二層ＡＮＮ２００の二層と同じように機能する。分類ネットワーク６００は、入力ノード６１０ａ～ｄ（または第１層ノード）の第１層、識別ノード６２０ａ～ｅ（または表現または第２層ノード）の第２層、および、分類ノード６３０ａ～ｅ（または、第３層ノード）の第３層を備えている。分類層におけるノード６３０ａ～ｅは、識別層（ノード６２０ａ～ｅ）における単一ノードからの直接興奮性入力を受信でき、一方では、入力層（入力ノード６１０ａ～ｄ）におけるノードからの興奮性入力のミラーリングを行うフィードフォワード抑制も並行して受信できる。分類層６３０ａ～ｅにおけるノードはまた、反復興奮性接続を有することができ、分類層６３０ａ～ｅにおけるすべてのノードに課せられる包括的な抑制性信号６４０を受信できる（これは、この層における擬似および／または暴走活動を制限することを支援する）。

【0121】

ある実施形態においては、包括的抑制６４０は定数である。包括的抑制６４０の値は、分類層のノード６３０ａ～ｅにおける暴走行動を防止できる任意の値であることができる。例えば、包括的抑制６４０は、１０などのような定数であることができる。この値は、分類ノード６３０ａ～ｅへの予期される入力に基づいて設定できる。識別層６２０におけるノードのそれぞれと、分類層６３０におけるその対応するノードとの間の興奮性接続は、１などのような定数であることができる。入力ノード６１０ａ～ｄにおけるノードと分類ノード６３０ａ～ｅにおけるノードとの間の接続に対する抑制性重みもまた定数であることができる。

【0122】

ある実施形態においては、識別層６２０ａ～ｅにおけるノード数は、分類層６３０ａ～ｅにおけるノード数と等しいことが可能である。識別ノード６２０よりも分類ノード６３０が少ない実施形態においては、各層におけるノードは、各層におけるノードをグループ化し、それらのノードを他の層におけるノードのグループと関連させることにより互いに関連付けることができる。例えば、分類層６３０よりも、識別層６２０において２倍のノードがある分類ネットワーク６００においては、分類ノード６３０における各ノードは、識別層６２０における２つのノードに接続できる。

【0123】

分類ネットワーク６００における学習はまた、局所学習ルールに基づくことができる。最初の２つの層（入力層６１０ａ～ｄと識別層６２０ａ～ｅ）に対する学習は、二層ＡＮＮ２００に関して上述した技術と同じ技術を使用して達成できる。第３層（分類層６３０ａ～ｅ）におけるノードは、識別層６２０ａ～ｅにおけるノードと分類層６３０ａ～ｅにおけるノードが同時にアクティブなときに、または、分類ノード６３０ａ～ｅにおける２つのノードが同時にアクティブなときに増強される。ある実施形態においては、分類層６３０ａ～ｅにおけるノードと入力ノード６１０ａ～ｄとの間の重みと、包括的抑制からの重みは変化しない。

【0124】

ある実施形態においては、分類ネットワーク６００は、個々のノード（ニューロン）は、別個のオブジェクトに関する最大情報を取り込むべきであることを規定する最大依存取り込み（ＭＤＣ）の原理を使用して設計されている。この目標を達成するために、分類ネットワーク６００は、その初期応答におけるオブジェクトを区別できるように設計されている。これを達成するために、入力層入力ノード６１０ａ～ｄと識別層ノード６２０ａ～ｅとの間の重みは、別個の入力が特定の学習なしに本質的に異なる応答を引き出すことを可能にするために較正される。ある実施形態においては、接続性における初期バイアスは、分類ノード６３０ａ～ｅの任意の２つを同時に共に活性化する可能性を最小限にするために設定され、それにより、種々の入力に対する分類ネットワーク６００の初期応答における区別を最大化する。例えば、接続性行列φは、入力層６１０ａ～ｄの各ノードと、識別層６２０ａ～ｅの各ノードとの間の重みの行列であるが、表現層におけるノードの応答プロファイルの分散共分散行列が単位行列と一致するように設定できる。

【0125】

ある実施形態においては、識別層６２０ａ～ｅにおけるノードは、閾値化による漏洩積分および発火ニューロンとしてモデル化できる。例えば、識別層６２０ａ～ｅにおけるノードは、方程式

【数38】

に基づく動的応答を有することができ、ここにおいて

【数39】

は識別層におけるノードに対する応答ベクトルであり、

【数40】

は層への入力ベクトルであり、演算子Ｔ（．）は、閾値化活動である

【数41】

を生じさせる閾値化関数（ＲｅＬＵ）である。

【0126】

分類層６３０ａ～ｅにおけるノードの動的応答は、２つの主要な違いがあるが、識別層６２０ａ～ｅにおけるノードと同じように機能できる。分類層における各ノード（分類ノード６３０ａ～ｅのそれぞれ）への入力は２つの成分、つまり、識別層６２０ａ～ｅにおけるノードからの興奮性入力と、入力層入力ノード６１０ａ～ｄからの抑制性入力（入力ノード６１０ａ～ｄの単一のノードからの、または、入力ノード６１０ａ～ｄのある組み合わせからの重み付けされた抑制性入力であることができる）を有する。更に、抑制性反復接続行列ｗは、ｗ^{ｃｌａｓｓ} ^{ｉｎｈｉｂ}からｗ^{ｃｌａｓｓ} ^{ｅｘｃｉｔ}を減じたものに等しい分類層ｗ^{ｃｌａｓｓ}における反復接続行列に変えられる。分類層６３０ａ～ｅに対する有効層ダイナミックスは、方程式

【数42】

によりモデル化できる。ここで

【数43】

は識別層におけるノードからの信号であり、

【数44】

は入力層６１０ａ～ｄにおけるノードからの信号である。

【0127】

分類ネットワーク６００は、方程式

【数45】

を最適化するために、入力層６１０ａ～ｄにおけるノードからの接続を更新でき、ここにおいて、

【数46】

は入力ベクトルであり、

【数47】

は識別層６２０ａ～ｅにおける表現ベクトルであり、φは入力層６１０ａ～ｄにおけるノードと識別層６２０ａ～ｅにおけるノードとの間の重みの行列である。この関数に対する接続性における更新は、

【数48】

として記述でき、ここにおいてαは学習率である。識別層６２０ａ～ｅにおける反復抑制性重みｗは、方程式ｗ＝（φ＋Δφ）^Ｔ（φ＋Δφ）を使用して設定できる。ある実施形態においては、反復重みを計算する前のφの正規化はない。

【0128】

分類ネットワーク６００においては、識別層６２０ａ～ｅにおけるノードと分類層６３０ａ～ｅにおけるノードとの間の重みは、関連する２つのノードの活動に基づいて更新できる。分類層６３０ａ～ｅ内のノード間の反復興奮性接続は初期に０に設定できるが、この層におけるノードすべては包括的抑制を受ける。そして重みは、分類ノード６３０ａ～ｅの任意のペア間の増強効果の合計に基づいて更新できる。例えば、２つのノードが共にコアクティブのときは、それらの接続に対する増強効果は増加する。代替的に、２つのノードの１つのみがある設定された時間においてアクティブのときは、それらの接続の増強効果は減少する。最終的に、両方のノードがある時間において非アクティブのままであるときは、それらの接続に対する増強効果は変わらない。分類ノード６３０ａ～ｅの任意の２つのノードｉとｊの間の増強効果における変化Δｐ_ｉｊは、ｉ＝１およびｊ＝１のときはΔｐ_ｉｊ＝１、ｉ＝１およびｊ＝０、またはｉ＝０およびｊ＝１のときはΔｐ_ｉｊ＝－１、そしてｉ＝０およびｊ＝０のときはΔｐ_ｉｊ＝０として表現できる。分類層（分類ノード６３０ａ～ｅ）における任意の２つのノード間の接続重みは、任意の数の入力に遭遇した後のすべての増強効果の合計が予め設定された閾値に到達する場合は１に設定される。他のすべての重みは０のままである。すべての可能な接続の増強効果値はゼロにリセットされ、それらを更新するプロセスが再開する。重みのこの更新を表現する他の方法は、方程式

【数49】

によるものである。

【0129】

分類ネットワーク６００の表現関数は、オブジェクト１３５間の差を最大化し、それらを区別して表現する。分類のために、分類ネットワーク６００は、異なる視点でオブジェクト１３５を識別する共有された特徴、またはクラスを取り込むことができる。分類ネットワーク６００においては、同じタイプのオブジェクト１３５の特徴を区別することは、相互興奮を使用して共にリンクすることができ、抑制を使用して他のカテゴリの類似の特徴から判別される。脊椎動物の脳においては、反復興奮と広い抑制が感覚皮質の上層において広く行き渡っている。分類ネットワーク６００の設計は、これらの回路モチーフ（特徴的部分構造）をシミュレートし、分類のための演算を実行するために、反復層、分類層６３０（第３層）を追加することによりこれらの生物学的システムからインスピレーションを引き出す。この層におけるノードは、識別層６２０（第２層）から、列状の、１対１の方式で直接興奮性入力を受信する。並行して、それらのノードは、入力層６１０からの興奮性入力のミラーリングを行うフィードフォワード抑制を受信する。分類層６３０におけるノードはまた、互いの間の反復興奮性接続を有することができ、この層のすべてのノードに課せられる包括的抑制を受ける。分類ノード６３０ａ～ｅと識別ノード６２０ａ～ｅとの間の接続もまたは適合的であることができる。例えば、学習ルールは、２つの興奮性ノードが共にアクティブのときは、接続はそれらのノード間で（識別から分類へ、および分類ニューロンまたはノード間において）強固になるということである。抑制性ニューロン（またはノード）への、またはそこからの接続に対する重みの変化はない。

【0130】

分類ネットワーク６００のこのアーキテクチャ構成は、オブジェクト１３５からクラス特有の特徴を取り込むことを可能にする。まず、分類層６３０におけるノードは、識別層６２０から興奮性入力を受信し、入力層６１０から中継されたフィードフォワード抑制を受信する。この組み合わせは、分類層６３０に識別層６２０において学習された特徴を通知するために、更新された興奮性出力と、更新されていない抑制出力との間の差を伝える。そして、分類ノード６３０ａ～ｅ間の側方興奮性接続は、クラス情報を提供する相関付けられている特徴をリンクする。最終的に、包括的抑制６４０は、十分な興奮性入力を受信するノードのみが、擬似および／または暴走活動を削減するためにアクティブであることが可能なことを確実にする。結果は、相互興奮を有する分類ノード６３０ａ～ｅの何れもが、クラス特有の特徴に対するアトラクタ様活動を表示する。

【0131】

分類ネットワーク６００の分類能力は従来のアプローチを上回る。例えば、ＭＮＩＳＴ手書き数字データセットにおいてオブジェクトを分類するときに、標識付けされていないサンプルの２５％のみによる訓練では、識別層６２０における数字と類似する、分類ネットワーク６００の受容野という結果になる。更に、分類ネットワーク６００の分類層６３０における集団活動は、同じ数字タイプに対して高い一致を提示するが、異なるクラス間の区別は維持している。分類ネットワーク６００は、各グループの最も一貫性のあるアクティブノードからのプールされたノードを使用するときは、数字タイプの９４％を正確に識別できる。一方、最も洗練された既存のネットワークモデルは現在、８５～９９％の精度を達成するが、それらはすべて、何等かの形状の教師を必要とする。例えば、自己教師ありネットワークは、初期の訓練において数字の標識を要求する。

【0132】

生物学的脳と同様に、分類ネットワーク６００は、個々の符号、顔、および手書き数字を認識および分類することにおいて、これらのタスクのために明示的に設計されなくても強靭である。具体的には、その識別層６２０において、分類ネットワーク６００は、オブジェクト１３５を唯一的に識別する特徴を識別でき、分類層６３０において、クラス特有のノード全体を形成するためにそれらの特徴をリンクできる。この最後の特徴は、分類ネットワーク６００が、サイズ、位置、および視点が多様な画像から三次元オブジェクト１３５を識別することを可能にする。オブジェクトのアイデンティティを抽出するために種々の画像を関連付ける問題は特に難しい。種々の他のニューラルネットワークモデルは、良好な性能を達成するために、深層畳み込み層と相当な教師を有する高度に洗練されたアルゴリズムを要求する。しかし、分類ネットワーク６００に対しては、同じオブジェクトの異なる画像は、共有された特徴を有する画像クラスを形成し、それは、分類ネットワーク６００が、そうするように表面上は設計されることなく、画像クラスの共有された特徴を取り込むことを可能にする。言い換えれば、分類ネットワーク６００は、サイズ、位置、および視点が多様な三次元オブジェクト１３５を一貫性を有して表現することを学習できる。

【0133】

分類ネットワーク６００は、種々のサイズおよび位置からのオブジェクト１３５を識別できる。例えば、ランダムなクリップ（フィルムの一部）は部分的に重なる可能性があるが、全体のアニメーションシーケンスの合計３３％未満しかカバーされていない、種々の位置およびサイズからのオブジェクト１３５の連続動画フレームの幾つかの短いクリップを経験した後は、分類ネットワーク６００は、入力における特定の画像および異なるオブジェクト１３５の重なりを学習できる。全体のアニメーションシーケンス（その多くを分類ネットワーク６００は経験していない、つまり、すべての画像の６７％未満しか経験していない）を解析するときに、異なるフレームの表現は識別層６２０において区別され、ノードは、分類層６３０において、アニメーションの大部分に対して（すべてのオブジェクト１３５に対して）持続的にアクティブである。アクティブノード全体は、オブジェクト１３５の間の幾つかの間の類似度が高かったときでさえ、個々のオブジェクト１３５に対して特定的である。分類ネットワーク６００に対しては、表現ドメインにおいては、同じオブジェクトの画像間の全体の類似度は、別個のオブジェクトの画像間の類似度よりも相当に高い。

【0134】

三次元回転に対して不変な表現を生成することは、既存のシステムにとっては難しいタスクである。しかし、分類ネットワーク６００に対しては、垂直軸に沿う回転の短いクリップでの分類ネットワーク６００の訓練を伴う三次元回転シーケンスのアニメーションが提示されるときに、分類ノード６３０ａ～ｅは、表現角度に無関係に、同じオブジェクト１３５に対して一貫性のある応答を示すことができる。これは、非常に不規則な形状のモデルに対しても同様である。例えば、４脚の動物の入力に関して、表現における変動は、類似の視点において起こり、それらの共通の特徴を反映していた。全体として、同じオブジェクトの異なる視点間の類似度は高いが、分類ネットワーク６００に対しては、異なるオブジェクト間の類似度は低い。従って、分類ネットワーク６００は、すべての可能な角度の３分の１未満しか経験していないときでも、不変のアイデンティティ表現を生成できる。更に、分類ネットワーク６００は、不変表現に対する能力を有しており、オブジェクト１３５を一貫性を有して表現するために、すべての可能な変形例に遭遇する必要はない。

【0135】

オブジェクト１３５のアイデンティティは、その特徴間の構造的関係において埋め込まれる。これらの関係、または依存性は、オブジェクトのアイデンティティを符号化するために利用できる。分類ネットワーク６００は、入力パターンの正確な詳細を要求することなくオブジェクト１３５の存在を識別するためにそれらの依存性を最大限取り込む。ここで、分類ネットワーク６００の特定的構成は、不変表現を可能にするための依存性取り込みを可能にする。この設計は、視覚経路に沿う受容野特性の増大する複雑さを説明し、後日、畳み込みニューラルネットワークの基盤を形成した階層的アセンブリモデルとは区別される。これらのモデルは、認知センターにおけるニューロンが正確なオブジェクト詳細を再現することを仮定している。しかし、正確なオブジェクト画像の再構築は強靭な表現には必要なく、この深く根差した仮定は、オブジェクト認識をモデル化することにおいて望ましくない複雑さを生み出す可能性がある。分類ネットワーク６００は、自身の学習性能を評価するために再構築エラーを計算しない。オブジェクト１３５およびそれらのクラスを定義する依存性を取り込むことにより、異なる条件にわたり、同じオブジェクト１３５の著しく一貫性のある表現を生成できる。サイズ、平行移動、および回転不変性は、分類ネットワーク６００が、そうするように表面上は設計されることなく、オブジェクトまたはそのクラスを共に定義する特徴を自然にリンクできることを示している。それは、入力信号の、識別および区別のために適している表現幾学的形状への非線形変換を可能にできる。

【0136】

分類ネットワーク６００は、個々のシナプスにおける局所的且つ連続的変化を通して、依存性取り込みがオブジェクト１３５についてどのように学習でき、それらを安定して表現できる（生物学的システムに類似した方法で）かを例示できる。２つの回路アーキテクチャは、既知の接続性パターンに基づいている。両者の設計は、オブジェクト１３５とクラスを定義する特徴依存性を取り込むが、それらの接続は異なり、異なる機能を提供する。識別層６２０は、個々の表現を可能な限り区別的にする。分類層６３０は、異なるオブジェクトタイプを強調および区別するためにクラス特有の特徴を結合する。この２本柱の表現は、入力空間における距離とは線形には関連しない知覚距離を生み出すことができる。

【0137】

既知のネットワークは、それらの最終層における表現の投影間の改良された分離を示すが、生物学的システムの感覚処理の早期に観測される投影矯正を再現できない。分類ネットワーク６００における集団応答の如何なる多様体構造でも、三次元オブジェクトを回転するために、入力層６１０における低次元多様体はギザギザであり、占有された畳み込まれたサブ空間である。幾何学形状は識別層６２０においてより組織化され、幾つかの例としてのオブジェクトは、湾曲した、またはギザギザを有する空間を占有している。ほぼすべてのサンプルは、分類層６３０における矯正されたハイパープレーン上に投影され、ノードによるそれられの不変表現と一貫性がある。多様体矯正を示しているより低い曲率では、オブジェクト１３５における変形例のすべての形状に対して観測された相当な線形化、および、多様体を矯正するために分類ネットワーク６００により実行された変換は、知覚不変性と強靭性を可能にする。この行動は、多様体の幾何学形状は、複数の感覚処理段階に沿ってより分離可能となり、生物学的システムにおける不変表現を可能にするために後のステップで矯正されるということを提案する最近の理論と一致している。

【0138】

表現の特異性は、入力の表現がどれほど特定的であるかを評価する。特異性を推定するために、すべてのオブジェクトのすべての表現間のペアワイズ類似度が、類似度行列Ｓを取得するために計算される。そして、すべての他の表現に対する入力表現の類似度のｚスコアが計算される。言い換えると、

【数50】

であり、ここにおいて、ｍｅａｎ（Ｓ，ｄｉｍｓ＝１）とｓｔｄ（Ｓ，ｄｉｍｓ＝１）は行列Ｓの行における平均と標準偏差を示しており、ドット演算（．）は、エレメントワイズ計算を示している。入力表現の特異性は、自身とのｚスコア類似度、つまり、特異性＝ｌｏｇ_２（１．＋ｄｉａｇ（Ｓ_ｚ））であった。

【0139】

画像１３０におけるノイズのレベルと、分類ネットワーク６００により学習されたそれらの特徴を推定するために、パワースペクトル解析を実行できる。画像１３０および学習された画像の両者はフーリエ変換でき、それらの対数／べき乗を計算できる。画像１３０および学習された構造の二次元対数／べき乗は、一次元パワースペクトルを取得するために放射状に平均することができる。ノイズの存在は、スペクトルのより高い周波数における、より高いパワーにより示される。比較は、周波数の上位２０％を使用して実行できる。

【0140】

分類層６３０ａ～ｅにおける三次元オブジェクトの異なる画像の表現は、オブジェクトのすべての画像に対して一貫してアクティブであるノードから構成された。分類ネットワーク６００の分類層６３０ａ～ｅにおけるオブジェクト表現の全体の一貫性は計算できる。一貫性を計算するために、オブジェクト１３５の連続する画像の表現間のコサイン類似度を測定できる。類似度における変動は、表現における一貫性を示している。類似度測定値における、より低い変動は、より高い一貫性を意味し、その逆もまた同様である。

【0141】

多様体構造の幾何学形状を評価するために、行列Ｉにおけるすべてのオブジェクト１３５のすべての画像を収集できる。同様に、行列Ｒ_ｄとＲ_ｃそれぞれにおける識別層６２０ａ～ｅと分類層６３０ａ～ｅからのそれらの表現を収集できる。主成分解析を、３つすべての行列に対して別個に実行でき、および最初の２つの主成分上の投影としてプロットされた個々のオブジェクトのすべての画像に対して実行できる。プロットは、オブジェクト多様体の二次元投影を示している。多様体の二次元投影の曲率を計算するために、３つの連続する点ｐ、ｐ_ｉ＋１、およびｐ_ｉ＋２が選択される。ベクトル点ｐ、ｐ_ｉ＋１、およびｐ_ｉ＋２間の角度は、方程式

【数51】

を使用して計算できる。これらの角度は、ｉのすべての可能な値に対して測定できる。多様体の曲率は、すべての角度測定値の平均として計算できる。

【0142】

図７は、ある実施形態に従う、様々な画像が入力されている、オブジェクト１３５の特質が、分類ネットワーク６００に対する出力においてどのように取り込まれるかを示している例示である。サイズ変動（ＳＦ）７３０と位置変動（ＰＦ）７４０を示しているムービーフレームとしてアニメーションが描画された。異なる位置変動７２１ａと７２１ｂの例が、ボックス７２０において道路上の自動車に対して示されている。ミニバン（７１１ａと７１１ｂ）に対するサイズ変動の例は、ボックス７１０において示されている。サイズ変動フレーム７３０と位置変動フレーム７４０の合計で全体シーケンスの３３％を超えては一般的にカバーしていないこれらのフレーム７３０と７４０の短いシーケンスはランダムに選択でき、分類ネットワーク６００に供給できる。識別層６２０においては、分類ネットワーク６００は、サイズと位置において変動する完全なオブジェクト形状を取り込むことができる。同じオブジェクト間、および異なるオブジェクト間の類似度スコアを比較しているグラフ７５０は、同じオブジェクト（自身）に属するフレームの表現間の平均類似度は、別個のオブジェクト（その他）のフレーム間の表現類似度よりも相当に高いことを示している。

【0143】

ニューラルネットワークアーキテクチャ１４０への入力画像１３０は、１００×１００画素などのような任意の数の画素を含むことができる。識別層６２０のノードと分類ノード６３０（使用されるとき）の数は変化し得る。例えば、識別層６２０のノードと分類ノード６３０の数は、ニューラルネットワークアーキテクチャ１４０への入力の画素数によって変化し得る。例えば、入力が１００×１００画素のときは、識別層６２０におけるノード数は５００または１，０００であることができる。入力された画像が１６×１６（画素単位）のある実施形態においては、識別層６２０のサイズは５００ノードであることができる。入力画像が２８×２８（画素単位）のある実施形態においては、識別層６２０と分類層６３０の両者は１０，０００ノード含んでいる。オブジェクト画像が１００×１００画素のときは、サイズは（識別層６２０と分類層６３０の両者において）１，０００、１０，０００、またはそれ以上であることができる。代替的に、分類層６３０と識別層６２０は、入力層６１０と同じ、またはそれ以上のノードを有することができる。例えば、分類ネットワーク６００においては、入力層６１０は７８４のノードを有することができ、識別層６２０と分類層６３０はそれぞれ１０，０００ノード有することができる。

【0144】

図８は、ある実施形態に係わる、例としての方法８００のフローチャートを例示している。方法８００は例に過ぎず、ここにおいて提示されている実施形態に制限されない。方法８００は、ここにおいて特定的に示されていない、または記述されていない多数の異なる実施形態または例において採用できる。幾つかの実施形態においては、方法８００のステップは提示されている順序で実行できる。他の実施形態においては、方法８００の動作は、任意の適切な順序で実行できる。更に他の実施形態においては、方法８００のステップの１つ以上を組み合わせることができ、またはスキップできる。多数の実施形態においては、システム１００および／またはコンピュータビジョンシステム１５０は、方法８００および／または方法８００のステップの１つ以上を実行するように構成できる。これらの、または他の実施形態においては、方法８００のステップの１つ以上は、１つ以上の処理装置２０１において作動するように構成され、１つ以上の非一時的コンピュータストレージ装置２０２において格納されるように構成されている１つ以上のコンピュータ命令として実現できる。そのような非一時的メモリストレージ装置２０２は、システム１００および／またはコンピュータビジョンシステム１５０などのようなコンピュータシステムの一部であることができる。処理装置２０１は、コンピュータシステム１００および／またはコンピュータビジョンシステム１５０に関して上述した処理装置２０１に類似することができ、またはそれと同一であることができる。

【0145】

ステップ８１０において、ニューラルネットワークアーキテクチャの入力層間の重みと、表現層におけるノード間の反復重みが初期化される。重みが初期化される方法は変化し得る。ある実施形態においては、入力層におけるノードと表現層におけるノードとの間の初期重みは、入力の分散共分散行列の固有ベクトルに基づいて計算できる。表現層のノード間の接続の重みは、公式Ｓ＝－（Ｗ^ＴＷ－Ｉ）を使用して計算できる。

【0146】

ステップ８２０において、入力シーケンスに含まれている画像は、入力層のノードに入力される。画像が画素で構成されている実施形態においては、各画素は別個のノードに入力できる。言い換えると、入力ノードの数は、解析されるデータセットの画像における画素数と等しい。ある実施形態においては、画素は前処理されることなく入力層に入力され、それにより、その入力ノードにその画素の値を与える。代替的に、データセットにおける画像は前処理できる。例えば、各画像の値は、すべての画像値を（０から１などのような）ある範囲内になるように変倍することによるなどのように、ある範囲において変倍できる。フーリエ変換またはウェーブレット変換などのようなある変換を、画像データを入力層のノードに入力する前に画像に対して実行できる。

【0147】

ステップ８３０において、表現層に含まれているノードの初期値は、ステップ８２０における入力層のノードの値のベクトルに、入力層におけるノードと表現層におけるノードとの間のニューラルネットワークアーキテクチャにおける接続に対する重みの行列を掛けることにより計算される。１回目のステップ８３０が実行され、これらの重みはＡＮＮの初期重みであり、それらはステップ８１０で計算された。追加画像が反復的に処理されるにつれ、これらの重みは下記のステップ８５０に従って更新される。

【0148】

ステップ８４０において、表現層におけるノードに対する行動モデルが、表現層におけるノードに対する値を計算するために適用される。種々のタイプの行動モデルを使用でき、それらのモデルには、生物学的ニューラルネットワークから引き出されたモデルが含まれる。例えば、ＡＮＮの表現層におけるノードの行動は「漏洩積分・発火」ニューロンとしてモデル化できる。ステップ８４０の一部として、表現層におけるノード間の反復接続からの値を、表現層におけるノードの値を計算するために使用できる。ノードの値の計算は、各ノードの値が定常状態に到達するまで反復して実行できる。

【0149】

ニューラルネットワークアーキテクチャが、ノードの第３層を有する分類ネットワークに対応する実施形態においては、分類層におけるノードの値は、上述した段落で検討したように、行動モデルに対するプロセスを適用することにより更新できる。例えば、分類層におけるノードの初期値は、各ノードに対して、ａ）識別（または表現層）におけるノードからの（興奮性接続重みを掛けた）入力の値、ｂ）入力層におけるノードからの（抑制性接続重みを掛けた）入力の値、およびｃ）分類層におけるすべてのノードに適用された包括的抑制の値を合計することにより計算できる。

【0150】

分類層を有しているニューラルネットワークアーキテクチャにおいては、分類層における任意の２つのノードが共にアクティブである回数は、所与の数の入力にわたり追尾できる。任意の２つのノードが共にアクティブである回数がある閾値を超えていると、それらのノード間の重みは、（１などの）興奮性値に設定できる。典型的には共にアクティブにならない（閾値未満であることにより決定される）分類層におけるノード間の接続の重みは０に設定できる。

【0151】

ステップ８５０において、ニューラルネットワークアーキテクチャにおけるノード間の重みが更新される。ある実施形態においては、入力層におけるノードと表現層におけるノードとの間の接続に対する重み行列の更新は、勾配降下アプローチを使用して実行される。そして、表現層における反復重みは、公式Ｓ＝－（Ｗ^ＴＷ－Ｉ）を使用して、入力層におけるノードと表現層におけるノードとの間の重みに基づいて更新される。

【0152】

ステップ８６０において、データセットに他の画像があるかどうかが決定される。ない場合は方法８００は終了する。ある場合は、方法８００はステップ８２０に戻る。

【0153】

ステップ８７０において、方法８００は、ニューラルネットワークアーキテクチャが入力された画像に調整されて終了する。

【0154】

ある実施形態においては、ニューラルネットワークアーキテクチャ１４０に入力されるデータは、画像でもなく視覚データでもない。例えば、解析されるデータは、ＤＮＡまたはＲＡＮ配列、オーディオデータ、または他の感覚データであることができる。このデータは、ニューラルネットワークアーキテクチャ１４０の入力層に入力できるように「画素化」または別の方法で変換できる。

【0155】

ニューラルネットワークアーキテクチャ１４０は、他の既知のニューラルネットワークに対して利点を有している。ニューラルネットワークアーキテクチャ１４０は、既存のモデルとは根本的に異なる学習アルゴリズムを利用し、エラー伝播に依存しない。ニューラルネットワークアーキテクチャ１４０はまた、深層学習におけるクレジット割り当ての問題を回避できる。ニューラルネットワークアーキテクチャ１４０は、より少ないノード、より少ないパラメータ、および深層に対する何らの条件もなく、遥かにより複雑なネットワークに匹敵する著しい結果を生成できる。この性能は、より優れた演算力に依存する高度に洗練された深層学習モデルにはかなわないが、ニューラルネットワークアーキテクチャ１４０はまた、改良された性能で追加タスクを実行するために複雑な構造に展開できる。学習すべき例が遥かに少なくてすみ、エネルギー効率が遥かによいことを考えると、ニューラルネットワークアーキテクチャ１４０は、現在の代替物に匹敵またはそれを凌ぐことができる。

【0156】

ここにおける開示により明白なように、本開示において記述されている発明的技術は、画像から強靭なオブジェクト表現を抽出し、および／または、コンピュータビジョン機能を実行することに対処する問題を含む、既知のコンピュータビジョンシステムにおける既存の問題を克服するコンピュータ技術に根差している。本開示において記述されている技術は、既知の技術と関連付けられている制限を克服するための技術的ソリューション（例えば、種々のＡＩに基づくニューラルネットワーク化および機械学習技術を利用するソリューション）を提供する。この技術に基づくソリューションは、コンピュータビジョン（または機械学習）機能の精度を改良し、そのような機能を実行するために要求される情報を削減することにより、コンピュータビジョンおよび機械学習システムに関連する既存の能力および機能性を上回る改良を特徴としている。更に、ある実施形態においては、（顔または顔オブジェクトなどのような）基準オブジェクトの格納が必要ないので、これは、格納必要条件を最小限にし、プライバシーの問題を回避する役割を果たすことができる。更に、ここにおいて開示されているニューラルネットワークアーキテクチャは他のニューラルネットワークよりも複雑さがより少なく、従って、計算コストがより少ない。更に、訓練セットデータの、時間とリソースを大量に消費する作成、および標識付けも必要としない。

【0157】

追加的に、ここにおいて記述されているニューラルネットワークアーキテクチャは、完全に解釈可能であり（いわゆるホワイトボックス）、および、ニューラルネットワークにおいて共通して観測される「破局的忘却」になりにくいという利点も追加的に提供できる。これらの結果は、生物学的脳が不変オブジェクト表現をどのように達成するかを理解し、効率的且つ強靭な生物学的に現実的な知能的ネットワークを開発することにおいて大きな意味を有している。

【0158】

ある実施形態においては、画像からオブジェクト表現を抽出するためのシステムは、１つ以上の処理装置および、演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、演算命令は、１つ以上の処理装置上で実行され、１つ以上の処理装置に、演算装置にて、画素を備えている画像を受信することと、演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、画像からオブジェクト表現を生成することを備えている機能を実行させるように構成されており、すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第２セットに対する接続重みの第２セットは、表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、入力層の入力ノードは値の第１セットを受信し、その値のそれぞれは画像の画素の１つに関連し、表現層における表現ノードに対する値の第２セットは、入力ノードと表現ノードとの間の重み付けされた接続の第１セットと、表現ノード間の重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、表現層における表現ノードに対する値の第２セットは、画像に対するオブジェクト表現を生成するために利用される。

【0159】

ある実施形態においては、重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算される。

【0160】

ある実施形態においては、学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、接続重みの第１セットを継続的に更新する。

【0161】

ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。

【0162】

ある実施形態においては、表現層における表現ノードに対する値の第２セットおよび、入力層における入力ノードに対する値の第１セットはすべて非負値である。

【0163】

ある実施形態においては、重み付けされた接続の第２セットに対する接続重みの第２セットは、接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新される。

【0164】

ある実施形態においては、オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいる。

【0165】

ある実施形態においては、重み付けされた接続の第２セットは抑制的である。

【0166】

ある実施形態においては、確率的勾配降下法は、０と１の間のステップサイズのステップを使用する。

【0167】

ある実施形態においては、１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からオブジェクト表現を抽出するための方法は、演算装置にて、画素を備えている画像を受信することと、演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、画像からオブジェクト表現を生成することを備えており、すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第２セットに対する接続重みの第２セットは、表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、入力層の入力ノードは値の第１セットを受信し、その値のそれぞれは画像の画素の１つに関連し、表現層における表現ノードに対する値の第２セットは、入力ノードと表現ノードとの間の重み付けされた接続の第１セットと、表現ノード間の重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、表現層における表現ノードに対する値の第２セットは、画像に対するオブジェクト表現を生成するために利用される。

【0168】

【0169】

【0170】

ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。

【0171】

【0172】

ある実施形態においては、二層ニューラルネットワークは、入力層における入力ノードよりも、表現層におけるより多くの表現ノードを含んでいる。

【0173】

【0174】

ある実施形態においては、オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいる。

【0175】

ある実施形態においては、重み付けされた接続の第２セットは抑制的である。

【0176】

ある実施形態においては、画像からオブジェクト表現を抽出するためのコンピュータプログラム製品は、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、命令は演算装置に、演算装置にて、画素を備えている画像を受信させ、演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、画像からオブジェクト表現を生成させ、すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第２セットに対する接続重みの第２セットは、表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、入力層の入力ノードは値の第１セットを受信し、その値のそれぞれは画像の画素の１つに関連し、表現層における表現ノードに対する値の第２セットは、入力ノードと表現ノードとの間の重み付けされた接続の第１セットと、表現ノード間の重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、表現層における表現ノードに対する値の第２セットは、画像に対するオブジェクト表現を生成するために利用される。

【0177】

【0178】

ある実施形態においては、画像からのオブジェクト表現を分類するためのシステムは、１つ以上の処理装置および、演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、演算命令は、１つ以上の処理装置上で実行され、１つ以上の処理装置に、演算装置にて、画素を備えている画像を受信することと、演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、画像における１つ以上のオブジェクトに対する分類データを生成することを備えている機能を実行させるように構成されており、すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第２セットに対する接続重みの第２セットは、表現層における任意の２つの表現ノード間の接続重みが両方向において同じになるように決定され、分類層の分類ノードは、表現層の表現ノードに１対１の興奮的方法で接続され、入力層の入力ノードに１対１の抑制的方法で接続され、分類層の分類ノードは、分類層における任意の２つの分類ノード間の接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、分類層の分類ノードは包括的抑制性入力を受信し、入力層の入力ノードは値の第１セットを受信し、その値のそれぞれは画像の画素の１つに関連し、表現層における表現ノードに対する値の第２セットは、入力ノードと表現ノードとの間の重み付けされた接続の第１セットと、表現ノード間の重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、分類層における分類ノードに対する値の第３セットは、入力ノード、表現ノード、および他の分類ノードからの分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、画像における１つ以上のオブジェクトに対する分類データは、値の第３セットに少なくとも部分的には基づいて生成される。

【0179】

【0180】

ある実施形態においては、学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、接続重みの第１セットを継続的に更新する。

【0181】

ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。

【0182】

ある実施形態においては、分類層における分類ノードに対する値の第３セット、表現層における表現ノードに対する値の第２セット、および入力層における入力ノードに対する値の第１セットはすべて非負値である。

【0183】

【0184】

ある実施形態においては、分類データは、画像における少なくとも１つのオブジェクトに関連する識別データを備えている。

【0185】

ある実施形態においては、重み付けされた接続の第２セットは抑制的である。

【0186】

ある実施形態においては、確率的勾配降下法は、０と１の間のステップサイズのステップを使用する。

【0187】

ある実施形態においては、１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からのオブジェクト表現を分類するための方法は、演算装置にて、画素を備えている画像を受信することと、演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、画像における１つ以上のオブジェクトに対する分類データを生成することを備え、すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第２セットに対する接続重みの第２セットは、表現層における任意の２つの表現ノード間の接続重みが両方向において同じになるように決定され、分類層の分類ノードは、識別層の識別ノードに１対１の興奮的方法で接続され、入力層の入力ノードに１対１の抑制的方法で接続され、分類層の分類ノードは、分類層における任意の２つの分類ノード間の接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、分類層の分類ノードは包括的抑制性入力を受信し、入力層の入力ノードは値の第１セットを受信し、その値のそれぞれは画像の画素の１つに関連し、表現層における表現ノードに対する値の第２セットは、入力ノードと表現ノードとの間の重み付けされた接続の第１セットと、表現ノード間の重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、分類層における分類ノードに対する値の第３セットは、入力ノード、表現ノード、および他の分類ノードからの分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、画像における１つ以上のオブジェクトに対する分類データは、値の第３セットに少なくとも部分的には基づいて生成される。

【0188】

【0189】

【0190】

ある実施形態においては、学習機構は確率的勾配降下法を含んでいる。

【0191】

【0192】

【0193】

ある実施形態においては、分類データは、画像における少なくとも１つのオブジェクトに関連する識別データを備えている。

【0194】

ある実施形態においては、重み付けされた接続の第２セットは抑制的である。

【0195】

ある実施形態においては、確率的勾配降下法は、０と１の間のステップサイズのステップを使用する。

【0196】

ある実施形態においては、画像からのオブジェクト表現を分類するためのコンピュータプログラム製品は、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、命令は演算装置に、演算装置にて、画素を備えている画像を受信させ、演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、画像における１つ以上のオブジェクトに対する分類データを生成させ、すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、入力層の入力ノードと表現層の表現ノードとの間の重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、重み付けされた接続の第２セットに対する接続重みの第２セットは、表現層における任意の２つの表現ノード間の接続重みが両方向において同じになるように決定され、分類層の分類ノードは、識別層の識別ノードに１対１の興奮的方法で接続され、入力層の入力ノードに１対１の抑制的方法で接続され、分類層の分類ノードは、分類層における任意の２つの分類ノード間の接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、分類層の分類ノードは包括的抑制性入力を受信し、入力層の入力ノードは値の第１セットを受信し、その値のそれぞれは画像の画素の１つに関連し、表現層における表現ノードに対する値の第２セットは、入力ノードと表現ノードとの間の重み付けされた接続の第１セットと、表現ノード間の重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、分類層における分類ノードに対する値の第３セットは、入力ノード、表現ノード、および他の分類ノードからの分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、画像における１つ以上のオブジェクトに対する分類データは、値の第３セットに少なくとも部分的には基づいて生成される。

【0197】

【0198】

実施形態は、コンピュータまたは任意の命令実行システムによる使用のために、またはそれと関連するプログラムコードを提供するコンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能またはコンピュータ読み取り可能媒体は、命令実行システム、装置、またはデバイスによる、またはそれと関連しての使用のためにプログラムを格納する、通信で送る、伝播する、または移植する任意の装置を含むことができる。媒体は、磁気的、光学的、電子的、電磁的、赤外線、または半導体システム（または装置またはデバイス）、または伝播媒体であることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、剛性磁気ディスク、および光磁気ディスクなどを含むことができる。

【0199】

プログラムコードを格納および／または実行するために適切なデータ処理システムは、システムバスを通してメモリ要素に直接または間接的に結合されている少なくとも１つのプロセッサを含むことができる。メモリ要素は、プログラムコードの実際の実行の間に採用されるローカルメモリ、バルクストレージ、および、実行の間にバルクストレージからコードが取り出させる回収を減少するために、少なくともあるプログラムコードの一時的ストレージを提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（下記に制限されないが、キーボード、ディスプレイ、ポインティングデバイスなどを含む）は、直接または介在するＩ／Ｏコントローラを介しての何れかでシステムに結合できる。

【0200】

ネットワークアダプタもまた、処理システムが、介在する私的または公共ネットワークを通して、他のデータ処理システム、またはリモートプリンタ、またはストレージデバイスに結合されることを可能にするためにシステムに結合できる。モデム、ケーブルモデム、およびイーサネットカードは、現在利用可能なタイプのネットワークアダプタのほんの幾つかにすぎない。

【0201】

【図1A】

【図1B】

【図2】

【図3】

【図4】

【図5A】

【図5B】

【図5C】

【図6】

【図7A】

【図7B】

【図8】

【手続補正書】

【提出日】2024-02-02

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】０２０１

【補正方法】変更

【補正の内容】

【0201】

発明の種々の新しい特徴が、その特別な実施形態に適用されるものとして示され、検討され、および記述されてきたが、記述且つ例示されてきたシステムと方法の形状および詳細において種々の省略、置換、および変化を本発明の精神から逸脱することなくこの技術における技量を有する者は行うことができるということは理解されるべきである。特に、方法におけるステップは、適切であれば、多くの場合において異なる順序で実行できる。この技術における技量を有する者は、上記の開示および本発明の教示の理解に基づいて、ここにおいて記述されているシステムの一部である特別なハードウェアおよび装置、およびここにおいて提供され、および組み込まれている一般の機能は、本発明異なる実施形態においては変化し得るということを認識するであろう。従って、システム構成要素の記述は、本発明のシステムおよび方法の実施形態において実現されるように、種々の態様および本発明の特別な実施形態の機能の全体且つ完全な理解および認識を容易にするための例示としての目的である。この技術における技量を有する者は、本発明は、例示の目的で提示され、制限的でない、記述されている実施形態以外においても実践できるということを認識するであろう。
上述の実施形態は下記のようにも記載され得るが下記には限定されない。
［構成１］
画像からオブジェクト表現を抽出するためのシステムであって、
１つ以上の処理装置と、
演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、前記演算命令は、前記１つ以上の処理装置上で実行され、前記１つ以上の処理装置に、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成することを備えている機能を実行させるように構成されており、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第２セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とするシステム。
［構成２］
前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成１に記載のシステム。
［構成３］
学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする構成１に記載のシステム。
［構成４］
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成３に記載のシステム。
［構成５］
前記表現層における前記表現ノードに対する前記値の第２セットおよび、前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする構成１に記載のシステム。
［構成６］
前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成１に記載のシステム。
［構成７］
前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする構成１に記載のシステム。
［構成８］
前記重み付けされた接続の第２セットは抑制的であることを特徴とする構成１に記載のシステム。
［構成９］
前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする構成４に記載のシステム。
［構成１０］
１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からオブジェクト表現を抽出するための方法であって、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第２セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とする方法。
［構成１１］
前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成１０に記載の方法。
［構成１２］
学習機構は、追加画像が二層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする構成１０に記載の方法。
［構成１３］
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成１２に記載の方法。
［構成１４］
前記表現層における前記表現ノードに対する前記値の第２セットおよび、前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする構成１０に記載の方法。
［構成１５］
前記二層ニューラルネットワークは、前記入力層における入力ノードよりも、前記表現層におけるより多くの表現ノードを含んでいることを特徴とする構成１０に記載の方法。
［構成１６］
前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成１０に記載の方法。
［構成１７］
前記オブジェクト表現は、オブジェクト識別に関連するデータおよび、位置情報に関連するデータを含んでいることを特徴とする構成１０に記載の方法。
［構成１８］
前記重み付けされた接続の第２セットは抑制的であることを特徴とする構成１０に記載の方法。
［構成１９］
画像からオブジェクト表現を抽出するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素を備えている画像を受信させ、
前記演算装置にて、入力ノードの入力層と表現ノードの表現層を備えている二層ニューラルネットワークを使用して、前記画像からオブジェクト表現を生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の重みが両方向において同じになるように決定され、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記表現層における前記表現ノードに対する前記値の第２セットは、前記画像に対する前記オブジェクト表現を生成するために利用されることを特徴とするコンピュータプログラム製品。
［構成２０］
前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成１９に記載のコンピュータプログラム。
［構成２１］
画像からのオブジェクト表現を分類するためのシステムであって、
１つ以上の処理装置と、
演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置を備え、前記演算命令は、前記１つ以上の処理装置上で実行され、前記１つ以上の処理装置に、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における１つ以上のオブジェクトに対する分類データを生成することを備えている機能を実行させるように構成されており、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記表現層の前記表現ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに１対１の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における１つ以上のオブジェクトに対する前記分類データは、前記値の第３セットに少なくとも部分的には基づいて生成されることを特徴とするシステム。
［構成２２］
前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成２１に記載のシステム。
［構成２３］
学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする構成２１に記載のシステム。
［構成２４］
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成２３に記載のシステム。
［構成２５］
前記分類層における前記分類ノードに対する前記値の第３セット、前記表現層における前記表現ノードに対する前記値の第２セット、および前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする構成２１に記載のシステム。
［構成２６］
前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成２１に記載のシステム。
［構成２７］
前記分類データは、前記画像における少なくとも１つのオブジェクトに関連する識別データを備えていることを特徴とする構成２３に記載のシステム。
［構成２８］
前記重み付けされた接続の第２セットは抑制的であることを特徴とする構成２１に記載のシステム。
［構成２９］
前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする構成２４に記載のシステム。
［構成３０］
１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されるように構成されている演算命令の実行を介して実現される、画像からのオブジェクト表現を分類するための方法であって、
演算装置にて、画素を備えている画像を受信することと、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における１つ以上のオブジェクトに対する分類データを生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記識別層の前記識別ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに１対１の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における前記１つ以上のオブジェクトに対する前記分類データは、前記値の第３セットに少なくとも部分的には基づいて生成されることを特徴とする方法。
［構成３１］
前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成３０に記載の方法。
［構成３２］
学習機構は、追加画像が三層ニューラルネットワークにより処理されるときに、前記接続重みの第１セットを継続的に更新することを特徴とする構成３１に記載の方法。
［構成３３］
前記学習機構は確率的勾配降下法を含んでいることを特徴とする構成３２に記載の方法。
［構成３４］
前記分類層における前記分類ノードに対する前記値の第３セット、前記表現層における前記表現ノードに対する前記値の第２セット、および前記入力層における前記入力ノードに対する前記値の第１セットはすべて非負値であることを特徴とする構成３０に記載の方法。
［構成３５］
前記重み付けされた接続の第２セットに対する前記接続重みの第２セットは、前記接続重みの第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする構成３０に記載の方法。
［構成３６］
前記分類データは、前記画像における少なくとも１つのオブジェクトに関連する識別データを備えていることを特徴とする構成３２に記載の方法。
［構成３７］
前記重み付けされた接続の第２セットは抑制的であることを特徴とする構成３０に記載の方法。
［構成３８］
前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする構成３３に記載の方法。
［構成３９］
画像からのオブジェクト表現を分類するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素を備えている画像を受信させ、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記画像における１つ以上のオブジェクトに対する分類データを生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の前記重み付けされた接続の第１セットと関連付けられている接続重みの第１セットは、前記表現層における２つの表現ノードが同時にアクティブになる可能性を最小限にするために選択され、
前記重み付けされた接続の第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
前記分類層の前記分類ノードは、前記識別層の前記識別ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに１対１の抑制的方法で接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記分類層の前記分類ノードは包括的抑制性入力を受信し、
前記入力層の前記入力ノードは値の第１セットを受信し、前記値のそれぞれは前記画像の前記画素の１つに関連し、
前記表現層における前記表現ノードに対する値の第２セットは、前記入力ノードと前記表現ノードとの間の前記重み付けされた接続の第１セットと、前記表現ノード間の前記重み付けされた接続の第２セットを介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記画像における前記１つ以上のオブジェクトに対する前記分類データは、前記値の第３セットに少なくとも部分的には基づいて生成されることを特徴とするコンピュータプログラム製品。
［構成４０］
前記重み付けされた接続の第１セットと関連付けられている前記接続重みの第１セットは、前記画像のベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して計算されることを特徴とする構成３９に記載のコンピュータプログラム。

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

入力から導出されたオブジェクト表現を分類するためのシステムであって、
１つ以上の処理装置と、
演算命令を格納している１つ以上の非一時的コンピュータ読み取り可能ストレージ装置であって、前記演算命令は、前記１つ以上の処理装置上で実行され、前記１つ以上の処理装置に、
演算装置にて、画素化された情報を備えている入力を受信することと、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記入力における１つ以上のオブジェクトに対する分類データを生成することを備えている機能を実行させるように構成されている、１つ以上の非一時的コンピュータ読み取り可能ストレージ装置と、を備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
重み行列が、前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第１セットに対応する接続重みを格納しており、
入力ノードと表現ノードの両方がアクティブであるときに、前記重み行列に格納された接続重みが強められ、
２つの表現ノードがコアクティブであることを検出することに応答して、両方の表現ノードへの入力ノード間の前記接続重みが弱められ、
前記表現層の前記表現ノードは、前記分類層の前記分類ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記入力層の前記入力ノードは、前記入力の前記画素化された情報に対応する値の第１セットを受信し、
前記表現層における前記表現ノードに対する値の第２セットは、（ｉ）前記入力ノードと前記表現ノードとの間の重み付けされた接続の前記第１セットと、（ｉｉ）前記表現ノード間の重み付けされた接続の前記第２セットと、を介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記入力における前記１つ以上のオブジェクトに対する前記分類データは、値の前記第３セットに少なくとも部分的には基づいて生成されることを特徴とするシステム。

【請求項2】

重み付けされた接続の前記第１セットと関連付けられている前記接続重みは、選択された入力のセットのベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して最初に計算されることを特徴とする請求項１に記載のシステム。

【請求項3】

学習機構は、追加入力が三層ニューラルネットワークにより処理されるときに、前記接続重みを継続的に更新することを特徴とする請求項１に記載のシステム。

【請求項4】

前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項３に記載のシステム。

【請求項5】

前記分類層における前記分類ノードに対する値の前記第３セット、前記表現層における前記表現ノードに対する値の前記第２セット、および前記入力層における前記入力ノードに対する値の前記第１セットはすべて非負値であることを特徴とする請求項１に記載のシステム。

【請求項6】

重み付けされた接続の前記第２セットに対する接続重みの第２セットは、前記表現層における任意の２つの表現ノード間の前記接続重みが両方向において同じになるように決定され、
重み付けされた接続の前記第２セットに対する接続重みの前記第２セットは、接続重みの前記第１セットにおける変化に少なくとも部分的には基づいて継続的に更新されることを特徴とする請求項１に記載のシステム。

【請求項7】

前記分類データは、前記入力における少なくとも１つのオブジェクトに関連する識別データを備えていることを特徴とする請求項１に記載のシステム。

【請求項8】

前記分類層の前記分類ノードは、前記分類層における擬似活動を制限するために利用される包括的抑制性入力を受信することを特徴とする請求項１に記載のシステム。

【請求項9】

前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする請求項４に記載のシステム。

【請求項10】

１つ以上の処理装置において作動するように構成され、非一時的コンピュータ読み取り可能媒体に格納されている演算命令の実行を介して実現される、入力から導出されたオブジェクト表現を分類するための方法であって、
演算装置にて、画素化された情報を備えている入力を受信することと、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記入力における１つ以上のオブジェクトに対する分類データを生成することを備え、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
重み行列が、前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第１セットに対応する接続重みを格納しており、
入力ノードと表現ノードの両方がアクティブであるときに、前記重み行列に格納された接続重みが強められ、
２つの表現ノードがコアクティブであることを検出することに応答して、両方の表現ノードへの入力ノード間の前記接続重みが弱められ、
前記表現層の前記表現ノードは、前記分類層の前記分類ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記入力層の前記入力ノードは、前記入力の前記画素化された情報に対応する値の第１セットを受信し、
前記表現層における前記表現ノードに対する値の第２セットは、（ｉ）前記入力ノードと前記表現ノードとの間の重み付けされた接続の前記第１セットと、（ｉｉ）前記表現ノード間の重み付けされた接続の前記第２セットと、を介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記入力における前記１つ以上のオブジェクトに対する前記分類データは、値の前記第３セットに少なくとも部分的には基づいて生成されることを特徴とする方法。

【請求項11】

重み付けされた接続の前記第１セットと関連付けられている前記接続重みは、選択された入力のセットのベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して最初に計算されることを特徴とする請求項１０に記載の方法。

【請求項12】

学習機構は、追加入力が三層ニューラルネットワークにより処理されるときに、前記接続重みを継続的に更新することを特徴とする請求項１１に記載の方法。

【請求項13】

前記学習機構は確率的勾配降下法を含んでいることを特徴とする請求項１２に記載の方法。

【請求項14】

前記分類層における前記分類ノードに対する値の前記第３セット、前記表現層における前記表現ノードに対する値の前記第２セット、および前記入力層における前記入力ノードに対する値の前記第１セットはすべて非負値であることを特徴とする請求項１０に記載の方法。

【請求項15】

【請求項16】

前記分類データは、前記入力における少なくとも１つのオブジェクトに関連する識別データを備えていることを特徴とする請求項１２に記載の方法。

【請求項17】

前記分類層の前記分類ノードは、前記分類層における擬似活動を制限するために利用される包括的抑制性入力を受信することを特徴とする請求項１０に記載の方法。

【請求項18】

前記確率的勾配降下法は、０と１の間のステップサイズのステップを使用することを特徴とする請求項１３に記載の方法。

【請求項19】

入力からのオブジェクト表現を分類するためのコンピュータプログラム製品であって、命令を含んでいる非一時的コンピュータ読み取り可能媒体を備え、前記命令は演算装置に、
演算装置にて、画素化された情報を備えている入力を受信させ、
前記演算装置にて、ｉ）入力ノードを備えている入力層、ｉｉ）表現ノードを備えている表現層、および、ｉｉｉ）分類ノードを備えている分類層を備えている三層ニューラルネットワークを使用して、前記入力における１つ以上のオブジェクトに対する分類データを生成させ、
すべての入力ノードは、異なる値を有する重み付けされた接続の第１セットを通してすべての表現ノードに接続されており、すべての表現ノードは、異なる値を有する重み付けされた接続の第２セットを通してすべての他の表現ノードに接続されており、
重み行列が、前記入力層の前記入力ノードと前記表現層の前記表現ノードとの間の重み付けされた接続の前記第１セットに対応する接続重みを格納しており、
入力ノードと表現ノードの両方がアクティブであるときに、前記重み行列に格納された接続重みが強められ、
２つの表現ノードがコアクティブであることを検出することに応答して、両方の表現ノードへの入力ノード間の前記接続重みが弱められ、
前記表現層の前記表現ノードは、前記分類層の前記分類ノードに１対１の興奮的方法で接続され、前記入力層の前記入力ノードに接続され、
前記分類層の前記分類ノードは、前記分類層における任意の２つの分類ノード間の前記接続重みが両方向において同じになるように、重み付けされた接続の第３セットを通して互いに接続され、
前記入力層の前記入力ノードは、前記入力の前記画素化された情報に対応する値の第１セットを受信し、
前記表現層における前記表現ノードに対する値の第２セットは、（ｉ）前記入力ノードと前記表現ノードとの間の重み付けされた接続の前記第１セットと、（ｉｉ）前記表現ノード間の重み付けされた接続の前記第２セットと、を介して受信した入力に少なくとも部分的には基づいて計算され、
前記分類層における前記分類ノードに対する値の第３セットは、前記入力ノード、前記表現ノード、および他の分類ノードからの前記分類ノードにより受信された入力に少なくとも部分的には基づいて計算され、
前記入力における前記１つ以上のオブジェクトに対する前記分類データは、値の前記第３セットに少なくとも部分的には基づいて生成されることを特徴とするコンピュータプログラム製品。

【請求項20】

重み付けされた接続の前記第１セットと関連付けられている前記接続重みは、選択された入力のセットのベクトル表現から作成された入力行列に基づく分散共分散行列の固有ベクトルの推定値を使用して最初に計算されることを特徴とする請求項１９に記載のコンピュータプログラム製品。

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版