(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5934444
(24)【登録日】2016年5月13日
(45)【発行日】2016年6月15日
(54)【発明の名称】適応行動の神経系のシステム
(51)【国際特許分類】
G06N 3/08 20060101AFI20160602BHJP
【FI】
G06N3/08
【請求項の数】54
【全頁数】32
(21)【出願番号】特願2015-528609(P2015-528609)
(86)(22)【出願日】2013年8月20日
(65)【公表番号】特表2015-529916(P2015-529916A)
(43)【公表日】2015年10月8日
(86)【国際出願番号】US2013055875
(87)【国際公開番号】WO2014031695
(87)【国際公開日】20140227
【審査請求日】2015年6月25日
(31)【優先権主張番号】13/593,114
(32)【優先日】2012年8月23日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】595020643
【氏名又は名称】クゥアルコム・インコーポレイテッド
【氏名又は名称原語表記】QUALCOMM INCORPORATED
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100109830
【弁理士】
【氏名又は名称】福原 淑弘
(74)【代理人】
【識別番号】100158805
【弁理士】
【氏名又は名称】井関 守三
(74)【代理人】
【識別番号】100194814
【弁理士】
【氏名又は名称】奥村 元宏
(72)【発明者】
【氏名】ライ、ディウイ
(72)【発明者】
【氏名】リウ、インイン
(72)【発明者】
【氏名】チャン、ビクター・ホッキウ
(72)【発明者】
【氏名】カンポス、マイケル
【審査官】
多賀 実
(56)【参考文献】
【文献】
米国特許出願公開第2008/0162391(US,A1)
【文献】
Gary Aston-Jones 外1名,"An Integrative Theory of Locus Coeruleus-Norepinephrine Function: Adaptive Gain and Optimal Performance",Annual Review of Neuroscience,2005年 7月,第28巻,pp.403−450
【文献】
銅谷 賢治 外1名,「学習ダイナミクスの制御と脳の物質機構」,システム/制御/情報,システム制御情報学会,2006年 8月15日,第50巻,第8号,pp.15−20
【文献】
水野 純也 外1名,「神経修飾物質系に対応づけた強化学習パラメータの制御法」,電子情報通信学会技術研究報告,社団法人電子情報通信学会,2002年12月 6日,第102巻,第508号,pp.83−88
(58)【調査した分野】(Int.Cl.,DB名)
G06N3/00−99/00
(57)【特許請求の範囲】
【請求項1】
人工的な神経系のネットワークによって神経系の適応行動を生成することに関する方法であって、
1つまたは複数の入力刺激を受信することと、
出力信号を生成するために、前記受信した入力刺激を処理することと、ここにおいて、前記処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で利得制御ユニットを切り換えるために前記利得制御ユニットを制御することと、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、前記神経系の活動モードに基づいて決定される、を具備する方法。
【請求項2】
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、請求項1の方法。
【請求項3】
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、請求項1の方法。
【請求項4】
前記トニックモードは、調査の期間と関連され、前記フェージックモードは搾取の期間と関連される、請求項3の方法。
【請求項5】
前記利得制御ユニットを前記制御することは、報酬評価ユニットで前記利得制御ユニットを制御することを具備する、請求項1の方法。
【請求項6】
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、請求項5の方法。
【請求項7】
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、を備え、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、請求項5の方法。
【請求項8】
実際の報酬を決定することと、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定することと、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節すること、を更に具備する請求項7の方法。
【請求項9】
前記予測された報酬を決定することは、一時的な相違(TD)の学習アルゴリズムを使用すること、を具備する請求項8の方法。
【請求項10】
前記調節することは、前記報酬評価ユニットに第2の神経調節信号を出力することを具備し、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、請求項8の方法。
【請求項11】
前記第2の神経調節信号の高いレベルは、シナプスの増強作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰をもたらす、請求項10の方法。
【請求項12】
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、その結果前記トニックニューロングループが、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループと関連したシナプスを強化し、その結果前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、請求項10の方法。
【請求項13】
前記トニックニューロングループが前記利得制御ユニットの前記トニックモードを駆動し、および前記フェージックニューロングループが前記利得制御ユニットのフェージックモードを駆動しないように、前記第2の神経調節信号の低いレベルは、前記抑制性ニューロングループと前記興奮性ニューロングループとの間の、および前記フェージックニューロングループに関連した前記強化されたシナプスの両者を弱める、請求項12の方法。
【請求項14】
前記実際の及び予測された報酬を決定し、前記第2の神経調節信号を出力することは、予測エラー計算ユニットによって行われる、請求項10の方法。
【請求項15】
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、請求項14の方法。
【請求項16】
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、請求項10の方法。
【請求項17】
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、請求項1の方法。
【請求項18】
出力ユニットに前記出力信号を送信することを更に具備し、
ここにおいて、前記出力ユニットは、運動ニューロンの振る舞いをモデルにしている、請求項1の方法。
【請求項19】
神経系の適応行動を生成することに関する人工的な神経系のネットワークであって、
処理システムは、
1つまたは複数の入力刺激を受信し、
出力信号を生成するために、前記受信した入力刺激を処理し、ここにおいて、前記処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で前記利得制御ユニットを切り換えるために前記利得制御ユニットを制御するよう構成され、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、前記神経系の活動モードに基づいて決定される、を具備する人工的な神経系のネットワーク。
【請求項20】
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、請求項19の人工的な神経系のネットワーク。
【請求項21】
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、請求項19の人工的な神経系のネットワーク。
【請求項22】
前記トニックモードは、調査の期間と関連され、前記フェージックモードは搾取の期間と関連される、請求項21の人工的な神経系のネットワーク。
【請求項23】
前記処理システムは、報酬評価ユニットで前記利得制御ユニットを制御するよう構成される、請求項19の人工的な神経系のネットワーク。
【請求項24】
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、請求項23の人工的な神経系のネットワーク。
【請求項25】
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、を備え、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、請求項23の人工的な神経系のネットワーク。
【請求項26】
前記処理システムは、
前記受信した入力刺激のうち少なくとも1つに基づいて実際の報酬を決定し、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定し、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節するよう、更に構成される請求項25の人工的な神経系のネットワーク。
【請求項27】
前記処理システムは、一時的な相違(TD)の学習アルゴリズムを用いて、前記予測された報酬を決定するよう構成される、請求項26の人工的な神経系のネットワーク。
【請求項28】
前記処理システムは、前記報酬評価ユニットに第2の神経調節信号を出力することによって、前記シナプス可塑性を調節し、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、請求項26の人工的な神経系のネットワーク。
【請求項29】
前記第2の神経調節信号の高いレベルは、シナプスの増強作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰を招く、請求項28の人工的な神経系のネットワーク。
【請求項30】
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、その結果前記トニックニューロングループが、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループに関連したシナプスを強化し、その結果前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、請求項28の人工的な神経系のネットワーク。
【請求項31】
前記トニックニューロングループが前記利得制御ユニットの前記トニックモードを駆動し、および前記フェージックニューロングループが前記利得制御ユニットのフェージックモードを駆動しないように、前記第2の神経調節信号の低いレベルは、前記抑制性ニューロングループと前記興奮性ニューロングループとの間の、および前記フェージックニューロングループに関連した前記強化されたシナプスの両者を弱める、請求項30の人工的な神経系のネットワーク。
【請求項32】
前記処理システムは、予測エラー計算ユニットを具備し、ここにおいて、前記実際の及び予測された報酬を前記決定すること、並びに前記第2の神経調節信号を出力することは、前記予測エラー計算ユニットによって行われる、請求項28の人工的な神経系のネットワーク。
【請求項33】
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、請求項32の人工的な神経系のネットワーク。
【請求項34】
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、請求項28の人工的な神経系のネットワーク。
【請求項35】
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、請求項19の人工的な神経系のネットワーク。
【請求項36】
前記処理システムは、出力ユニットに前記出力信号を送信するよう更に構成され、ここにおいて、前記出力ユニットは、運動ニューロンの振る舞いをモデルにしている、請求項19の人工的な神経系のネットワーク。
【請求項37】
1つまたは複数の入力刺激を受信する手段と、
出力信号を生成するために、前記受信した入力刺激を処理する手段と、ここにおいて、前記処理する手段は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で前記利得制御ユニットを切り換えるために前記利得制御ユニットを制御する手段と、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうちの少なくとも1つは、前記神経系の活動モードに基づいて決定される、を具備する神経系の適応行動を生成することに関する人工的な神経系のネットワーク。
【請求項38】
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、請求項37の人工的な神経系のネットワーク。
【請求項39】
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、請求項37の人工的な神経系のネットワーク。
【請求項40】
前記トニックモードは、調査の期間と関連され、前記フェージックモードは搾取の期間と関連される、請求項39の人工的な神経系のネットワーク。
【請求項41】
前記利得制御ユニットを前記制御する手段は、報酬評価ユニットで前記利得制御ユニットを制御するよう構成される、請求項37の人工的な神経系のネットワーク。
【請求項42】
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、請求項41の人工的な神経系のネットワーク。
【請求項43】
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、を備え、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、請求項41の人工的な神経系のネットワーク。
【請求項44】
実際の報酬を決定する手段と、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定する手段と、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節する手段、を更に具備する請求項43の人工的な神経系のネットワーク。
【請求項45】
前記予測された報酬を決定する前記手段は、一時的な相違(TD)の学習アルゴリズムを使用するように構成される請求項44の人工的な神経系のネットワーク。
【請求項46】
調節する前記手段は、前記報酬評価ユニットに第2の神経調節信号を出力するよう構成され、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、請求項44の人工的な神経系のネットワーク。
【請求項47】
前記第2の神経調節信号の高いレベルは、シナプスの増強作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰を招く、請求項46の人工的な神経系のネットワーク。
【請求項48】
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、その結果前記トニックニューロングループは、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループに関連したシナプスを強化し、その結果前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、請求項46の人工的な神経系のネットワーク。
【請求項49】
前記トニックニューロングループが前記利得制御ユニットの前記トニックモードを駆動し、および前記フェージックニューロングループが前記利得制御ユニットのフェージックモードを駆動しないように、前記第2の神経調節信号の低いレベルは、前記抑制性ニューロングループと前記興奮性ニューロングループとの間の、および前記フェージックニューロングループに関連した前記強化されたシナプスの両者を弱める、請求項48の人工的な神経系のネットワーク。
【請求項50】
予測エラー計算ユニットは、前記実際の及び予測された報酬を決定する手段を具備し、前記第2の神経調節信号を出力するよう構成される、請求項46の人工的な神経系のネットワーク。
【請求項51】
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、請求項50の人工的な神経系のネットワーク。
【請求項52】
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、請求項46の人工的な神経系のネットワーク。
【請求項53】
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、請求項37の人工的な神経系のネットワーク。
【請求項54】
出力ユニットに前記出力信号を送信する手段を更に具備し、
ここにおいて、前記出力ユニットは、運動ニューロンの振る舞いをモデルにしている、請求項37の人工的な神経系のネットワーク。
【発明の詳細な説明】
【技術分野】
【0001】
[0001]本開示のある観点は、一般的に神経系のネットワーク、さらに具体的には、神経調節(neuromodulation)を用いる神経系のシステム中で適応行動をモデル化することに関連する。
【背景技術】
【0002】
[0002]人工的な神経系のネットワークは、人工的なニューロン(つまり、ニューロンモデル)の相互接続させたグループから成る、数学又はコンピュータモデルである。人工的な神経系のネットワークは、人間の脳の中で見つかったそれらのような、生物学の神経のネットワークの機能及び/又は構造に由来し(又は少なくとも漠然と基づき)得る。なぜなら、人工的な神経系のネットワークは、観察から機能を推論することが出来るので、そのようなネットワークは、アプリケーションにおいて非常に役立ち、そこでタスク又はデータの複雑性は、手によるこの機能をデザインすることを非現実的にさせる。
【0003】
[0003]人工的な神経系のネットワークの1つのタイプは、スパイキング神経系のネットワークであり、これは、ニューロンの及びシナプスの状態と同様に、時間の概念をその動作モデルに組み込む。それによって、神経系のシミュレーションのこのタイプ中でリアリズムのレベルを増加させる。スパイキング神経ネットワークは、膜電位が閾値に達する時に限りニューロンが興奮する(fire)という概念に基づいている。神経が興奮する時、それは、この受信したスパイクに基づいたそれらの膜電位を順々に上昇または低下させる、他のニューロンに伝播するスパイクを生成する。
【発明の概要】
【0004】
[0004]本開示のある観点は、一般的に、適応行動の神経系のメカニズムに基づいてシステムを使用すること、履行すること、及び供給することに関する。システムは、
神経修飾物質の媒介したメタ(変化する)可塑性(塑性)及び/または利得制御に基づき得る。このシステムで、状況的刺激(sensory cues)と
運動活動との間での柔軟な関連性が生成され、これは化学物質(agent)に変化する環境において効率よく報酬を獲得させることができる。
【0005】
[0005]本開示のある観点は、神経系の適応行動を生成することに関する方法を供給する。方法は一般的に、1つまたは複数の入力刺激を受信することと、出力信号を生成するために、受信した入力刺激を処理することと、ここにおいて、処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、少なくとも2つの相違する神経系の活動モード間で切り換えるための利得制御ユニットを制御することと、ここにおいて、利得制御ユニットによって生成された第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、神経系の活動モードに基づいて決定され、及び出力ユニットに出力信号を送信すること、を含む。
【0006】
[0006]本開示のある観点は、神経系の適応行動を生成することに関する装置を供給する。装置は一般的に、処理システムが、1つまたは複数の入力刺激を受信し、出力信号を生成するために、受信した入力刺激を処理し、ここにおいて、処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、少なくとも2つの相違する神経活動モード間で切り換えるべき利得制御ユニットを制御し、ここにおいて、利得制御ユニットによって生成された第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、神経活動モードに基づいて決定され、出力ユニットに出力信号を送信するよう構成されるよう、に処理システムを含む。
【0007】
[0007]本開示のある観点は、神経系の適応行動を生成することに関する装置を供給する。装置は一般的に、1つまたは複数の入力刺激を受信する手段と、出力信号を生成するために、受信した入力刺激を処理する手段と、ここにおいて、処理する手段は、利得制御ユニットによって生成された第1の神経調節信号で調節され、少なくとも2つの相違する神経活動モード間で切り換えるべき利得制御ユニットを制御する手段と、ここにおいて、利得制御ユニットによって生成された第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、神経活動モードに基づいて決定され、出力ユニットに出力信号を送信する手段、を含む。
【0008】
[0008]本開示のある観点は、神経系の適応行動を生成することに関するコンピュータプログラム製品を供給する。コンピュータプログラム製品は、1つまたは複数の入力刺激を受信すること、出力信号を生成するために、受信した入力刺激を処理すること、ここにおいて、処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、少なくとも2つの相違する神経活動モード間で切り換えるべき利得制御ユニットを制御すること、ここにおいて、利得制御ユニットによって生成された第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、神経活動モードに基づいて決定され、出力ユニットに出力信号を送信すること、を実行可能な命令を有するコンピュータ可読媒体を含む。
【図面の簡単な説明】
【0009】
[0009]本開示の上記記載された特徴が、詳細に理解され得る方法のように、上記で簡潔に要約された、より特定の説明が、添付の図面において例示されるいくつかの観点への参照によって有され得る。しかしながら、添付の図面は、この開示のある典型的な観点のみを例示し、したがって、その説明が他の同等の効果的な観点に認められ得るので、その範囲の限定を考慮されないことは留意されたい。
【0010】
[0010]
【
図1】
図1は、本開示のある観点に従ったニューロンのネットワークの一例を示す。
【0011】
[0011]
【
図2】
図2は、本開示のある観点に従った、適応行動の神経系のメカニズムに基づいた一例のシステムのブロック図である。
【0012】
[0012]
【
図3】
図3は、本開示のある観点に従った、ノルエピネフリン(NE)の転形の一例を示す。
【0013】
[0013]
【
図4】
図4は、本開示のある観点に従った、
図2のシステム中の利得制御モジュールによって出力される3つの神経系の活動モードを示す。
【0014】
[0014]
【
図5A】
図5Aは、本開示のある観点に従った、利得制御モジュールに関する低トニックモードに基づいた一例のシステムの行動を示す。
【0015】
[0015]
【
図5B】
図5Bは、本開示のある観点に従った、利得制御モジュールに関する高トニックモードに基づいた一例のシステムの行動を示す。
【0016】
[0016]
【
図5C】
図5Cは、本開示のある観点に従った、利得制御モジュールに関するフェージックモードに基づいた一例のシステム行動を示す。
【0017】
[0017]
【
図6】
図6は、本開示のある観点に従った、
図2のシステム中の報酬評価モジュール中のフェージック及びトニックニューロングループを示す。
【0018】
[0018]
【
図7】
図7は、本開示のある観点に従った、神経調節性の入力レベルに依存する3つの異なるモードを規定するメタ可塑性のルールをグラフで示す。
【0019】
[0019]
【
図8A】
図8Aは、本開示のある観点に従った、利得制御モジュールに関するフェージック反応及び報酬評価モジュールのアップデートを含む高ドーパミン(DA)のレベルを示す。
【0020】
[0020]
【
図8B】
図8Bは、本開示のある観点に従った、報酬評価モジュールのこれ以上のアップデートを含まない中間のDAレベルを示す。
【0021】
[0021]
【
図8C】
図8Cは、本開示のある観点に従った、利得制御モジュールに関するトニック反応及び報酬評価モジュールのアップデートを含んだ低いDAレベルを示す。
【0022】
[0022]
【
図9】
図9は、本開示のある観点に従った、神経系の適応行動を生成することに関する一例の動作のフロー図である。
【0023】
[0023]
【
図9A】
図9で示される動作を実行することができる手段の一例を示した図。
【発明を実施するための形態】
【0024】
[0024]本開示の様々な態様が、添付の図面を参照して以下さらに十分に説明される。しかしながら、本開示は、多くの異なる形態で具現化され得、本開示全体を通して示されるあらゆる特定の構造または機能に限定されるものとして解釈すべきではない。むしろ、これらの観点は、本開示が徹底的で完全であり、当業者に本開示の範囲を十分に伝達するように提供される。ここでの教示に基づいて、当業者は、本開示の範囲が、開示のあらゆる他の観点と組み合わされ、又は独立して履行されるかどうか、ここで開示される開示のあらゆる観点をカバーするように意図されていることを認識すべきである。例えば、装置が履行され得、又は方法が、以下述べられるあらゆる数の観点を使用して実施され得る。加えて、本開示の範囲は、本明細書で説明される開示の様々な観点以外に加えて、機能と構造、または他の機能、構造を使用して実施されたそのような装置または方法をカバーすることが意図されている。以下に開示される本願のあらゆる観点は、請求項の1つまたは複数の要素によって具現化され得ることを理解されるべきである。
【0025】
[0025]用語「例示的な」は、「例、事例、または例示としての機能を果たす」を意味するようにここでは使用される。“例示的な”ものとして、ここで説明されるあらゆる観点は、他の観点以上に、効果的なもの又は好ましいものとして必ずしも解釈すべき必要性ない。
【0026】
[0026]特定の態様がここに説明されるが、これらの観点の多くのバリエーション及び順列が本開示の範囲内に含まれる。望ましい態様のいくつかの恩恵及び利点が説明されるが、本開示の範囲は、特定の恩恵、使用、又は目的に限定されることを意図しない。むしろ、本開示の観点は、異なる技術、システム構成、ネットワーク、およびプロトコルに対して広く適用可能であると意図され、そのうちのいくつかが、図面中、及び好ましい観点の以下の説明において一例の手段として示される。詳細な説明および図面は、限定ではなく、むしろ単に開示を例示するものにすぎず、本開示の範囲は、添付の特許請求の範囲及びその同等物によって定義される。
神経系のシステムの一例
[0027]
図1は、本開示のある観点に従ったニューロンのマルチプルのレベルを有する神経系のシステム100の一例を示す。神経系のシステム100は、シナプスの接続(シナプシス104)のネットワークを通じたニューロンの他のレベル106に接続されるニューロンのレベル102を具備し得る。簡単のために、少数又は複数のニューロンのレベルが典型的な神経系のシステム中には存在し得るが、ニューロンの2つのレベルのみが
図1に示される。
【0027】
[0028]
図1に示されるように、レベル102中の各々のニューロンが、(
図1に図示せぬ)前のレベルの多数のニューロンによって生成され得る、入力信号108を受信(受け得る)し得る。信号108は、レベル102のニューロンに対する入力(例えば、入力電流)を表わし得る。そのような入力は、膜電圧をチャージするためにニューロンの薄膜に蓄積され得る。膜電位が、その閾値に達する時、ニューロンは、ニューロン(例えば、レベル106)の次のレベルに転送されるために出力スパイクを生成し、興奮し得る。
【0028】
[0029]ニューロンの1つのレベルから他へのスパイクの転送は、
図1に示されるように、シナプスの接続(又は単に“シナプシス”)104のネットワークを通じて達成され得る。シナプシス104は、レベル102のニューロン(シナプシス104に関連する前シナプスのニューロン)からの出力信号(つまり、スパイク)を受信し得る。ある観点に関して、これらの信号は調節可能なシナプスの重みw1
(i,i+1),…wp
(i,i+1)(ここにおいて、pは、レベル102と106のニューロンとの間でのシナプスの接続の総数である)に従って測定され得る。他の観点に関して、シナプシス104は、あらゆるシナプスの重みに適用されないかもしれない。更に、(測定された)信号は、レベル106(シナプシス104に関連する後のシナプスのニューロン)中の各々のニューロンの入力信号として組み合わされ得る。レベル106中のすべてのニューロンは、対応する組み合わされた入力信号に基づいて出力スパイク110を生成し得る。出力スパイク110は、それから(
図1に図示せぬ)シナプスの接続の他のネットワークを用いて、ニューロンの別のレベルに移され得る。
【0029】
[0030]神経系のシステム100は、ソフトウェア又はハードウェア(例えば、電気回路によって)中でエミュレートされ得、イメージ及びパターン認識、機械学習、運動(信号伝達細胞)制御などのような適用の大きな範囲の中で利用され得る。神経系のシステム100中の各々のニューロン(又はニューロンのモデル)は、ニューロンの回路として履行され得る。出力スパイクを開始するしきい値にチャージされたニューロンの薄膜は、例えば、それを通って流れる電流を積分するキャパシタとして履行され得る。
適用行動の神経系のシステムの一例
[0031]変化する環境の中で生き残るために、動物は、適用し、報酬を効率的に収穫できるに違いない。そのような効率的な行動は、第一に、行動のマルチプルの潜在的な過程に直面した時、戦略を作ることの最適な決定の急速な発達を、第2に、環境変化に応じた戦略を作ることの決定への急速な変異を、含む。
【0030】
[0032]ここで使用されるように、戦略を作ることの決定は、一般的に環境からの状況的刺激に応じて非運動の決定又は特定の運動の活動の採用に言及する。状況的刺激は、ある(恐らく未知の)行動又は決定のパフォーマンス次第で(恐らく、制限のある)報酬の有用性を予測する。
【0031】
[0033]本開示のある観点は、適用行動をサポートするために知られた鍵となる脳の部位に注目した哺乳類中の神経生理学の研究に基づく。動物が、今までのあらゆる知識なしで新しい環境に晒された時、動物はランダムに見える方法でそれら環境を探索する傾向がある。報酬または罰の現れの中の環境からのフィードバックを通じて、動物は、特別の状況的刺激と探索運動活動との間に潜在する報酬の偶然性を学ぶことが出来る。結果として、動物は、罰を最小化する一方で、報酬を最大限にするため最も大きな報酬に結びつく感覚運動の関連性を開拓する戦略を作ることの最適決定を発達させ始める。一旦環境が探索されると、仮に環境が比較的安定性を留めている場合には、動物は習得した知識に基づいて報酬の搾取的な決定を作る傾向がある。これら2つの異なった行動は、”
調査”及び”
搾取”として、又は集合的に”狩猟採集の行動”として言及される。
【0032】
[0034]この戦略は、罰を回避するだけでなく、最も見返りのある知覚運動の関連性に注目することによってエネルギーをも保存する。食糧を収穫する状況において、動物は、
調査はよりエネルギーを消費するが、
調査を通じて食糧を見つける方法を学ぶ。従って、十分な食料源が見つかるとすぐに、動物は、その食料源が十分に得られた時に、新しい探検の行動が必要となるまでエネルギーを保存するための努力の中で同様のオプションを開拓するであろう。
【0033】
[0035]研究所の環境では、このシナリオは、2つ潜在的な運動計画(例えば、押すことのできる2つのボタン)がある1肢強制選択(AFC)のタスクを使用して調査された。所定の時間で、1つの運動行動は他よりも報酬を受けており、また動物は、報酬を受けた動作と有益な合図とを関連させることを学ぶ。いくつかのポイントで報酬を受けた運動の計画が変更され、感覚運動の関連性を反転するためのテーマを強制する。報酬の偶然性の中での逆転に応えた学習のこの形は、逆転学習と名付けられる。特に、成功した逆転学習は、眼窩前頭皮質(OFC)に依存する。仮にOFCが破損されるか、選択的に非活性化とされると、逆転学習は正常に機能せず、テーマは“固執傾向がある誤り”を作る。
【0034】
[0036]本開示のある観点は、OFCのこの機能のモデルを供給する。本開示のある観点は、哺乳類の神経調節性のシステム上で特別の強調を有する、適応行動の神経系のメカニズムに基づいたシステムを供給する。化学物質(agent)に、変化する環境中で効率よく報酬を収穫させることができる運動動作及び状況的刺激の間での柔軟な関連性に関する方法が、以下記載されている。第1に、新しい知覚運動の関連性は、報酬の知覚運動に関連する予備知識がない時、早急に形成される。第2に、一旦新しい知覚運動の関連性が学習されると、他の行動の相対的な排除に対して開発がなされる。第3に、報酬源が十分に枯渇した時、又は知覚運動の関連性が、もはやいくつかの理由に関する報酬ではない時、化学物質は新しい報酬を受けられる行動戦略を発見するため、早急に
調査モードに切り替え得、それまでに学習した関連性が減少する。行動のレベルの上の
調査及び
搾取モードは、シナプスのレベルで神経修飾物質によって媒介される神経系の活動の異なるモデルによって役立たれる。報酬の偶然性は、報酬が媒介される可塑性を通じて学習される。
【0035】
[0037]本開示のある観点は、スパイキング神経系のネットワークを用いて履行され得る。他の観点は、代替としての非スパイキング神経系のネットワークを用いて履行され得る。
【0036】
[0038]
図2は、本開示のある観点に従った、適応行動の神経系のメカニズムに基づくシステム200の一例を示す。システム200は、環境202を表わし、感覚信号のエンコードモジュール204、報酬のエンコードモジュール206、関連モジュール208、出力/運動モジュール210、(例えば、青斑核(LC)のモデルを作る)利得制御モジュール212、(例えば眼窩前頭皮質(OFC)のモデルを作る)報酬評価モジュール214及び(例えば、腹側被蓋野(VTA)のモデルを作る)予測エラー計算モジュール216をも含み得る。システム200中のモジュール(つまり、ユニット又はレイヤー)のあらゆる組み合わせが、ハードウェア及び/又はソフトウェア中で履行され得る。
【0037】
[0039]本開示のある観点は、ノルエピネフリン(NE)及びドーパミン(DA)の神経調節性のシステムによって媒介された適応行動のモデルを作る。これは、情報の伝達の中で(利得制御モジュール212と表された)LCからNEが利得をどう調節するか、(予測エラー計算モジュール216と表された)VTAからDAが学習ルールをどう調節するか、(報酬評価モジュール214と表された)OFCが学習ルールによってどう影響をうけるか、及び
調査と
搾取モードとの間でLCがスイッチをどう駆動するか、を含む。本開示は、NE及びDAを介して神経調節(神経調整)を記載しているが、他の神経修飾物質は、システム200中の追加のNE及び/又はDAとなり得、又は置換され得る。
【0038】
環境上の相互作用
[0040]感覚信号のエンコードモジュール204、関連モジュール208及び出力/運動モジュール210は、環境202と接触するために出力インターフェース及びシステムの入力として用いられる。システム200中での個々のモジュールが、以下より詳細に記載される。
【0039】
[0041]環境モジュール
モデルとされたシステム200に外部として考慮され得る、このモジュールは、システムに入力を送信し得るシステムのあらゆる外部を表わし得る。これら入力は、例えば、環境状態の入力、感覚の入力、及び報酬の入力を含み得る。見返りとして、システムの運動出力は、環境202上で作動し、環境の状態変化を引き起こし得る。
【0040】
[0042]感覚の信号のエンコードモジュール
このモジュールにて、入力刺激は、スパイクのような、ニューロンの表現に変換される。仮にシステム200が視覚系のシステムであると、感覚の信号のエンコードモジュール204は、網膜神経節細胞として考慮され得る。同様に、仮にシステム200が聴力系のシステムである場合、このモジュールは、らせん神経節のレイヤーとして考慮され得る。
【0041】
[0043]報酬のエンコードモジュール
報酬のエンコードモジュール206は、食糧のような、環境の報酬を、神経系の表現にエンコードする。実際の報酬のこれらの神経系の表現は、予測エラー計算モジュール216中の予測された報酬と比較され得る。
【0042】
[0044]関連モジュール
このモジュール中において、感覚の信号のエンコードモジュール204からの情報は、さらに象徴的な表現に処理される。例えば、視覚系のシステム中において、これは、
腹側皮質視覚路として考慮され得、そこで、ITの中での視覚の象徴の表現に革新的な増大及び特徴抽出に関するV1→V4→IT(つまり、下位の一時的な皮質(IT)への
腹側皮質視覚路の中の外線の視覚皮質領域4(V4)への(線条皮質又はV1としても知られる))からの情報が流れる。同様に、聴覚系のシステム中では、関連モジュール208は、内耳細胞のチェーン、及び内耳の神経核セルなどと見なされ得る。このモジュールの出力において、興奮性のニューロンの異なるグループは、異なる刺激のクラスを示す。典型的には、関連モジュール208は、興奮性のニューロンから接続されるある抑制性の介在ニューロンを有し、勝者が全てを得る競争又は楽に勝者が全てを得る競争を作成するために興奮性のグループに抑制性のフィードバックを送信する。
【0043】
[0045]出力/運動モジュール
関連モジュール208からの情報は、出力/運動モジュール210に送信される。仮に信号が効率的に送信された場合、反応を引き起こすほどに充分強く出力/運動モジュール210を駆動し、エンコードされた運動活動が実行される。出力/運動モジュール210に対する関連モジュール208の特定の解析(mapping)は、可塑性に基づいた報酬に依存する(subject to)。
利得制御(青斑核)モジュール
[0046]哺乳類動物の神経調節性のシステム中で、青斑核(LC)が、他の脳の領域に神経伝達物質とするノルエピネフリン(NE)を解放する脳の部位であることが発見された。NEの存在の中で、NEの調節された領域のニューロンは、増加したシナプスの伝達効果を示す。そのような増加した効果の1つの履行は、
図3に示すように、シナプスの
重みを変化させることである。
図3において、前シナプスのニューロン302と後のシナプシスのニューロン304との間でシナプス306が、NEを使用する308で調節される。308でのNEの調節(mNE(t))は、調節されたシナプスの
重み(w)を生み出すためのシナプス306の元の
重み(w)を調節するために使用される。言い換えれば、NEはスケール(つまり、利得)を調節する。
【0044】
[0047]神経系の活動の3つのモデルは、NEの信号、つまり低トニック、フェージック及び高トニックの全体のレベルを決定する。従って、異なる運動の挙動はLC活動の3つのモデルによって調節される。調節NE信号は、LCニューロンによって生成され、
図4に示されるように、関連モジュール208から出力/運動モジュール210への経路の中でネットワーク力学を規制するために使用される。この調節システムは、信号の伝達効果を増加させ又は減少させることに加え、低トニックモードの時、更に信号が完全に送信されるのを(つまり、関連モジュールから出力/運動モジュール210へのスパイクはない)停止し得る。この方法で、LCは、信号が出力/運動モジュール210に送信されるのを防止又は許可するゲートメカニズムとして、機能する。
【0045】
[0048]低トニックの興奮モードは、動物が眠く、無気力な時の期間に相当する。ある観点に関して、低トニックの興奮モードは、出力モード210中の運動ニューロンを駆動する関連レイヤーのニューロンの有効性を制限する。情報の経路は有効にシャットオフされ、出力/運動モジュール210は、
図5A中に示された、あらゆる入力(例えば、あらゆる刺激A、B、又はCに)に反応しない。
図5Aは、示された3つの刺激のそれぞれの期間の、低いNEレベル及び単なる1つのスパイクを示す。
【0046】
[0049]高トニックモードは、動物が
調査モードの中にいる時に相当し、これにおいて、動物は活動的で注意散漫になりやすい。ある観点に関して、高トニックモードは、見境なく出力/運動モジュール210を駆動するための関連モジュール208の効能を向上させ、
図5Bの中で示されるように、システムは、あらゆる入力(例えば刺激AとB及びCのすべてに)に応答するであろう。
図5Bは、図示される3つの刺激の各々の期間の高いNEレベル及び4つのスパイクを示す。
【0047】
[0050]最後に、フェージックモードは、動物が
搾取モードの中にいる時に相当する。ある観点に関して、フェージックモードは、
図5Cに示されるように、効率的にタスクの詳細に単に反応するシステムを注目し、入力を報いる、多数の中からたった1つの感覚運動の関連の効能を向上させるだろう。
図5Cは、刺激B又はC(刺激当たりのたった1つのスパイク及び低いNEレベル)のいずれよりも刺激A(つまり、4つのスパイク及び高いNEレベル)に対するより強い反応を示す。
報酬評価(眼窩前頭皮質)モジュール
[0051]一般的に、LCのニューロンのフェージック及びトニックモードは、
調査及び
搾取のそれぞれと関連がある。しかしながら、重大な問題は、LCが行動の2つのモード間にいつ移行しなければならないのか決定することに関して依然として残存している。
【0048】
[0052]
増えている証拠は、OFCが報酬を評価する中で重大な役割を果たしていることを主張する。例えば、Roesch M.R.およびC.R. Olsonの「霊長類前頭皮質中の報酬価値及び動機づけと関係付けられたニューロンの活動(Neuronal Activity Related to Reward Value and Motivation in Primate Frontal Cortex,”)」サイエンス304:307-10(2004);Wallis J.E.及びMiller E.Kの「報酬優先課題の実行の間での霊長類の側面及び眼窩前前頭皮質の中のニューロンの活動(Neuronal activity in primate dorsolateral and orbital prefrontal cortex during performance of a reward preference task,)」ヨーロッパJ.Neurosci.18(7):2069-81 (2003);及びCampos, M等の「繰り返された自由選択の間の眼窩前頭な皮質の活動(Orbitofrontal cortical activity during repeated free choice,)」J Neurophysiol.107:12:3246-55(2012)を見てほしい。また、LCへの求心性神経の解剖学研究は、OFCがLCへの強い執着した計画を送ることを示した。例えば、Aston-Jones ,G等の「猿の中の眼窩前前頭皮質から青斑核までの顕著な投影。(“Prominent projections from the orbital prefrontal cortex to the locus coeruleus in monkey,”)」Soc.Neurosci.Abstr.28:86-9(2002)及びZhu ,Y等の「順行性の追跡によって明らかにされた猿の中の眼窩前頭皮質から青斑核までの投影。(Projection from the orbitofrontal cortex to the locus coeruleus in monkeys revealed by anterograde tracing,)」Soc.Neurosci.Abstr.30:211.3(2004)を見てほしい。従って、報酬評価モジュール214は、LC興奮活動のフェージック及びトニックモードの間の選択を駆動するための尽力の中で眼窩前頭皮質(OFC)をエミュレートする。
【0049】
[0053]
図6に示されるように、このシステム200の中で、ニューロンの2つのグループが報酬評価モジュール214の中で使用され、これは、トニックグループ602及びフェージックグループ604として参照される。フェージックグループ604は、関連モジュール208から入力を受信し得るが、しかし一方でトニックグループ602は外部の入力を受信し得ない。トニックグループ602は、互いに相互接続された興奮性のニューロンと抑制性のニューロンとから構成され得る。トニックグループ602中の興奮性のニューロンは自発的な興奮活動を有しており、これは表わされた入力と無関係である。フェージックのニューロンと興奮系のトニックのニューロンとの両方は、LCのニューロンを駆動することが出来る。
【0050】
[0054]関連モジュール208とフェージックのOFCのニューロンとの間のシナプスシスは、OFCの反応に対して入力を解読(map)し、またこの解読をすることは、どれだけ多くの報酬価値が電流入力から来ることができるか本質的に評価する。報酬価値が高い場合、電流入力がフェージックのOFCの反応を引き起こし得るという意味で、フェージックのOFCのニューロン(つまり、フェージックのグループ604の中のニューロン)は、関連モジュール208から出力/運動モジュール210に経路を開くためにLCのニューロンを駆動し得る。他方、報酬価値が低い場合、LCのニューロンは、出力/運動モジュール210に、電流入力に応答させるためのフェージックの応答を有し得ない。
【0051】
[0055]その間に、トニック興奮性OFCのニューロンとトニック抑制性OFCのニューロンとの間でのシナプシスは、LCのニューロンを駆動しようとしているトニックの活動に対して範囲を決定する。このシナプスのグループが十分に強くない時、トニックOFCのニューロン(つまり、トニックグループ602中のニューロン)からの自発的な活動は、LCにトニックの刺激を送ることを可能とし得る。従って、出力の反応が生成されるように、LCのトニック活動は、関連モジュール208から出力/運動モジュール210に経路を開き得る。しかしながら、このシナプスのグループが強い時、興奮性のトニックOFCのニューロンは、抑制性のトニックOFCのニューロンによって禁じられ得、従って興奮性のニューロンはLCを駆動し得ない。
【0052】
[0056]これらのシナプシスは適応性があり、ドーパミン(DA)を介して付加的な神経伝達物質の入力を受信する。DAは、予測エラー計算モジュール216から解放される。(高、中、及び低レベルの中での)DAの解放は、メタ可塑性のルールに基づいてこれらシナプシスを強くするか又は弱め、それはそれぞれLCをフェージック又はトニックモードへと駆動させるためにOFCを推奨する。更に詳述された記載は、下記のメタ可塑性セクションで見つけることができる。
予測エラー(
腹側被蓋野(VTA))モジュール
[0057]Schultz, W., et al.,等の「予測と報酬の神経系の基質(“A Neural Substrate of Prediction and Reward,”)」(Science275:1593-1598(1997)中で議論されるように、別のタイプの神経調節性のシステムとして、腹側被蓋領域(VTA)は、環境から受け取られた報酬に応答する脳部位であり、他の脳エリアに従って神経伝達物質としてのリリース・ドーパミン(DA)を解放することがさらに分かった。VTAのニューロンの活動は、環境から受け取られた実際の報酬と予測値との間の差異を反映すると考えられる。
【0053】
[0058]本開示のある観点に関して、VTAのニューロン(予測エラー計算モジュール216としてモデル化されたニューロン)は、予測された報酬としてOFCのニューロン(報酬評価モジュール214としてモデル化されたニューロン)から入力を受け取り、実際の環境上の報酬として報酬エンコードモジュール206からの入力を受け取る。これら2つの報酬値の間の違い
は、
OFC(つまり、報酬評価モジュール214)へのVTAのDA信号入力のレベルを設定する。実際の報酬が、期待値(つまり、予測された報酬)より高い場合、VTAのニューロンは高いDAレベルに帰着する、それらのベースラインより高い活動を生成する。実際の報酬が、期待されたより低い時、VTAのニューロンは、低いDAレベルに帰着する、それらのベースラインよりも低い活動を有する。期待値が、実際の報酬と一致する時、VTAのニューロンは、中間のDAレベルを出力する。
【0054】
[0059]予測エラー計算モジュール216中のアルゴリズムは、予測された報酬を学習するために使用される。ある観点に関して、予測された報酬は、一時的な違いの(TD)学習アルゴリズムによって決定され得、それは、学習法を駆動するために連続する時間増分を通じて(over)予測の変化(あるいは違い)を使用する。TD学習アルゴリズムは、次の時間増分において、同じ量の予測に、より近くそれをもたらすために任意の所定の時間増分で予測を更新する。
メタ可塑性のルール
[0060]よく知られた(典型的な)スパイク時間の依存する可塑性(STDP)のルールは、もっぱら前及び後のシナプスのニューロン間でのスパイク期間の差異に依存する。しかしながら、実験の証拠は、タイミングだけでシナプス可塑性のルールの決定することにおいて十分でないケースがあることを示す。Pawlak,V.等の中のデータの「タイミングはすべてだとは限りません。神経調節は、STDPのゲートを開く(“Timing is not everything: neuromodulation opens the STDP gate,”)」Front.Synaptic Neurosci.2:1-13(2010)は、シナプス可塑性が、調節の信号DAによって開閉されることを示している。可塑性の変更のサインは、Shen,W.等の「線条体のシナプス可塑性の二分するドーパミン作用性のコントロール(“Dichotomous Dopaminergic Control of Striatal Synaptic Plasticity,”)」Science321: 848-850 (2008)の中で記述されているように、神経伝達物質とレセプタとの組み合わせの濃度及び状態によっても影響される。本開示は、メタ可塑性のルールを紹介し、そこでは、メタ可塑性が、一般的に長期増強電位(LTP)及び長期抑圧(LTD)を含む、次のシナプス可塑性を引き起こすための容量中の変化を参照する。一般化されたシナプスの可塑性のルールとして、ここに示されたメタ可塑性のルールは、前及び後の-シナプスのニューロンの活動を有する、神経調節の入力とリンクし、これは恐らく遅延を付属する。
【0055】
[0061]前及び後のシナプスのニューロンの活動は、Izhikevich E.M.の「STDP及びドーパミン・シグナリングの関係を通じて末端部分の報酬問題を解決する(“Solving the Distal Reward Problem through Linkage of STDP and Dopamine Signaling,”)」Cerebral Cortex 17:2443-52(2007)中のスキームに似た適任性の痕跡(証拠)をもたらす。
しかし、メタ可塑性のルールで、増強作用p(t)と抑うつd(t)との痕跡は、以下の方程式(1)の中で別々に表現され、ここで適任性の痕跡は時間とともに減衰する。
【数1】
【0056】
ここで、τtraceは、痕跡の時定数である。
シナプスの変化は、以下(2)式として表わされる。
【数2】
【0057】
[0062]一般的に、
図7で示されるように、提案されるメタ可塑性のルールは、神経調節性の入力のレベルに依存する3つの神経系の活動モードを要求(取り決める)する。高いDAレベルは、Δw>Qを生み出す。
図7のグラフ706の中で示されるように、これは、Hebbian体制へ学問(知識)ルールを調節し、そこで、正のΔs(t)は前後及び後前のシナプスの興奮の事象に適用され、それはシナプスの強化に結びつく。低いDAレベルは、Δw<0を生み出す。
図7のグラフ704に示されるように、これは反Hebbian体制へ学問(知識)ルールを調節し、ここにおいて、負のΔs(t)が、シナプスを弱めるために前後及び後前のシナプスの興奮の事象の両方に適用される。グラフ704及び706は、区分的指数関数を示すが、他の関数(例えば、矩形波あるいは区分的長方形の関数)は、ある観点に関して代替して使用され得る。
【0058】
[0064]Δw〜0、Δs〜0であることから、中間のDAレベルはシナプスの重さの変更をほとんど誘発しない。
図7のグラフ702は、ある観点に関して、前後及び後前のシナプスの興奮の事象の両方に関して、この名目上のシナプスの変化を示す。他の観点に関して、グラフ702の中で示されるように、区分的指数関数(わずかな更新を表わすこと)よりも、むしろフラットで水平線(更新を表わさずに)が、中間のDAレベルの代わりに使用され得る。
【0059】
[0065]メタ可塑性のルールは、VTA(予測エラー計算モジュール216)からの高いDAレベルが、シナプスの増強作用を可能にするだろうことを要求し、そのようなシステム200は、関連性を思い出す。これに反して、VTAからの低いDAレベルは、シナプスの抑うつをもたらすであろう。そのようなシステム200は、前向きに早急に現在の関連性を忘れる。そのようなメタ可塑性のルールは報酬学習、特に逆転した学習スキームにおいて重要である。先の学習システムは、関連性を忘れるために不活発な低下メカニズムを使用し、それは関連性(つまり、逆転した学習)を忘れることに関してここに示された活発なメカニズムよりも著しく長い時間が掛かる。しかしながら、関連性について積極的に忘れることは、即時である必要がない。本開示に述べられているように、忘れることのスキームにしっかり組み込まれた幾つか安定性があり得る。
【0060】
[0066]このメタ可塑性の学習ルールは、スパイキングニューロンのネットワークに限らない。割合に基づいた神経系のネットワークの中で、適格性の痕跡は、神経系の反応の間での相関関係を使用して計算され、同様のルールは、神経調節の入力を有する適格の痕跡を関連づけるよう適用する。
【0061】
[0067]この学習のルールを用いて、システムが、予期されない報酬に導くアクションを調査する時、高いDA信号はOFCのフェージックニューロンに報いられた入力間での接続を強化するであろう。高いDA信号は、さらに興奮性トニックグループと抑制性のトニックグループとの間のシナプシスをも強くする。
図8Aの中で示されるように、学習の後では、OFCトニックニューロンが禁じられ、LCトニック活動をもはや駆動してはならない一方で、OFCのフェージックニューロンは活気を有し得、出力/運動モジュール210を特に同じ入力に応答させるためにLCのフェージックの活動を駆動し得る。従って、システムは、
搾取モードへと切り替えられる。
【0062】
[0068]この後、OFC(報酬評価モジュール214)が更新されており、この特定の入力に関する報酬を予想することを期待するけれども、VTA(予測誤差計算モジュール216)は中間のDAレベルを生成するであろう。予想された報酬が生じる限り、シナプシスの2つのグループは変化しないかもしれない。OFCは、フェージックの活動でLC(利得制御モジュール212)を駆動し続け得、また
図8Bの中で示されるように、システム200は
搾取モードの中にとどまる。
図8Bは現状を示す。
【0063】
[0069]しかしながら、報酬がこの入力から急に取り上げられた時、実際の報酬に対しての予期された報酬中のミスマッチは、VTAからの低いDA信号を生成し、それによって、逆転学習を引き起こすために以前強くなったシナプスを弱める。この後に、
図8C中で示されるように、OFCトニックニューロンは、積極的にLCトニック活動を駆動し得る。一方で、OFCのフェージックの神経系はし得ない。出力/運動モジュール210は、あらゆる入力に応答し得る。また、システム200は、新しい報酬の偶然性を得るために
調査モードに切り替えられ得る。このように、DAは、シナプスの基準重量(つまり、学習ルール)を調節する。
【0064】
[0070]したがって、ここに示されたDA依存のメタ可塑性のルールは、(1)感覚の入力と報酬との間の迅速な関連性;及び(2)陳腐化した報酬と感覚の入力の逆転学習との間での迅速な分離、を可能にする。Izhikevichの中の以前の報酬学習スキームと比較して、本開示の観点は、報酬信号の変化により速く適合する。DA依存のメタ可塑性は、さらにフェージックかトニックのいずれかモードで利得制御モジュール212を駆動する報酬評価モジュール214を変更させることで、
調査と
搾取との間の行動の切り替えを仲介する。したがって、行動の切り替えは、報酬評価モジュール214がどれくらいよく報酬を予言することができるかに依存する。システムは、一旦報酬の偶然性が学習されると、環境を調査し続けるための、又は陳腐化した報酬を偶然に開発し続けるための、エネルギーを無駄にはしないため、エネルギー消費量的に、ここに示された学習ルールは、より効率的である。
【0065】
[0071]第2に、NE変調は、運動の関連性における利得を早く制御し得る。システム200は、このようにシナプスの可塑性を使用せずに、柔軟な原動力を所有する。シナプス可塑性は、利得変更の同様の影響を遂行することができるが、トレーニングのための時間を要し、また容易に切り替え復帰ができない。報酬の偶発が変わった後、NEシステムは、すぐにシステム200にオプションを調査させる。
【0066】
[0072]同様に、新しい報酬の偶然性が確立されるとすぐに、システム200での
搾取モードへの切り替は、消費エネルギーを最少化する期間は、システムが報酬を最大化できるようにする。同様に、エネルギー消費量的に、本開示の観点は、より効率的である。
【0067】
[0073]最後に、計画的なシステムは、きわめて生物学上妥当性がある。(感覚のコーディング、運動出力および報酬コーディングを含む)システム200の内部の信号は、すべてスパイクのような神経系の活動として表わされ得る。これは、分散コンピューティングプラットフォームの中で履行を許可する。システムは、スパイキング神経系ネットワークとして履行され、またこのスキームがマルチプルの入力選択に拡張可能であることが示されている。しかしながら、このスキーム中のすべての要素は、割合に基づいた神経系のシステムと同様に適用する。
動作例
[0074]
図9は、本開示のある観点に従った、神経系の適応行動を生成することに関するオペレーション例900のフロー図である。オペレーション900は、ハードウェア(例えば、1つまたは複数の処理装置を具備する処理システムによる)の中で、ソフトウェア、あるいはファームウェアの中で行なわれ得る。
【0068】
[0075]オペレーション900は、1つまたは複数の入力刺激を受信することにより902で始まり得る。904で、受信した入力刺激は、出力信号を生成するための努力で処理され得る。904での処理は、利得制御ユニットによって生成された第1の神経調節信号で調節される。ある観点に関して、第1の神経調節信号はノルエピネフリン(NE)信号を含む。ある観点に従うと、利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている。
【0069】
[0076]906で、利得制御ユニットは、少なくとも2つの異なる神経系の活動モードの間で切り替わるように制御され得る。第1の神経調節信号(利得制御ユニットによって生成された)の第1のタイミング又はレベルの少なくとも1つが、神経系の動作モードに基づいて決定される。ある観点に従えば、少なくとも2つの異なる神経系の活動モードは、トニックモードおよびフェージックモードを具備する。トニックモードは、調査の期間に関係し得、またフェージックモードは、
搾取の期間に関係し得る。
【0070】
[0077]ある観点に従えば、利得制御ユニットは、906で報酬評価ユニットで制御され得る。報酬評価ユニットは、眼窩前頭皮質の振る舞いをモデルにされ得る。ある観点に関して、少なくとも2つの異なる神経系の活動モードは、トニックモードおよびフェージックモードを含んでいる。このケースにおいて、報酬評価ユニットは、利得制御ユニットのフェージックモードを駆動するためのフェージック神経系のグループ、及び利得制御ユニットのトニックモードを駆動するためのトニック神経系のグループを含み得る。トニック神経系のグループは、興奮性の神経系のグループ及び抑制性の神経系のグループを含み得る。
【0071】
[0078]ある観点に従えば、動作900は、更に(例えば、環境202によって供給されるような)実際の報酬を決定することと、(例えば、受信した入力刺激の少なくとも1つに基づいた)予測された報酬を決定すること、及び予測された報酬と実際の報酬との間での差異に基づいたトニック神経系のグループ又はフェージック神経系のグループのシナプス可塑性を調節すること、を含む。予測された報酬を決定することは、一時的な違い(TD)の学習アルゴリズムを使用することを含み得る。ある観点に関して、調節することは、報酬評価ユニットに第2の神経調節信号を出力することを含む。第2の神経調節信号のレベルは、予測された報酬と実際の報酬との間の差異に基づき得る。第2の神経調節信号は、例えばドーパミン(DA)の信号を具備し得る。ある観点に関して、第2の神経調節信号の高いレベルは、シナプスの相乗作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰をもたらす。ある観点に関して、第2の信号調節信号の高いレベルは:
(1)トニックニューロングループの興奮性のニューロングループ及び抑制性のニューロングループの間でのシナプシスを強化し、そのようなトニックニューロングループは、禁止され、利得制御ユニットのトニックモードを駆動しないだろう、また
(2)フェージックニューロングループと関連付けられるシナプシスを強化し、そのようなフェージックニューロングループは、利得制御ユニットのフェージックモードを駆動するであろう。第2の神経調節信号の低いレベルは、興奮性のニューロングループと抑制性のニューロングループとの間と、フェージックニューロングループと、を関連付けられた両方の強くなったシナプシスを弱め得る。そのような、トニックニューロングループは、利得制御ユニットのトニックモードを駆動し、フェージックニューロングループは、利得制御ユニットのフェージックモードを駆動しないであろう。
【0072】
[0079]ある観点に従えば、実際及び予測された報酬を決定すること及びDA信号を出力することは、予測エラー計算ユニットによって行なわれる。予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデル(手本)にし得る。
【0073】
[0080]908で、出力信号は、出力装置に送られ得る。ある観点に関して、出力装置は運動ニューロンの振る舞いをモデルにする。上述されたように、利得制御ユニットは、出力信号を調節することに加えて、ゲートメカニズムとして機能し得、出力信号を出力装置すべてに送信されることから防ぐ。
【0074】
[0081]上記に説明された方法のさまざまな動作は、対応する機能を行うことがあらゆる適切な手段によって行われ得る。手段は、回路、特定用途向け集積回路(ASIC)、またはプロセッサを含むがそれらに限定されるわけではない、様々なハードウェアおよび/またはソフトウェアコンポーネントおよび/またはモジュールを含みうる。一般的に、動作が図中に例示されている場合、それらの動作は、同様の参照番号を付した、対応する同等のミーンズ・プラス・ファンクション・コンポーネントを有すことができる。
【0075】
[0082]たとえば、
図9に示した動作900は、
図9Aに例示された手段900Aに対応する。例えば、表示することについての手段は、ディスプレイ(例えばモニター、平坦画面、タッチスクリーンなど)、プリンタ、あるいは他のテーブル、チャートあるいはグラフのような、視覚的な描写に関するデータを出力するあらゆる他の適切な手段を含み得る。処理するための手段、受信するための手段、制御するための手段、送信するための手段、調節するための手段、あるいは決定するための手段は、処理システムを含み得、それは1つまたは複数のプロセッサあるいは演算処理装置を含み得る。格納するための手段は、メモリあるいは他の適切な記憶装置(例えば、RAM)も含み得、それは処理システムによってアクセスされ得る。
【0076】
[0083]ここで使用されるような、用語「決定する」は、幅広い様々な動きを包含している。たとえば、「決定すること」は、計算すること、演算すること、処理すること、導出すること、調査すること、検索すること(たとえば、テーブル、データベース、または別のデータ構造を検索すること)、究明すること、等を含み得る。また、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ内のデータにアクセスすること)、等を含み得る。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立すること、等を含み得る。
【0077】
[0084]ここで使用されるような、アイテムのリスト“のうちの少なくとも1つ”を称する表現は、単一の数を含む、これらのアイテムのいずれかの組み合わせのことを称する。例えば、“a、b、cのうちの少なくとも1つ”は、abc、a−b、a−c、b−c、及びa−b−cをカバーすることを意図されている。
【0078】
[0085]本開示に関連付けられて説明された、様々な実例となる論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ信号(FPGA)または他のプログラマブル論理デバイス(PLD)、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、本明細書で説明された機能を実行するために設計された、それらの任意の組み合わせを用いて実現または実行され得る。汎用プロセッサは、マイクロプロセッサであり得るが、その代わりに、プロセッサは、商品として利用可能な任意のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであり得る。プロセッサは、例えば、DSPと1つのマクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに結合した1つまたは複数のマイクロプロセッサ、または、あらゆる他の構成といった計算デバイスの組み合わせとしても実施され得る。
【0079】
[0086]本開示に関連付けられて記述されたアルゴリズム又は方法のステップは、直接、ハードウェアで、プロセッサにより実行されるソフトウェアモジュールで、あるいは、2つの組み合わせで具現化され得る。ソフトウェアモジュールは、技術的に知られているあらゆる形態の記憶媒体の中に存在し得る。使用され得る記憶媒体のいくつかの例は、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、フラッシュメモリ、EPROMメモリ、EEPROM(登録商標)メモリ、レジスタ、ハードディスク、取り外し可能なディスク、CD−ROM、等を含む。ソフトウェアモジュールは、単一の命令、または多くの命令を備えており、いくつかの異なるコードセグメントを通して、異なるプログラム間で、および、複数の記憶媒体にわたって、分散され得る。記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合され得る。あるいは、記憶媒体は、プロセッサに組み込まれ得る。
【0080】
[0087]ここで開示される方法は、記述された方法を達成するための1つまたは複数のステップ又は動作を備える。方法ステップ及び/又は動作は、請求項の範囲から逸脱することなくお互いと交換され得る。言い換えると、ステップまたは動作の特定の順序が指定されていない限り、特定のステップ及び/又は動作の順序及び/又は使用は、請求項の範囲から逸脱することなく、変更され得る。記述された機能は、ハードウェア、ソフトウェア、ファームウェア、または、これらのあらゆる組み合わせで履行され得る。もしハードウェアの中で履行されれば、一例のハードウェア構成、はデバイス中の処理システムを含み得る。処理システムは、バスの構築によって履行されうる。バスは、処理システムの特定のアプリケーション及び設計全体の制約に依存する、任意の数の相互接続するバス及びブリッジを含み得る。バスは、プロセッサ、機械可読媒体、及びバスインターフェースを含むさまざまな回路と共にリンクし得る。バスインターフェースは、ネットワークアダプタ、他のもの同士、をバスによる処理システムに接続するために使用され得る。ネットワークアダプタは、信号処理機能を履行するために使用され得る。ある観点に関して、ユーザインターフェース(例えば、キーパッド、ディスプレイ、マウス、ジョイスティックなど)も、バスに接続され得る。バスは、さらにタイミング源、周辺装置、電圧レギュレータ、パワー、電力マネージメント回路などのような様々な他の回路をリンクし得、それは当技術において公知で、したがって、それ以上記述されないだろう。
【0081】
[0089]プロセッサは、コンピュータ読取可能媒体上に記憶されているソフトウェアの実行を含む、汎用処理とバスとの管理を担い得る。プロセッサは、1つまたは複数の汎用及び/又は特定用途プロセッサで履行され得る。例は、マイクロプロセッサ、マイクロ制御装置、DSPプロセッサ、及びソフトウェアを実行できる他の回路を含む。ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はその他のものと呼ばれるか否かにかかわらず、ソフトウェアは、命令、データ、又はこれらのあらゆる組み合わせを意味するように広く解釈すべきである。機械可読媒体は、一例として、RAM(ランダムアクセスメモリ)、フラッシュメモリ、ROM(リードオンリーメモリ)、PROM(プログラム可能リードオンリーメモリ)、EPROM(消去可能プログラム可能リードオンリーメモリ)、EEPROM(電気的に消去可能プログラム可能リードオンリーメモリ)、レジスタ、磁気ディスク、光ディスク、ハードドライブ、又はこれらのあらゆる適切な記憶媒体、又はこれらのあらゆる組み合わせを含み得る。機械可読媒体は、コンピュータプログラム製品で具現化され得る。コンピュータプログラム製品は、パッケージ材料を備え得る。
【0082】
[0090]ハードウェアの履行では、機械可読媒体は、プロセッサから分離した処理システムの一部であり得る。しかしながら、当業者が容易に認識するように、機械可読媒体又はそのあらゆる一部は、処理システムの外部にあり得る。例として、機械可読媒体は、伝送回線、データによって変調された搬送波、及び/又はデバイスとは分離したコンピュータ製品を含み得、そのすべてはバスインターフェースを通じてプロセッサによりアクセスされうる。代替的に、又は加えて、機械読取可能媒体、又はその任意の部分は、キャッシュ、及び/又は一般的なレジスタファイルを伴い得るような場合、プロセッサと一体化され得る。
【0083】
[0091]処理システムは、プロセッサ機能性を提供する1つまたは複数のマイクロプロセッサ、及び機械可読媒体の少なくとも一部を提供する外部メモリを有し、すべてが外部バスアーキテクチャを通して他の支援回路と共にリンクされている、汎用処理システムとして構成され得る。代替的に、処理システムは、プロセッサと、バスインターフェースと、ユーザ端末と、支援回路と、単一のチップ中に統合されている機械読取可能媒体の少なくとも一部とを持つASIC(特定用途向け集積回路)で履行され、又は1つ以上のFPGA(フィールドプログラム可能ゲートアレイ)、PLD(プログラム可能論理デバイス)、コントローラ、ステートマシーン、ゲート論理、ディスクリートハードウェアコンポーネント、又は他のあらゆる適切な回路、又は本開示全体を通して記述された様々な機能を実行できる回路のあらゆる組み合わせで、履行され得る。当業者は、システム全体に課された特定の用途および全体的な設計の制約に依存する処理システムに関して説明された機能をどのように実現することが最善かを認識するだろう。機械可読媒体は、多数のソフトウェアモジュールを備え得る。ソフトウェアモジュールは、プロセッサによって実行されるときに、さまざまな機能を処理システムに実行させる命令を含む。ソフトウェアモジュールは、送信モジュールおよび受信モジュールを含み得る。各ソフトウェアモジュールは、単一の記憶デバイス中に存在することができ、又は複数の記憶デバイスにわたって分散され得る。一例として、ソフトウェアモジュールは、トリガイベントが生じた時に、ハードドライブからRAMにロードされ得る。ソフトウェアモジュールの実施の間、プロセッサは、アクセススピードを増加させるために、命令のうちのいくつかをキャッシュにロードし得る。その後、1つまたは複数のキャッシュラインが、プロセッサによる実施のために汎用レジスタファイルにロードされ得る。下記においてソフトウェアモジュールの機能に言及する場合、そのような機能は、そのソフトウェアモジュールから命令が実行される時、プロセッサによって履行されるということが理解されるであろう。
【0084】
[0093]ソフトウェア中で履行される場合、機能は、コンピュータ可読媒体上のコード又は1つまたは複数の命令として、転送され、又は記憶され得る。コンピュータ読取可能媒体は、1つの場所から別の場所へのコンピュータプログラムの転送を促進するあらゆる媒体を含む、通信媒体及びコンピュータ記憶媒体の双方を含む。記憶媒体は、コンピュータによってアクセス可能なあらゆる利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ読取可読媒体は、RAM、ROM、EEPROM、CD−ROM、または他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、または、命令またはデータ構造の形態で所望のプログラムコードを記憶または搬送するために使用されることができ、およびコンピュータによってアクセスされることができる、あらゆる他の媒体を含むことができる。また、あらゆる接続は、コンピュータ可能媒体と適切に称される。例えば、ソフトウェアが、ウェブサイト、サーバ、又は同軸ケーブル、ファイバ光ケーブル、ツイストペア、デジタル加入者ライン(DSL)、又は赤外線、無線、マイクロ波のようなワイヤレス技術を使用している他の遠隔ソースから送信された場合、同軸ケーブル、ファイバ光ケーブル、ツイストペア、DSL、あるいは赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用したようなディスク(diskおよびdisc)は、コンパクトディスク(CD)、レーザディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスク、および、ブルーレイ(登録商標)ディスクを含むが、一般的に、ディスク(disk)は、データを磁気的に再生する一方で、ディスク(disc)はデータをレーザによって光学的に再生する。したがって、いくつかの態様では、コンピュータ可読媒体は、非一時的なコンピュータ可読媒体(例えば、有体的媒体)を備えうる。他の観点では、コンピュータ可読媒体は、一時的なコンピュータ可読媒体(たとえば、信号)を備え得る。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
【0085】
[0094]したがって、ある観点は、ここで提示した動作を実行するためのコンピュータプログラム製品を備え得る。例えば、そのようなコンピュータプログラム製品は、それに命令を記憶(および/または符号化)したコンピュータ可読媒体を備え得、それらの命令は、本明細書で説明された動作を実行するために1つ以上のプロセッサによって実行可能である。ある観点に対して、コンピュータプログラム製品は、パッケージングマテリアルを含み得る。
【0086】
[0095]さらに、モジュール及び(又は)ここに記述された技術と方法とを行なうための他の適切な手段は、ダウンロード可能とされ、及び/又はそうでなければ、適切なものとしてデバイスによって得ることができる、と認識されるべきである。たとえば、そのようなデバイスは、ここに説明された方法を実行するための手段の伝送を容易にするために、サーバに結合され得る。代替的に、ここに記述された様々な方法は、記憶手段(例えばRAM、ROM、コンパクトディスク(CD)あるいはフロッピーディスクなどのような物理的な記憶媒体など)を介して提供され得、そのようなデバイスが、デバイスに記憶手段を提供し又は結合する上で様々な手段を得ることが出来る。さらに、ここに記載される技法及び方法をデバイスに提供するためのあらゆる他の適切な技法が利用され得る。
【0087】
[0096]特許請求の範囲は、上記に例示されたコンポーネント及び正確な構成に限定されるわけではないということが理解されるべきである。特許請求の範囲から逸脱することなく、上述した装置及び方法の、詳細、動作、及び構成において、さまざまな修正、変更、およびバリエーションを行い得る。
以下、願書に添付した出願当初の特許請求の範囲を付記する。
[付記1]
神経系の適応行動を生成することに関する方法であって、
1つまたは複数の入力刺激を受信することと、
出力信号を生成するために、前記受信した入力刺激を処理することと、ここにおいて、前記処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で切り換えるための前記利得制御ユニットを制御することと、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、前記神経系の活動モードに基づいて決定される、を具備する方法。
[付記2]
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、付記1の方法。
[付記3]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、付記1の方法。
[付記4]
前記トニックモードは、調査の期間と関連され、前記フェージックモードは開拓の期間と関連される、付記3の方法。
[付記5]
前記利得制御ユニットを前記制御することは、報酬評価ユニットで前記利得制御ユニットを制御することを具備する、付記1の方法。
[付記6]
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、付記5の方法。
[付記7]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、付記5の方法。
[付記8]
実際の報酬を決定することと、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定することと、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節すること、を更に具備する付記7の方法。
[付記9]
前記予測された報酬を決定することは、一時的な相違(TD)の学習アルゴリズムを使用すること、を具備する付記8の方法。
[付記10]
前記調節することは、前記報酬評価ユニットに第2の神経調節信号を出力することを具備し、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、付記8の方法。
[付記11]
前記第2の神経調節信号の高いレベルは、シナプスの相乗作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰をもたらす、付記10の方法。
[付記12]
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、そのような前記トニックニューロングループが、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループと関連したシナプスを強化し、そのような前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、付記10の方法。
[付記13]
前記第2の神経調節信号の低いレベルは、前記フェージックニューロングループに関連し、また前記興奮性ニューロングループと前記抑制性ニューロングループとの間のいずれも、前記強化されたシナプスを弱め、そのような前記トニックニューロングループは、前記利得制御ユニットの前記トニックモードを駆動し、前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動しない、付記12の方法。
[付記14]
前記実際の及び予測された報酬を決定し、前記第2の神経調節信号を出力することは、予測エラー計算ユニットによって行われる、付記10の方法。
[付記15]
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、付記14の方法。
[付記16]
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、付記10の方法。
[付記17]
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、付記1の方法。
[付記18]
出力ユニットに前記出力信号を送信することを更に具備し、
ここにおいて、前記出力ユニットは、運動ニューロンの振る舞いをモデルにしている、付記1の方法。
[付記19]
神経系の適応行動を生成することに関する装置であって、
処理システムは、
1つまたは複数の入力刺激を受信し、
出力信号を生成するために、前記受信した入力刺激を処理し、ここにおいて、前記処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で切り換えるための前記利得制御ユニットを制御するよう構成され、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、前記神経系の活動モードに基づいて決定される、を具備する装置。
[付記20]
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、付記19の装置。
[付記21]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、付記19の装置。
[付記22]
前記トニックモードは、調査の期間と関連され、前記フェージックモードは開拓の期間と関連される、付記21の装置。
[付記23]
前記処理システムは、報酬評価ユニットで前記利得制御ユニットを制御するよう構成される、付記19の装置。
[付記24]
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、付記23の装置。
[付記25]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、付記23の装置。
[付記26]
前記処理システムは、
前記受信した入力刺激のうち少なくとも1つに基づいて実際の報酬を決定し、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定し、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節するよう、更に構成される付記25の装置。
[付記27]
前記処理システムは、一時的なの相違(TD)の学習アルゴリズムを用いて、前記予測された報酬を決定するよう構成される、付記26の装置。
[付記28]
前記処理システムは、前記報酬評価ユニットに第2の神経調節信号を出力することによって、前記シナプス可塑性を調節し、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、付記26の装置。
[付記29]
前記第2の神経調節信号の高いレベルは、シナプスの相乗作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰を招く、付記28の装置。
[付記30]
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、そのような前記トニックニューロングループが、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループに関連したシナプスを強化し、そのような前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、付記28の装置。
[付記31]
前記第2の神経調節信号の低いレベルは、前記フェージックニューロングループに関連され、また前記興奮性ニューロングループと前記抑制性ニューロングループとの間のいずれも、前記強化されたシナプスを弱め、そのような前記トニックニューロングループは、前記利得制御ユニットの前記トニックモードを駆動し、前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動しない、付記30の装置。
[付記32]
前記処理システムは、予測エラー計算ユニットを具備し、ここにおいて、前記実際の及び予測された報酬を前記決定すること、並びに前記第2の神経調節信号を出力することは、前記予測エラー計算ユニットによって行われる、付記28の装置。
[付記33]
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、付記32の装置。
[付記34]
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、付記28の装置。
[付記35]
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、付記19の装置。
[付記36]
前記処理システムは、出力ユニットに前記出力信号を送信するよう更に構成され、ここにおいて、前記出力ユニットは、運動ニューロンの振る舞いをモデルにしている、付記19の装置。
[付記37]
1つまたは複数の入力刺激を受信する手段と、
出力信号を生成するために、前記受信した入力刺激を処理する手段と、ここにおいて、前記処理する手段は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で切り換えるための前記利得制御ユニットを制御する手段と、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、前記神経系の活動モードに基づいて決定される、を具備する神経系の適応行動を生成することに関する装置。
[付記38]
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、付記37の装置。
[付記39]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、付記37の装置。
[付記40]
前記トニックモードは、調査の期間と関連され、前記フェージックモードは開拓の期間と関連される、付記39の装置。
[付記41]
前記利得制御ユニットを前記制御する手段は、報酬評価ユニットで前記利得制御ユニットを制御するよう構成される、付記37の装置。
[付記42]
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、付記41の装置。
[付記43]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、付記41の装置。
[付記44]
実際の報酬を決定する手段と、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定する手段と、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節する手段、を更に具備する付記43の装置。
[付記45]
前記予測された報酬を決定する前記手段は、一時的な相違(TD)の学習アルゴリズムを使用すること、を具備する付記44の装置。
[付記46]
調節する前記手段は、前記報酬評価ユニットに第2の神経調節信号を出力するよう構成され、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、付記44の装置。
[付記47]
前記第2の神経調節信号の高いレベルは、シナプスの相乗作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰を招く、付記46の装置。
[付記48]
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、そのような前記トニックニューロングループは、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループに関連したシナプスを強化し、そのような前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、付記46の装置。
[付記49]
前記第2の神経調節信号の低いレベルは、前記フェージックニューロングループと関連し、また前記興奮性ニューロングループと前記抑制性ニューロングループとの間のいずれにも前記強化されたシナプスを弱め、そのような前記トニックニューロングループは、前記利得制御ユニットの前記トニックモードを駆動し、前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動しない、付記48の装置。
[付記50]
予測エラー計算ユニットは、前記実際の及び予測された報酬を決定する手段を具備し、前記第2の神経調節信号を出力するよう構成される、付記46の装置。
[付記51]
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、付記50の装置。
[付記52]
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、付記46の装置。
[付記53]
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、付記37の装置。
[付記54]
出力ユニットに前記出力信号を送信する手段を更に具備し、
ここにおいて、前記出力ユニットは、運動ニューロンの振る舞いをモデルにしている、付記37の装置。
[付記55]
1つまたは複数の入力刺激を受信し、
出力信号を生成するために、前記受信した入力刺激を処理すること、ここにおいて、前記処理は、利得制御ユニットによって生成された第1の神経調節信号で調節され、
少なくとも2つの相違する神経系の活動モード間で切り換えるための前記利得制御ユニットを制御すること、ここにおいて、前記利得制御ユニットによって生成された前記第1の神経調節信号のタイミング又はレベルのうち少なくとも1つは、前記神経系の活動モードに基づいて決定される、を実行可能な命令を具備する、コンピュータ可読媒体を具備する神経の適応行動を生成することに関するコンピュータプログラム製品。
[付記56]
前記利得制御ユニットは、青斑核(LC)の振る舞いをモデルにしている、付記55のコンピュータプログラム製品。
[付記57]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードと、を具備する、付記55のコンピュータプログラム製品。
[付記58]
前記トニックモードは、調査の期間と関連され、前記フェージックモードは開拓の期間と関連される、付記57のコンピュータプログラム製品。
[付記59]
前記利得制御ユニットを前記制御することは、報酬評価ユニットで前記利得制御ユニットを制御することを具備する、付記55のコンピュータプログラム製品。
[付記60]
前記報酬評価ユニットは、眼窩前頭皮質(OFC)の振る舞いをモデルにしている、付記59のコンピュータプログラム製品。
[付記61]
前記少なくとも2つの相違する神経系の活動モードは、トニックモードとフェージックモードとを具備し、ここにおいて、前記報酬評価ユニットは、
前記利得制御ユニットの前記フェージックモードを駆動するためのフェージックニューロングループと、
前記利得制御ユニットの前記トニックモードを駆動するためのトニックニューロングループと、ここにおいて、前記トニックニューロングループは、興奮性ニューロングループと抑制性ニューロングループとを具備する、付記59のコンピュータプログラム製品。
[付記62]
実際の報酬を決定すること、
前記受信した入力刺激の少なくとも1つに基づいて予測された報酬を決定すること、
前記予測された報酬と前記実際の報酬との間の差異に基づいて前記トニックニューロングループ又は前記フェージックニューロングループのシナプス可塑性を調節すること、を実行可能な命令を更に具備する付記61のコンピュータプログラム製品。
[付記63]
前記予測された報酬を決定することは、一時的な相違(TD)の学習アルゴリズムを使用すること、を具備する付記62のコンピュータプログラム製品。
[付記64]
前記調節することは、前記報酬評価ユニットに第2の神経調節信号を出力することを具備し、前記第2の神経調節信号のレベルは、前記予測された報酬と前記実際の報酬との間の前記差異に基づいている、付記62のコンピュータプログラム製品。
[付記65]
前記第2の神経調節信号の高いレベルは、シナプスの相乗作用が関連性を記憶できるようにし、前記第2の神経調節信号の低いレベルは、前記関連性を忘れさせるためにシナプスの減衰を招く、付記64のコンピュータプログラム製品。
[付記66]
前記第2の神経調節信号の高いレベルは、
前記トニックニューロングループの前記抑制性ニューロングループと前記興奮性ニューロングループとの間のシナプスを強化し、そのような前記トニックニューロングループは、抑制され、前記利得制御ユニットの前記トニックモードを駆動しない、及び
前記フェージックニューロングループと関連したシナプスを強化し、そのような前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動する、付記64のコンピュータプログラム製品。
[付記67]
前記第2の神経調節信号の低いレベルは、前記フェージックニューロングループと関連し、また前記興奮性ニューロングループと前記抑制性ニューロングループとの間のいずれの前記強化されたシナプスを弱め、そのような前記トニックニューロングループは、前記利得制御ユニットの前記トニックモードを駆動し、前記フェージックニューロングループは、前記利得制御ユニットの前記フェージックモードを駆動しない、付記66のコンピュータプログラム製品。
[付記68]
前記実際の及び予測された報酬を決定すること並びに前記第2の神経調節信号を出力することは、予測エラー計算ユニットによって行われる、付記64の計算プログラム製品。
[付記69]
前記予測エラー計算ユニットは、腹側被蓋野(VTA)の振る舞いをモデルにしている、付記68のコンピュータプログラム製品。
[付記70]
前記第2の神経調節信号は、ドーパミン(DA)信号を具備する、付記64のコンピュータプログラム製品。
[付記71]
前記第1の神経調節信号は、ノルエピネフリン(NE)信号を具備する、付記55のコンピュータプログラム製品。
[付記72]
出力ユニットに前記出力信号を送信することを実行可能な命令を更に具備し、
ここにおいて、前記出力ユニットは、運動ニューロンをモデルにしている、付記55のコンピュータプログラム製品。