(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2017-221307(P2017-221307A)
(43)【公開日】2017年12月21日
(54)【発明の名称】認知機能障害の病態診断システム
(51)【国際特許分類】
A61B 10/00 20060101AFI20171124BHJP
【FI】
A61B10/00 H
A61B10/00 Y
【審査請求】未請求
【請求項の数】7
【出願形態】OL
【全頁数】10
(21)【出願番号】特願2016-117755(P2016-117755)
(22)【出願日】2016年6月14日
(71)【出願人】
【識別番号】505246789
【氏名又は名称】学校法人自治医科大学
(71)【出願人】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100109508
【弁理士】
【氏名又は名称】菊間 忠之
(72)【発明者】
【氏名】櫻田 武
(72)【発明者】
【氏名】平井 真洋
(72)【発明者】
【氏名】渡辺 英寿
(72)【発明者】
【氏名】村松 慎一
(72)【発明者】
【氏名】井澤 淳
(57)【要約】 (修正有)
【課題】認知機能障害の病態を非侵襲的・簡易的・定量的に評価することができる、認知機能障害の病態診断システムを提供する。
【解決手段】被験者が強化学習型タスクを行うための器具若しくは機器、時刻tにおける器具若しくは機器の状態s
tを観測する手段、時刻tにおいて被験者の行動a
tを観測する手段、時刻tにおいて被験者に与えられた報酬r
tを観測する手段、観測された、状態s
t、行動a
tおよび報酬r
tに関するデータを記録する手段、および記録されたデータから強化学習アルゴリズムのパラメータを数値計算によって決定する手段を具える認知機能障害の病態診断システム。
【選択図】
図1
【特許請求の範囲】
【請求項1】
被験者が強化学習型タスクを行うための器具若しくは機器、
時刻tにおける器具若しくは機器の状態stを観測する手段、
時刻tにおいて被験者が選択した行動atを観測する手段、
時刻tにおいて被験者に与えられた報酬rtを観測する手段、
観測された状態st、行動atおよび報酬rtに関するデータを記録する手段、および
記録されたデータから強化学習アルゴリズムのパラメータを決定する手段を具える
認知機能障害の病態診断システム。
【請求項2】
強化学習型タスクが、
ブロックを置くことが許された3つの箇所のいずれか一ヶ所以上に、大きさの異なる複数のブロックが積み上げられている状態から、
(1)ブロックを一度に一個しか移動させることができない。
(2)小さなブロックの上に大きなブロックを置くことができない。
(3)上記3つの箇所以外の所にブロックを置くことができない。
という制約のもとで、
全てのブロックが所定の1つの箇所に積み上げられている状態にすることである、請求項1に記載の認知機能障害の病態診断システム。
【請求項3】
被験者に与えられた報酬rtが、強化学習型タスクのゴールに近づいているか否かである、請求項1または2に記載の認知機能障害の病態診断システム。
【請求項4】
強化学習型タスクを遂行中の被験者の神経活動を観測する手段を具備する、請求項1〜3のいずれかひとつに記載の認知機能障害の病態診断システム。
【請求項5】
強化学習アルゴリズムがQ学習アルゴリズムである、請求項1〜4のいずれかひとつに記載の認知機能障害の病態診断システム。
【請求項6】
強化学習アルゴリズムのパラメータが、学習率α、探索ノイズβ、および割引率γから選択される少なくとも一つである、請求項1〜5のいずれかひとつに記載の認知機能障害の病態診断システム。
【請求項7】
被験者に強化学習型タスクを行わせ、
時刻tにおける、状態stと被験者が選択した行動atと被験者に与えられた報酬rtを観測し、
時刻tにおいて観測された、状態stと被験者が選択した行動atと被験者に与えられた報酬rtに関するデータを記録し、
記録されたデータから強化学習アルゴリズムのパラメータを決定することを含む、
認知機能障害の病態診断のためのパラメータの算出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、認知機能障害の病態診断システムに関する。より詳細に、認知機能障害の病態を非侵襲的・簡易的・定量的に評価することができる、認知機能障害の病態診断システムに関する。
【背景技術】
【0002】
認知機能障害の治療または予防のために、神経又は精神障害及びその症状、特に多動性、不注意、及び/又は衝動性の1又は複数、並びにその他の障害で現れる状態に関連づけられる認知機能障害の病態を非侵襲的・簡易的・定量的に評価する手法が求められている。さらに、認知機能障害がどの脳部位と対応関係にあるのかを明らかにすることが求められている。
【0003】
特許文献1は、ヒトの一生理学的状態を検出する装置であって、少なくとも2つの生理学的パラメータを受信し、受信した生理学的パラメータに基づいて、前記生理学的状態の存在又は発生を示す結果信号を求める処理手段、及び結果信号を示す出力を生成する出力手段を備え、装置が、各々が事前に計算された前記生理学的状態の存在又は発生の確率に対応する複数の入力を含むルックアップテーブルを保存する保存手段を備え、この場合事前に計算された確率は既にモニターされた生理学的パラメータに基づいて強化学習プロセスなどの計算プロセスにより求められていること、及び処理手段が、受信した少なくとも2つの生理学的パラメータを処理してルックアップテーブルの複数の入力の内の一つを特定し、ルックアップテーブルの特定済み入力に基づいて前記結果信号を求めることを特徴とする装置を開示している。
【0004】
特許文献2は、行動及び認知試験を、復元モデル(Shaham,Psychopharmacology(Berl)168,3-20(2003))、時間差強化学習(TDRL, temporal difference reinforcement learning)モデル(Redish,Science.2004 Dec 10;306(5703):1944-7)などの強化学習モデルのようなモデルと組み合わせて使用して耽溺障害を評価できると述べている。
【0005】
非特許文献1は、人間である被験者を,強化学習のエージェントであると見立てて、被験者の行動決定を強化学習アルゴリズムの観点から解析を行なった結果を開示している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特表2007−508076号公報
【特許文献2】特表2011−521954号公報
【非特許文献】
【0007】
【非特許文献1】佐々木隆宏「強化学習型タスクにおける人間の行動研究に関する研究」平成16年度電気通信大学大学院修士論文
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の課題は、認知機能障害の病態を非侵襲的・簡易的・定量的に評価することができる、認知機能障害の病態診断システムを提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決すべく鋭意検討した結果、下記の形態を包含する本発明を完成するに至った。
【0010】
〔1〕 被験者が強化学習型タスクを行うための器具若しくは機器、
時刻tにおける器具若しくは機器の状態s
tを観測する手段、
時刻tにおいて被験者が選択した行動a
tを観測する手段、
時刻tにおいて被験者に与えられた報酬r
tを観測する手段、
観測された状態s
t、行動a
tおよび報酬r
tに関するデータを記録する手段、ならびに
記録されたデータから強化学習アルゴリズムのパラメータを決定する手段を具える
認知機能障害の病態診断システム。
【0011】
〔2〕 強化学習型タスクが、
ブロックを置くことが許された3つの箇所のいずれか一ヶ所以上に、大きさの異なる複数のブロックが積み上げられている状態から、
(1)ブロックを一度に一個しか移動させることができない。
(2)小さなブロックの上に大きなブロックを置くことができない。
(3)上記3つの箇所以外の所にブロックを置くことができない。
という制約のもとで、
全てのブロックが所定の1つの箇所に積み上げられている状態にすることである、〔1〕に記載の認知機能障害の病態診断システム。
【0012】
〔3〕 被験者に与えられた報酬r
tが、強化学習型タスクのゴールに近づいているか否かである、〔1〕または〔2〕に記載の認知機能障害の病態診断システム。
〔4〕 強化学習型タスクを遂行中の被験者の神経活動を観測する手段を具備する、〔1〕〜〔3〕のいずれかひとつに記載の認知機能障害の病態診断システム。
〔5〕 強化学習アルゴリズムがQ学習アルゴリズムである、〔1〕〜〔4〕のいずれかひとつに記載の認知機能障害の病態診断システム。
〔6〕 強化学習アルゴリズムのパラメータが、学習率α、探索ノイズβ、および割引率γから選択される少なくとも一つである、〔1〕〜〔5〕のいずれかひとつに記載の認知機能障害の病態診断システム。
【0013】
〔7〕 被験者に強化学習型タスクを行わせ、
時刻tにおける、状態s
tと被験者が選択した行動a
tと被験者に与えられた報酬r
tを観測し、
時刻tにおいて観測された、状態s
tと被験者が選択した行動a
tと被験者に与えられた報酬r
tに関するデータを記録し、
記録されたデータから強化学習アルゴリズムのパラメータを決定することを含む、
認知機能障害の病態診断のためのパラメータの算出方法。
【発明の効果】
【0014】
本発明に係る認知機能障害の病態診断システムまたは認知機能障害の病態診断のためのパラメータの算出方法によれば、認知機能障害の病態を非侵襲的・簡易的・定量的に評価することができる。本発明は、認知機能障害に対応する脳部位の特定に寄与することができ、認知機能障害の治療または予防に寄与する。本発明は、大脳皮質や海馬の病変を意識した従来の計算や記銘力検査とは異なり、皮質下認知機能障害をも検出できる。なお、「皮質下」とは大脳基底核などを指す。
【図面の簡単な説明】
【0015】
【
図2】決定された学習率αと探索ノイズβとからなる診断平面を示す図である。
【
図3】パズル「ハノイの塔」を行うための器具の一例を示す図である。
【発明を実施するための形態】
【0016】
本発明に係る認知機能障害の病態診断システムは、被験者が強化学習型タスクを行うための器具若しくは機器、時刻tにおける器具若しくは機器の状態s
tを観測する手段、時刻tにおいて被験者が選択した行動a
tを観測する手段、時刻tにおいて被験者に与えられた報酬r
tを観測する手段、観測された状態s
t、行動a
tおよび報酬r
tに関するデータを記録する手段、および記録されたデータから強化学習アルゴリズムのパラメータを決定する手段を具える。
【0017】
認知機能障害としては、例えば、パーキンソン病、アルツハイマー病、ハンチントン病、クッシング病、レビー小体病、多発性硬化症、脳血管障害、依存症(例えば、喫煙、飲酒、薬物乱用、コカイン依存、賭博及びその他の衝動制御の障害)、広汎性発達障害、自閉症、注意欠陥・多動性障害、脆弱X症候群、不安障害(例えば、急性及び慢性パニック、外傷後ストレス障害、全般性不安障害)、プラダー・ウィリー症候群、統合失調症、双極性障害、鬱病、血管性認知症、軽度認知機能障害、認知症、健忘障害、譫妄、及びその他の神経又は精神障害などが挙げられる。
【0018】
被験者は、健常者、および認知機能障害を伴う患者である。そして、本発明のシステムを健常者に対して適用した際に決定されるパラメータと認知機能障害を伴う患者に対して適用した際に決定されるパラメータとを比較することで病態診断の一助をなすことができる。
【0019】
図1に強化学習の基本的枠組みを示す。強化学習では、エージェント(行動主体)が環境状態s
tに基づき或る行動a
tを選択し、行動に基づき環境状態s
tがs
t+1に変化する。環境状態の変化に伴って、報酬r
tがエージェントに与えられ、エージェントはより良い行動の選択(意志決定)を学習していく。
【0020】
強化学習型タスクには、初期状態(スタート)と終期状態(ゴール)が存在し、タスクの開始直前において被験者は初期状態にいる。被験者は少なくとも2種の行動を選択することによって状態遷移を繰り返し、目的である終期状態への遷移を目指す。この初期状態から終期状態への一区切りをエピソードと呼ぶ。被験者はこのエピソードの繰り返しによって、環境に関する知識(どの状態でどの行動を行なうとどの状態へ遷移するのか)を学習していくと考えられる。
【0021】
強化学習型タスクの一例として、ブロックを置くことが許された3つの箇所(例えば、3本の立設された棒など)のいずれか一ヶ所以上に、大きさの異なる複数のブロック(例えば、棒を通すことができる孔を有する円盤など)が積み上げられている状態から、(1)ブロックを一度に一個しか移動させることができない、(2)小さなブロックの上に大きなブロックを置くことができない、(3)上記3つの箇所以外の所にブロックを置くことができないという制約のもとで、全てのブロックが所定の1つの箇所に積み上げられている状態にすることを挙げることができる。このようなタスクとしては「ハノイの塔」と呼ばれるパズルがある。
【0022】
強化学習型タスクは、実在空間において行ってもよいし、仮想空間において行ってもよい。本発明のシステムを構成する、被験者が強化学習型タスクを行うための器具若しくは機器は、例えば、パズル玩具などのような実在空間において強化学習型タスクを行うことができるもの;アプリケーションソフトがインストールされたゲーム機器、コンピュータ機器、スマートフォン若しくはその他の情報処理機器などのような仮想空間において強化学習型タスクを行うことができるものであることができる。
【0023】
強化学習型タスクを実在空間において行う場合、時刻tにおける器具若しくは機器の状態s
tを観測する手段は、光、圧力、位置、温度などを感知するセンサなどであることができる。時刻tにおいて被験者が選択した行動a
tを観測する手段は、上記センサで感知された情報の変化、特に位置情報の変化を記録する装置などであることができる。
【0024】
強化学習型タスクを仮想空間において行う場合、時刻tにおける器具若しくは機器の状態s
tを観測する手段および時刻tにおいて被験者が選択した行動a
tを観測する手段は、強化学習型タスクを行うための情報処理機器であることができる。
【0025】
時刻tにおいて被験者に与えられた報酬r
tを観測する手段は、報酬をどのように定義するかに応じて設定することができる。被験者に与えられた報酬r
tとして、強化学習型タスクのゴールに近づいているか否かを採用することができる。報酬r
tを観測する手段は、例えば、光、圧力、位置、温度などを感知するセンサなど、または強化学習型タスクを行うための情報処理機器であることができる。報酬r
tは観測された状態変化(状態s
t-1から状態s
tへの変化)で定義することができる。
【0026】
強化学習型タスク遂行中の神経活動を観測する手段は、例えば、被験者の慶びによって分泌されるドパミンの量を測定する装置であってもよいし、所定脳領域における温度、酸素代謝率、酸素摂取率、グルコース代謝率、血液量若しくは血流量を測定する装置(fMRI、fNIRS、PETなど)であってもよい。
【0027】
観測された状態s
t、行動a
tおよび報酬r
tに関するデータは、情報処理機器の記録装置に記録し、該情報を適時に引き出せるようにすることができる。
【0028】
図3は、パズル「ハノイの塔」を行うための器具の一例を示す図である。台5の上面に支台12,22,32が設けられ、それぞれに第一立設棒1、第二立設棒2および第三立設棒3が設けられている。第一立設棒1には円盤を重ね載せたときの高さに相当する位置のそれぞれにセンサ(円盤の陰で見えない)が少なくとも1個(
図3においては1段に3個、そのうち2個は裏側にあるので見えない。)設けられている。同様に、第二立設棒2にはセンサ21a〜21dが、第三立設棒3にはセンサ31a〜31dが設けられている。各円盤の立設棒に対向する面側に識別タグ(例えば、赤外線吸収素材、着色、模様(一次元バーコード、二次元バーコードなど)、符号など)が付けられている。センサが識別タグを認識して円盤の種類および所在を感知する。例えば、センサから放射する赤外線を赤外線吸収素材が付けられた円盤で反射させ、その反射率をセンサで測定することによって円盤の種類および所在を識別する。
図3においては、大きさの異なる円盤4a,4b,4c,4dが、第一立設棒1に直径の大きい円盤の上に直径の小さい円盤が載せられた状態で置かれている。例えば、第一円盤4aを第一立設棒1から第二立設棒2に移動させると、第一立設棒1の最上部に位置するセンサ(
図3においては第一円盤4aの陰で見えない)が第一円盤4aが第一立設棒1の最上段から無くなったことを感知し、第二立設棒2の最下部に位置するセンサが第一円盤4aが第二立設棒2の最下段に置かれたことを感知することができる。センサの信号は情報処理装置に送られ記録させることができる。なお、センサを円盤に、識別タグを立設棒に取り付けた器具も、本発明における強化学習型タスクを行うための器具若しくは機器として用いることができる。
【0029】
本発明で用いられる強化学習アルゴリズムは、強化学習アルゴリズムとして知られているものであれば特に限定されない。強化学習アルゴリズムとしては、例えば、TD学習、Sarsa、Actor-Critic法、Q学習、Policy Gradient、動的計画法、Deep Q-Networkなどを挙げることができる。いずれの強化学習アルゴリズムにおいても共通のパラメータを推定することができる。また、被験者の認知行動を説明するのに最も適した強化学習アルゴリズムを同定することによって、被験者の認知行動メカニズムの個別性を判断することができる。
【0030】
TD学習(temporal difference learning)は、環境の完全なモデルを必要とせず、相互作用によって得られる経験から価値関数を求めることによって学習が進行する。
時刻tにおける環境との1回の相互作用から得られる経験を用いて、現在の状態s
tの価値V(s
t)を以下の式によって更新する。
ここで、αは学習率と呼ばれるパラメータである。通常、0≦α≦1である。また、δ
tはTD誤差(TD error)と呼ばれるパラメータである。
【0031】
Sarsaでは、学習に行動価値関数を用い,状態s
tにおける行動a
tの価値Q(s
t,a
t)を、次の時刻t+1で実際に選択する行動を用いて、以下の式によって更新する。
【0032】
Actor-Critic法では、エージェント内部に価値評価部分(critic)と行動選択部分(actor)が独立して存在する。criticは状態価値関数を評価し、その出力(TD誤差)に基づいてactorは方策を学習する。actorの行動選択がBoltzmann分布によるsoftmax手法であるときの学習則は以下のとおりである。
ここで、βは探索ノイズと呼ばれるパラメータである。探索ノイズは、探索(exploration)と搾取(exploitation)行動のトレードオフを決定する。βは絶対温度Tとボルツマン定数k
Bを用いて次のように定義される。
また、p(s
t,a
t)は、時刻tでactorが変更可能な方策パラメータの値を表す。例えば、次式のようにs
tにおけるa
tの選択傾向の強さを更新する。
ここで、α
2は、actorの学習率と呼ばれるパラメータである。criticが状態価値関数を更新する際に用いられる学習率αと区別される。
【0033】
Q学習(Q-learning)は、TD学習と同じく環境の完全なモデルを必要とせず、エージェントの経験から学習が可能である。TD学習と異なる点は、状態の価値ではなく行動の価値の更新を行なう点である。最も単純なQ学習は1ステップQ学習と呼ばれる。時刻tにおける環境との1回の相互作用から得られる経験を用いて、現在の状態s
tにおける行動a
tの価値Q(s
t,a
t)を以下の式によって更新する。
Q学習では、状態s
t+1において、最大の行動価値(Q値)を持つ行動aを選択している点がSarsaと異なる。Q学習の方策として以下のものがよく用いられる。
ε-greedy
確率εでランダムな行動を選択し、それ以外では最大のQ値を持つ行動
を選択する。
Boltzmann rule
状態sにおいて行動aを以下の確率で選択する。
【0034】
本発明において記録された時系列データから強化学習アルゴリズムにおける学習の進行に影響を与えるパラメータを決定する。例えば、Q学習などでは、学習率α、探索ノイズβ、割引率γなどのパラメータを決定する。学習率αは学習速度に係るパラメータである。探索ノイズβは探索のランダムさを決定するパラメータである。割引率γは将来の報酬を割り引くパラメータである。パラメータの決定は数値計算によって行うことができる、数値計算の手法は、特に限定されず、例えば、最尤推定法、二分法、ニュートン法などを挙げることができる。
【0035】
決定されたパラメータの値を、事前に蓄積していたパラメータテーブルと対比することによって、被験者の病態を診断することができる。例えば、
図2に示すように、学習率αを縦軸に探索ノイズβを横軸にプロットし診断平面化したときに、αが小さく且つβが小さい領域には認知機能障害の患者(黒丸)が分布していることがわかる。白丸は健常者の分布である。さらに、診断平面とタスク実施前・実施中・実施後のいずれかの時点において計測した神経活動との相関から、当該認知機能障害に相関のある脳領域を特定し、その特定脳領域に治療を集中させるということができる。このように、本発明の認知機能障害の病態診断システムまたは方法によれば、認知機能障害の病態を非侵襲的・簡易的・定量的に評価することができる。さらに、本発明によって、認知機能障害に対応する脳部位の特定することができ、認知機能障害の治療または予防に寄与することができる。
【0036】
以下に実施例を示して本発明をより詳細に説明する。なお、本発明は本実施例によって限定されない。
【0037】
実施例
パズル玩具「ハノイの塔」を用意した。一本の直線上に並んで立設された3本の柱の内部に光センサを取り付け、それぞれの円盤がどの柱のどの高さに置かれているかを検出できるようにした。検出された位置データはパーソナルコンピュータに送信されハードディスクに記録されるようにした。スタートにおける円盤の積み上げ状態の異なる「ハノイの塔」のパズルを被験者に20回行わせた。ゴールはすべての円盤を右端の柱に積み上げることである。その間の位置データを記録した。
記録された位置データから状態s
t、行動a
tおよび報酬r
tに関するデータを抽出した。抽出した状態s
t、行動a
tおよび報酬r
tに関するデータを用いて、Q学習アルゴリズムの更新式:
における学習率αと探索ノイズβとを最尤推定法を用いて決定した。
あるひとりの被験者は、αが0.83、βが1.59であった。該被験者は健常者であった。
ある別のひとりの被験者は、αが0.53、βが0.57であった。該被験者はパーキンソン病患者であった。
前記パーキンソン病患者の学習率αおよび探索ノイズβは、前記健常者の学習率αおよび探索ノイズβよりも小さい値を示した。
図2に示すような診断平面によって、認知機能障害の病態診断が可能であることを確認できた。本実施例では脳領域におけるドパミン量などの分布データの解析を行わなかったが、ドパミン量などの分布データの解析を行うことによって、病態と相関する脳部位の特定が期待できる。
【符号の説明】
【0038】
1:第一立設棒
2:第二立設棒
3:第三立設棒
4a:第一円盤
4b:第二円盤
4c:第三円盤
4d:第四円盤
5:台
21a〜21l、31a〜31l:センサ
12、22、32:支台