(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022185399
(43)【公開日】2022-12-14
(54)【発明の名称】思考状態推定装置
(51)【国際特許分類】
A61B 5/16 20060101AFI20221207BHJP
【FI】
A61B5/16 100
【審査請求】未請求
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2021093056
(22)【出願日】2021-06-02
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】899000079
【氏名又は名称】慶應義塾
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】梶 洋隆
(72)【発明者】
【氏名】高谷 智哉
(72)【発明者】
【氏名】篠田 和彦
(72)【発明者】
【氏名】山口 勇人
(72)【発明者】
【氏名】星野 崇宏
(72)【発明者】
【氏名】坂本 浩明
(72)【発明者】
【氏名】荒巻 凌
(72)【発明者】
【氏名】笹 結希
(72)【発明者】
【氏名】村井 千恵
【テーマコード(参考)】
4C038
【Fターム(参考)】
4C038PP03
4C038PR01
(57)【要約】
【課題】日常環境下において被測定者の思考状態を推定する。
【解決手段】思考状態推定装置(1)は、被測定者(U)に係る呼吸情報から第1呼吸特徴量を抽出する第1抽出手段(12)と、第1呼吸特徴量と意思決定モデルとから、被測定者の意思決定状態を推定する推定手段(13)と、を有する意思決定状態推定部(10)と、人の行動情報と、該行動情報に対応付けられた人の呼吸情報とを含む行動履歴情報に含まれる行動情報から強化学習を用いてラベルを算出する算出手段(24)と、行動履歴情報に含まれる呼吸情報から第2呼吸特徴量を抽出する第2抽出手段(22)と、ラベルと第2呼吸特徴量とから意思決定モデルを生成する生成手段(25)と、を有するモデル生成部(20)と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
被測定者に係る呼吸情報から第1呼吸特徴量を抽出する第1抽出手段と、前記第1呼吸特徴量と意思決定モデルとから、前記被測定者の意思決定状態を推定する推定手段と、を有する意思決定状態推定部と、
人の行動情報と、前記行動情報に対応付けられた前記人の呼吸情報とを含む行動履歴情報に含まれる前記行動情報から強化学習を用いてラベルを算出する算出手段と、前記行動履歴情報に含まれる前記呼吸情報から第2呼吸特徴量を抽出する第2抽出手段と、前記ラベルと前記第2呼吸特徴量とから前記意思決定モデルを生成する生成手段と、を有するモデル生成部と、
を備えることを特徴とする思考状態推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、人間の思考を推定する思考状態推定装置の技術分野に関する。
【背景技術】
【0002】
この種の装置として、例えば、被測定者の瞬目活動データ、呼吸活動データ及び心電活動データ各々から特徴ベクトルを抽出して、被測定者の思考状態を推定する装置が提案されている(特許文献1参照)。その他関連する技術として、例えば特許文献2及び3が挙げられる。特許文献2には、多次元データを利用することにより結論を推定して、その推定結果を可視化することによって、ユーザの意思決定を支援する技術が記載されている。特許文献3には、行動選択肢が膨大なときに、意思決定のためのルールの学習と、膨大な行動選択肢の階層クラスタリングとを動的に行うことによって、学習精度及び学習効率を向上する技術が記載されています。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2003-275193号公報
【特許文献2】特開2014-081878号公報
【特許文献3】特開2007-164406号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
瞬目活動データは、被測定者の顔(目)をカメラで撮像することにより取得されることが一般的である。また、心電活動データは、被測定者の胸部に貼り付けた電極による測定結果から取得される。特許文献1に記載の装置を用いて、日常環境(言い換えれば、特別な条件や状態を整える必要のない環境)下における被測定者の思考状態を推定しようとすれば、被測定者が、自身の顔を撮像するためのカメラを常に装着するとともに、その胸部に電極を常に貼っている必要がある。しかしながら、このようなことは現実的には極めて困難である。
【0005】
本発明は、上記問題点に鑑みてなされたものであり、日常環境下において被測定者の思考状態を推定することができる思考状態推定装置を提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る思考状態推定装置は、被測定者に係る呼吸情報から第1呼吸特徴量を抽出する第1抽出手段と、前記第1呼吸特徴量と意思決定モデルとから、前記被測定者の意思決定状態を推定する推定手段と、を有する意思決定状態推定部と、人の行動情報と、前記行動情報に対応付けられた前記人の呼吸情報とを含む行動履歴情報に含まれる前記行動情報から強化学習を用いてラベルを算出する算出手段と、前記行動履歴情報に含まれる前記呼吸情報から第2呼吸特徴量を抽出する第2抽出手段と、前記ラベルと前記第2呼吸特徴量とから前記意思決定モデルを生成する生成手段と、を有するモデル生成部と、を備えるというものである。
【図面の簡単な説明】
【0007】
【
図1】実施形態に係る思考状態推定装置の構成を示すブロック図である。
【発明を実施するための形態】
【0008】
思考状態推定装置に係る実施形態について
図1及び
図2を参照して説明する。
【0009】
実施形態に係る思考状態推定装置1について説明する前に、本実施形態に係る「思考状態」について説明する。例えばSRK(Skill-Rule-Knowledge)モデルによれば、人間の行動は、情報入力から行動出力までに3つのレベル(即ち、スキルベース、ルールベース、知識ベース)の情報処理が行われる。
【0010】
スキルベースの情報処理では、刺激(即ち、入力された情報)が知覚されると、その刺激に対応した反応が無意識的に即座に実行される。ルールベースの情報処理では、入力された情報を記憶されているルールに応じて解釈し、ルールに沿った行動が実行される。例えばルールに不慣れであったり、慎重に行動する必要があったりする場合には、ルールベースの情報処理は意識的に行われる。例えば行われる行動が単純で、繰り返し行われている場合には、ルールベースの情報処理は無意識的に行われる。知識ベースの情報処理では、入力された情報をどのように解釈するか、入力された情報に対してどのような反応をどのようなやり方で行うか、ということが意識的に行われる。
【0011】
本実施形態では、上述した情報処理のうち、無意識的な情報処理を行うときの人間の思考状態を「モデルフリーな思考状態」と称し、意識的な情報処理を行うときの人間の思考状態を「モデルベースな思考状態」と称する。尚、「モデルフリーな思考状態」は、直感型思考と称されてもよい。「モデルベースな思考状態」は、複雑型思考と称されてもよい。
【0012】
ところで、本願発明者の研究によれば、人間が、モデルフリーな思考状態になるときと、モデルベースな思考状態になるときとで、呼吸に係る特徴量が互いに異なることが判明している。
【0013】
本実施形態に係る思考状態推定装置1は、被測定者(言い換えれば、ユーザ)がある行動を行ったときに、該被測定者から取得される呼吸情報に基づいて、その行動が、モデルフリーな思考状態下で決定された行動であるのか、モデルベースな思考状態下で決定された行動であるのかを推定する。
【0014】
思考状態推定装置1は、上記推定を行うために、状態推定部10を備えて構成されている。状態推定部10は、呼吸情報取得部11、呼吸特徴量算出部12及び推定部13を有する。呼吸情報取得部11は、被測定者Uが所持する端末100から、例えばインターネット等のネットワークを介して、逐次送信される呼吸情報を取得する。
【0015】
ここで、端末100は、被測定者Uの呼吸を測定して、呼吸情報を生成するように構成されている。このような端末100には、既存の各種態様を適用可能であるので、その詳細についての説明は省略する。
【0016】
呼吸特徴量算出部12は、呼吸情報取得部11により取得された呼吸情報から、被測定者Uの呼吸に係る特徴量を算出(又は抽出)する。尚、呼吸に係る特徴量の算出(又は抽出)方法には、既存の各種態様を適用可能であるので、その詳細についての説明は省略する。
【0017】
推定部13は、呼吸特徴量算出部12により算出(又は抽出)された特徴量と、意思決定モデルとに基づいて、被測定者Uの行動が、モデルフリーな思考状態下で決定された行動であるのか、モデルベースな思考状態下で決定された行動であるのかを推定する。
【0018】
思考状態推定装置1は、上記意思決定モデルを生成するために、モデル生成部20を備えて構成されている。モデル生成部20は、呼吸情報取得部21、呼吸特徴量算出部22、行動情報取得部23、ラベル生成部24及び学習部25を有する。モデル生成部20は、互いに対応づけられた呼吸情報と行動情報とを含む行動履歴情報を入力データとする。
【0019】
ここで、ゲームを利用して、上記行動履歴情報を収集する方法について説明する。ゲームの一例について
図2を参照して説明する。第1段階として、選択肢A1及びA2が表示される。被験者が選択肢A1を選択すると、P11の確率で、第2段階としての選択肢B1及びB2が表示され、P12の確率で、第2段階としての選択肢C1及びC2が表示される。被験者が選択肢A2を選択すると、P21の確率で、第2段階としての選択肢B1及びB2が表示され、P22の確率で、第2段階としての選択肢C1及びC2が表示される。被験者は、第2段階で選択した選択肢(即ち、選択肢B1、B2、C1又はC2)に応じた確率で報酬を得ることができる。ただし、第2段階で選択された選択肢に応じた確率は一定ではなく、試行とともに変動する。
【0020】
上述のゲームでは、第2段階として表示される選択肢は、第1段階で選択された選択肢のみに依存し、被験者が得られる報酬は、第2段階で選択された選択肢のみに依存する。また、第1段階及び第2段階の各々において、被験者(即ち、意思決定者)は、その段階において可能な行動(ここでは、選択肢の選択)を任意に選択することができ、被験者は状態遷移に対応した報酬を受け取る。従って、上述のゲームの試行は、マルコフ決定過程に相当する。
【0021】
望ましい報酬を得るために(言い換えれば、報酬を最大化するために)、被験者が上述のゲームを繰り返し試行しているときに、被験者の呼吸を測定して得られた呼吸情報と、被験者の行動(ここでは、選択肢の選択)を示す行動情報とを対応付けて記憶することによって、行動履歴情報が収集される。
【0022】
ここで、上述のゲームを開始した直後の被験者は、表示された選択肢を無意識的に選択するかもしれないし、例えば表示された選択肢に何らかの意味を見出そうと、選択肢を意識的に選択するかもしれない。被験者が上述のゲームを繰り返し試行することにより経験を積むと、被験者は自身の経験に基づくルールに沿って、表示された選択肢を選択するようになる。自身のルールを規定した直後の被験者は、例えば自身のルールを確認しながら、表示された選択肢を意識的に選択することが多い。そして、自身のルールに慣れるにつれて、被験者は表示された選択肢を無意識的に選択することが多くなる。
【0023】
従って、被験者が上述のゲームを繰り返し試行することにより収集される行動履歴情報には、モデルフリーな思考状態下で決定された行動(ここでは、選択肢の選択)に係る行動情報と、モデルベースな思考状態下で決定された行動に係る行動情報とが含まれることになる。
【0024】
モデル生成部20の呼吸情報取得部21は、行動履歴情報に含まれる呼吸情報を取得する。呼吸特徴量算出部22は、呼吸情報取得部21により取得された呼吸情報から、呼吸に係る特徴量を算出(又は抽出)する。
【0025】
行動情報取得部23は、行動履歴情報に含まれる行動情報を取得する。ラベル生成部24は、例えばSARSA(λ)モデル等を用いる強化学習と、行動情報取得部23により取得された行動情報とから、被験者の行動をモデリングする。このとき、ラベル生成部24は、被験者の一の行動(ここでは、選択肢の選択)について、モデルベースな思考状態下である度合いを示す指標を生成する。
【0026】
具体的には、ラベル生成部24は、モデルフリーな思考状態下で決定された行動に対応する行動価値関数QMF(s,a)と、モデルベースな思考状態下で決定された行動に対応する行動価値関数QMB(s,a)とを規定する。ここで、“s”は状態を表し、“a”は行動を表している。
【0027】
ラベル生成部24は、行動価値関数QMF(s,a)を、例えばSARSA法により算出(更新)する。一方、ラベル生成部24は、行動価値関数QMB(s,a)を、上述のゲームにおいて、(i)選択肢A1及びA2のいずれかを選択して、選択肢B1及びB2が表示される確率と、選択肢B1及びB2のいずれかを選択して得られる報酬の期待値(又は最大値)との積と、(ii)選択肢A1及びA2のいずれかを選択して、選択肢C1及びC2が表示される確率と、選択肢C1及びC2のいずれかを選択して得られる報酬の期待値(又は最大値)との積と、の和として算出する。
【0028】
行動情報取得部23により取得された行動情報により示される行動に係る行動価値関数を“Qnet(s,a)”とする。ラベル生成部24は、例えば“Qnet(s,a)=wQMB(s,a)+(1-w)QMF(s,a)”を満たすようにパラメータwを決定する。ここで、パラメータwは、0以上1以下の可変値である。尚、パラメータwは、上述の「モデルベースな思考状態下である度合いを示す指標」の一例に相当する。
【0029】
ラベル生成部24は、パラメータwの値が0.5以上の場合、被験者の行動を、モデルベースな思考状態下で決定された行動であると判定し、モデルベースであることを示すラベルを生成する。他方で、ラベル生成部24は、パラメータwの値が0.5未満の場合、被験者の行動を、モデルフリーな思考状態下で決定された行動であると判定し、モデルフリーであることを示すラベルを生成する。
【0030】
モデル生成部20の学習部25は、行動履歴情報に含まれる呼吸情報と行動情報との対応付けに基づいて、呼吸特徴量算出部22により算出された特徴量と、ラベル生成部24により生成されたラベルとを対応付ける。その後、学習部25は、対応付けられた特徴量とラベルとを用いて機械学習を行い、意思決定モデルを生成する。
【0031】
(技術的効果)
思考状態推定装置1は、被測定者U(
図1参照)の呼吸の測定から生成された呼吸情報に基づいて、被測定者Uの行動が、モデルフリーな思考状態下で決定された行動であるのか、モデルベースな思考状態下で決定された行動であるのかを推定する。思考状態推定装置1は、被測定者Uから呼吸情報さえ取得すれば、被測定者Uの思考状態を推定することができる。
【0032】
ここで、被測定者Uの呼吸の測定は、例えば比較的小型な、ウェアラブルな呼吸センサ(
図1の端末100に相当)を用いて実施可能である。被測定者Uがこのような呼吸センサを常時装着していても、呼吸センサが被測定者Uの日常生活の妨げになることは少ない。従って、思考状態推定装置1によれば、日常環境下において被測定者の思考状態を推定することができる。
【0033】
思考状態推定装置1では、意思決定モデルを生成する際に、強化学習が導入されている。このため、ラベル生成部24により生成されるラベルの信頼性の向上を図ることができる。この結果、学習部25により生成される意思決定モデルの信頼性の向上も図ることができる。思考状態推定装置1では、比較的高い信頼性を有する意思決定モデルを用いて、被測定者Uの思考状態が推定されるので、状態推定部10に入力されるデータが呼吸情報だけであったとしても、推定結果の信頼性が低下することを抑制することができる。
【0034】
以上に説明した実施形態から導き出される発明の態様を以下に説明する。
【0035】
発明の一態様に係る思考状態推定装置は、被測定者に係る呼吸情報から第1呼吸特徴量を抽出する第1抽出手段と、前記第1呼吸特徴量と意思決定モデルとから、前記被測定者の意思決定状態を推定する推定手段と、を有する意思決定状態推定部と、人の行動情報と、前記行動情報に対応付けられた前記人の呼吸情報とを含む行動履歴情報に含まれる前記行動情報から強化学習を用いてラベルを算出する算出手段と、前記行動履歴情報に含まれる前記呼吸情報から第2呼吸特徴量を抽出する第2抽出手段と、前記ラベルと前記第2呼吸特徴量とから前記意思決定モデルを生成する生成手段と、を有するモデル生成部と、を備えるというものである。
【0036】
上述の実施形態においては、「状態推定部10」が「意思決定状態推定部」の一例に相当し、「呼吸特徴量算出部12」が「第1抽出手段」の一例に相当し、「推定部13」が「推定手段」の一例に相当し、「呼吸特徴量算出部22」が「第2抽出手段」の一例に相当し、「ラベル生成部24」が「算出手段」の一例に相当し、「学習部25」が「生成手段」の一例に相当する。上述の実施形態における「モデルフリーな思考状態下で決定された行動」及び「モデルベースな思考状態下で決定された行動」は、「意思決定状態」の一例に相当する。
【0037】
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う思考状態推定装置もまた本発明の技術的範囲に含まれるものである。
【符号の説明】
【0038】
1…思考状態推定装置、10…状態推定部、11、21…呼吸情報取得部、12、22…呼吸特徴量算出部、13…推定部、23…行動情報取得部、24…ラベル生成部、25…学習部、100…端末