(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022154041
(43)【公開日】2022-10-13
(54)【発明の名称】主体感推定モデル、装置及び方法、並びに行動変容促進モデル
(51)【国際特許分類】
G06Q 10/04 20120101AFI20221005BHJP
【FI】
G06Q10/04
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021056881
(22)【出願日】2021-03-30
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(74)【代理人】
【識別番号】100141313
【弁理士】
【氏名又は名称】辰巳 富彦
(72)【発明者】
【氏名】レガスピ ロベルト セバスチャン
(72)【発明者】
【氏名】徐 文臻
(72)【発明者】
【氏名】和田 真弥
(72)【発明者】
【氏名】小西 達也
(72)【発明者】
【氏名】黒川 茂莉
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049AA04
(57)【要約】
【課題】ユーザの主体感を推定することの可能な主体感推定モデルを提供する。
【解決手段】本モデルは、ユーザのある主体感レベルの下で、行動の結果、新たな状態が生じる確率を含むビリーフ情報を生成又は更新するビリーフモデルと、ユーザの価値情報と対応する報酬とを受け取ってユーザの所望状態を生成し、この所望状態をもたらし得る行動の集合である方針を決定するデザイアモデルと、ビリーフ情報と価値情報及び報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成する意思モデルと、方針と因果関係情報とに基づき、行動を決定して出力する行動モデルと、生じた新たな状態とユーザの所定の特徴に係る特徴量とに基づき、ユーザの主体感レベルを決定又は更新し、出力するとともに、ビリーフモデルで用いる主体感レベルを、決定又は更新した主体感レベルに更新させる主体感モデルとしてコンピュータを機能させる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザを含む環境世界の状態に対する行動を、報酬を用いて決定する中で、当該ユーザの主体感を推定するコンピュータを機能させる主体感推定モデルであって、
当該ユーザのある主体感レベルの下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報であるビリーフ情報を生成又は更新するビリーフモデルと、
当該ユーザにとっての価値に係る価値情報と、それに対応する当該報酬とを受け取って、当該ユーザの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である方針を決定するデザイアモデルと、
当該ビリーフ情報と、当該価値情報及び当該報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成する意思モデルと、
当該方針と、当該因果関係情報とに基づき、観測された状態に対して行うべき行動を決定し、出力する行動モデルと、
出力された当該行動によって生じた新たな状態と、当該新たな状態の下での当該ユーザの所定の特徴に係る特徴量とに基づき、当該ユーザの主体感レベルを決定又は更新し、出力するとともに、前記ビリーフモデルで用いる主体感レベルを、決定又は更新した当該主体感レベルに更新させる主体感モデルと
してコンピュータを機能させることを特徴とする主体感推定モデル。
【請求項2】
前記行動モデルは、
当該方針と、当該因果関係情報と、当該ユーザとの間で行った所定の問いかけを含むコミュニケーションの内容とに基づき、最適とされる方針である最適方針を生成する行動計画部と、
生成された当該最適方針を用いて、観測された状態に対して行うべき行動を決定し、出力する行動決定部と
を有することを特徴とする請求項1に記載の主体感推定モデル。
【請求項3】
当該ユーザから、当該価値情報に係る情報と、当該価値情報に係る情報に対応する報酬に係る情報とを受け取って、当該価値情報に係る情報及び当該報酬に係る情報に基づき、当該価値情報及びそれに対応する当該報酬を生成又は更新し、前記デザイアモデルへ出力する価値一致化モデルとしてコンピュータを更に機能させることを特徴とする請求項1又は2に記載の主体感推定モデル。
【請求項4】
前記価値一致化モデルは、協調逆強化学習(CIRL,Cooperative Inverse Reinforcement Learning)に係るアルゴリズムを用いて構築されていることを特徴とする請求項3に記載の主体感推定モデル。
【請求項5】
観測された状態と、これに対応する出力された行動とを受け取って、少なくとも複数のユーザの各々についての当該因果関係情報を統合した統合因果関係情報に基づき、起こり得る状態候補としての代替状態を生成し出力する状態生成器と、
前記行動によって生じた新たな状態と、当該代替状態とから、当該所望状態との相違を表す損失を生成し、当該損失をもって前記状態生成器に対し訓練を行わせ、また当該損失をもって自らの訓練を行う判別器と、
訓練された前記状態生成器で生成される当該代替状態に対応する報酬である予測報酬を生成し、当該予測報酬をもって前記行動モデルに対し当該行動の決定についての訓練を行わせる評価器と
を有する代替状態生成・評価モデルとしてコンピュータを更に機能させることを特徴とする請求項1から4のいずれか1項に記載の主体感推定モデル。
【請求項6】
前記代替状態生成・評価モデルは、敵対的生成ネットワーク(GAN,Generative Adversarial Networks)に係るアルゴリズムを用いて構築されていることを特徴とする請求項5に記載の主体感推定モデル。
【請求項7】
前記ビリーフモデルは、部分観測マルコフ決定過程(POMDP,Partially Observable Markov Decision Process)に係るアルゴリズムを用いて構築されていることを特徴とする請求項1から6のいずれか1項に記載の主体感推定モデル。
【請求項8】
当該因果関係情報は、ベイジアンネットワーク(Bayesian network)アルゴリズムに係る情報であることを特徴とする請求項1から7のいずれか1項に記載の主体感推定モデル。
【請求項9】
請求項1から8のいずれか1項に記載された主体感推定モデルを用いて、当該環境世界における観測された状態から、当該ユーザの主体感を推定することを特徴とする主体感推定装置。
【請求項10】
ユーザを含む環境世界の状態に対する行動を、報酬を用いて決定する中で、当該ユーザの主体感を推定するコンピュータにおける主体感推定方法であって、
当該ユーザのある主体感レベルの下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報であるビリーフ情報を生成又は更新するステップと、
当該ユーザにとっての価値に係る価値情報と、それに対応する当該報酬とを受け取って、当該ユーザの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である方針を決定するステップと、
当該ビリーフ情報と、当該価値情報及び当該報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成するステップと、
当該方針と、当該因果関係情報とに基づき、観測された状態に対して行うべき行動を決定し、出力するステップと、
出力された当該行動によって生じた新たな状態と、当該新たな状態の下での当該ユーザの所定の特徴に係る特徴量とに基づき、当該ユーザの主体感レベルを決定又は更新し、出力するとともに、前記ビリーフ情報を生成又は更新するステップで用いる主体感レベルを、決定又は更新した当該主体感レベルに更新させる主体感モデルと
を有することを特徴とする主体感推定方法。
【請求項11】
ユーザを含む環境世界の状態に対する行動を、報酬を用いて決定する中で、当該ユーザの行動変容を促すコンピュータを機能させる行動変容促進モデルであって、
当該ユーザのある主体感レベルの下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報であるビリーフ情報を生成又は更新するビリーフモデルと、
当該ユーザにとっての価値に係る価値情報と、それに対応する当該報酬とを受け取って、当該ユーザの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である方針を決定するデザイアモデルと、
当該ビリーフ情報と、当該価値情報及び当該報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成する意思モデルと、
当該方針と、当該因果関係情報と、当該ユーザとの間で行った所定の問いかけを含むコミュニケーションの内容とに基づき、最適とされる方針である最適方針を生成し、当該最適方針を用いて、観測された状態に対して行うべき行動を決定し、出力する行動モデルと、
出力された当該行動によって生じた新たな状態と、当該新たな状態の下での当該ユーザの所定の特徴に係る特徴量とに基づき、当該ユーザの主体感レベルを決定又は更新し、前記ビリーフモデルで用いる主体感レベルを、決定又は更新した当該主体感レベルに更新させる主体感モデルと
してコンピュータを機能させることを特徴とする行動変容促進モデル。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、「説得」によって人の行動変容を促す説得的技術(Persuasive technology)に関する。
【背景技術】
【0002】
ユーザの信念、認識や望みを所定の方向に変化させ得る広義の「説得」によって、当該ユーザの行動変容を促す説得的技術(Persuasive technology)が注目されている。例えば、健康福祉の分野、教育の分野、及び都市交通の分野においても、それぞれ例えば特許文献1、特許文献2、及び特許文献3に開示されているように、この説得的技術の適用が精力的に進められている。
【0003】
また、説得的技術は、AI(Artificial Intelligence)がユーザとのコミュニケーションを介し、ユーザに種々様々なサービスを提供する自立型AIシステムを実現する上で欠かせない技術として、今後ますます発展していくものと考えられる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Rita Orji and Karyn Moffatt, "Persuasive technology for health and wellness: State-of-the-art and emerging trends", Health Informatics J. 24(1), pp.66-91. 2018年, <https://doi.org/10.1177/1460458216650979>
【非特許文献2】Yohana Dewi Lulu Widyasari et al., "Persuasive technology for enhanced learning behavior in higher education", International Journal of Educational Technology in Higher Education, 16:15, 2019年, <https://doi.org/10.1186/s41239-019-0142-5>
【非特許文献3】Evangelia Anagnostopoulou et al., "Persuasive Technologies for Sustainable Mobility: State of the Art and Emerging Trends", Sustainability 2018, 10(7), pp.2128, 2018年, <https://doi.org/10.3390/su10072128>
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述したような従来の説得的技術では、AIがユーザを「説得」するにしても、複雑な又は刻々と変動する通常の環境世界の状況にあって、ユーザのより適切な行動変容を促す、具体的にはより適切な意思決定や行動決定を促すことは依然、困難であるのが実情である。
【0006】
本願発明者等は、この困難である理由が、AIの「説得」を受けて自らの意思で行った行動と、その結果として現れた環境世界の状態との間に、ユーザ自身が繋がりや連動性を感じられないケースが少なからず生じることにある、と考えた。すなわち従来の説得的技術では、ユーザの「行動主体感」(自らの行動によって周囲に影響を与えているという感覚)の変化を何ら考慮していないので、この「行動主体感」を減退させることのない、ユーザにとって納得のいく適切な「説得」を行うことが、非常に困難になっていることを突き止めたのである。
【0007】
そこで、本発明は、ユーザの行動主体感を推定し、また当該行動主体感を考慮して当該ユーザの意思又は行動における変化を促すことの可能な主体感推定モデル、主体感推定装置、主体感推定方法、及び行動変容促進モデルを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明によれば、ユーザを含む環境世界の状態に対する行動を、報酬を用いて決定する中で、当該ユーザの主体感を推定するコンピュータを機能させる主体感推定モデルであって、
当該ユーザのある主体感レベルの下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報であるビリーフ情報を生成又は更新するビリーフモデルと、
当該ユーザにとっての価値に係る価値情報と、それに対応する当該報酬とを受け取って、当該ユーザの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である方針を決定するデザイアモデルと、
当該ビリーフ情報と、当該価値情報及び当該報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成する意思モデルと、
当該方針と、当該因果関係情報とに基づき、観測された状態に対して行うべき行動を決定し、出力する行動モデルと、
出力された当該行動によって生じた新たな状態と、当該新たな状態の下での当該ユーザの所定の特徴に係る特徴量とに基づき、当該ユーザの主体感レベルを決定又は更新し、出力するとともに、上記のビリーフモデルで用いる主体感レベルを、決定又は更新した当該主体感レベルに更新させる主体感モデルと
してコンピュータを機能させる主体感推定モデルが提供される。
【0009】
この本発明による主体感推定モデルの一実施形態として、行動モデルは、
当該方針と、当該因果関係情報と、当該ユーザとの間で行った所定の問いかけを含むコミュニケーションの内容とに基づき、最適とされる方針である最適方針を生成する行動計画部と、
生成された当該最適方針を用いて、観測された状態に対して行うべき行動を決定し、出力する行動決定部と
を有することも好ましい。
【0010】
さらに、本発明による主体感推定モデルの他の実施形態として、主体感推定モデルは、当該ユーザから、当該価値情報に係る情報と、当該価値情報に係る情報に対応する報酬に係る情報とを受け取って、当該価値情報に係る情報及び当該報酬に係る情報に基づき、当該価値情報及びそれに対応する当該報酬を生成又は更新し、上記のデザイアモデルへ出力する価値一致化モデルとしてコンピュータを更に機能させることも好ましい。またここで、この価値一致化モデルは、協調逆強化学習(CIRL,Cooperative Inverse Reinforcement Learning)に係るアルゴリズムを用いて構築されていることも好ましい。
【0011】
さらに、本発明による主体感推定モデルの更なる他の実施形態として、主体感推定モデルは、
観測された状態と、これに対応する出力された行動とを受け取って、少なくとも複数のユーザの各々についての当該因果関係情報を統合した統合因果関係情報に基づき、起こり得る状態候補としての代替状態を生成し出力する状態生成器と、
上記の出力された行動によって生じた新たな状態と、当該代替状態とから、当該所望状態との相違を表す損失を生成し、当該損失をもって状態生成器に対し訓練を行わせ、また当該損失をもって自らの訓練を行う判別器と、
訓練された状態生成器で生成される当該代替状態に対応する報酬である予測報酬を生成し、当該予測報酬をもって行動モデルに対し当該行動の決定についての訓練を行わせる評価器と
を有する代替状態生成・評価モデルとしてコンピュータを更に機能させることも好ましい。また、この代替状態生成・評価モデルは、敵対的生成ネットワーク(GAN,Generative Adversarial Networks)に係るアルゴリズムを用いて構築されていることも好ましい。
【0012】
さらに本発明による主体感推定モデルにおいて、ビリーフモデルは、部分観測マルコフ決定過程(POMDP,Partially Observable Markov Decision Process)に係るアルゴリズムを用いて構築されていることも好ましい。また、意思モデルにおける因果関係情報は、ベイジアンネットワーク(Bayesian network)アルゴリズムに係る情報であることも好ましい。
【0013】
本発明によれば、また、以上に述べた主体感推定モデルを用いて、当該環境世界における観測された状態から、当該ユーザの主体感を推定する主体感推定装置が提供される。
【0014】
本発明によれば、さらに、ユーザを含む環境世界の状態に対する行動を、報酬を用いて決定する中で、当該ユーザの主体感を推定するコンピュータにおける主体感推定方法であって、
当該ユーザのある主体感レベルの下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報であるビリーフ情報を生成又は更新するステップと、
当該ユーザにとっての価値に係る価値情報と、それに対応する当該報酬とを受け取って、当該ユーザの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である方針を決定するステップと、
当該ビリーフ情報と、当該価値情報及び当該報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成するステップと、
当該方針と、当該因果関係情報とに基づき、観測された状態に対して行うべき行動を決定し、出力するステップと、
出力された当該行動によって生じた新たな状態と、当該新たな状態の下での当該ユーザの所定の特徴に係る特徴量とに基づき、当該ユーザの主体感レベルを決定又は更新し、出力するとともに、上記のビリーフ情報を生成又は更新するステップで用いる主体感レベルを、決定又は更新した当該主体感レベルに更新させる主体感モデルと
を有する主体感推定方法が提供される。
【0015】
本発明によれば、さらにまた、ユーザを含む環境世界の状態に対する行動を、報酬を用いて決定する中で、当該ユーザの行動変容を促すコンピュータを機能させる行動変容促進モデルであって、
当該ユーザのある主体感レベルの下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報であるビリーフ情報を生成又は更新するビリーフモデルと、
当該ユーザにとっての価値に係る価値情報と、それに対応する当該報酬とを受け取って、当該ユーザの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である方針を決定するデザイアモデルと、
当該ビリーフ情報と、当該価値情報及び当該報酬とに基づき、状態、価値、報酬及び行動の間の因果関係に係る因果関係情報を生成する意思モデルと、
当該方針と、当該因果関係情報と、当該ユーザとの間で行った所定の問いかけを含むコミュニケーションの内容とに基づき、最適とされる方針である最適方針を生成し、当該最適方針を用いて、観測された状態に対して行うべき行動を決定し、出力する行動モデルと、
出力された当該行動によって生じた新たな状態と、当該新たな状態の下での当該ユーザの所定の特徴に係る特徴量とに基づき、当該ユーザの主体感レベルを決定又は更新し、上記のビリーフモデルで用いる主体感レベルを、決定又は更新した当該主体感レベルに更新させる主体感モデルと
してコンピュータを機能させる行動変容促進モデルが提供される。
【発明の効果】
【0016】
本発明の主体感推定モデル、主体感推定装置、主体感推定方法、及び行動変容促進モデルによれば、ユーザの行動主体感を推定し、また当該行動主体感を考慮して当該ユーザの意思又は行動における変化を促すことができる。
【図面の簡単な説明】
【0017】
【
図1】本発明による主体感推定モデルの一実施形態を示す模式図、及び本発明による主体感推定装置の一実施形態における機能構成を示す機能ブロック図である。
【
図2】本発明の一実施形態における理論的基礎体系を説明するための模式図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について、図面を用いて詳細に説明する。
【0019】
[主体感推定モデル,行動変容促進モデル]
図1は、本発明による主体感推定モデルの一実施形態を示す模式図、及び本発明による主体感推定装置の一実施形態における機能構成を示す機能ブロック図である。
【0020】
図1に示した本実施形態の主体感推定モデル1は、(価値一体化モデル13や行動モデル15に備えられた)インタフェース(IF)を介し、ユーザHとコミュニケーションを行う中で策定した方針に従い、ユーザHを含む環境世界に対し行動を行って、環境世界の状態を所望の状態に向けて変化させることの可能なモデルとなっている。
【0021】
ここで主体感推定モデル1は、上記のコミュニケーションを介し、ユーザの所定の特徴に係る情報(例えば心拍数や呼吸の速さ等の生理学指標)を取得して、ユーザHの「行動主体感」(自らの行動によって周囲に影響を与えているという感覚。以下、主体感と略称)を定量化している。さらに、ユーザHとコミュニケーションを行いつつ、環境世界の状態を受けて方針を策定し行動を行うサイクルの中で、適宜この「主体感」を更新する。またこれにより例えば本実施形態においては、ユーザHのリアルタイムの「主体感」や、ユーザHの「主体感」のダイナミックな変動を決定し出力することも可能となっているのである。
【0022】
さらに、主体感推定モデル1は本実施形態において、例え複雑な且つ刻々と変動する環境世界の状況にあっても、ユーザHと適切なコミュニケーションを行い、ユーザHの「主体感」を維持向上させつつ(減退させることなく)、ユーザHにおける行動変容を促す、具体的にはより適切な意思決定や行動決定を促すことの可能な行動変容促進モデルにもなっている。
【0023】
具体的に、主体感推定モデル(行動変容促進モデル)1は、ユーザHを含む環境世界の状態に対する「行動」を、当該状態及び当該行動に基づき算出される「報酬」を用いて決定する中で、ユーザHの「主体感」を推定するモデルとなっており、
図1に示したように少なくとも、
(A)ユーザHのある「主体感レベル」の下で、ある状態に対してある行動を行った結果、ある新たな状態が生じる確率を含む情報である「ビリーフ情報」を生成又は更新するビリーフモデル11と、
(B)ユーザHにとっての価値に係る「価値情報」と、それに対応する「報酬」とを受け取って、「価値情報」及び「報酬」に基づき、ユーザHの所望する状態である所望状態を生成し、当該所望状態をもたらし得る行動の集合である「方針」を決定するデザイアモデル12と、
(C)「ビリーフ情報」と、「価値情報」及び「報酬」とを受け取り、状態、価値情報、報酬及び行動の間の因果関係に係る「因果関係情報」を生成する意思モデル14と、
(D)「方針」と、「因果関係情報」とに基づき、観測された状態に対して行うべき「行動」を決定し、出力する行動モデル15と、
(E)出力された「行動」によって生じた「新たな状態」と、「新たな状態」の下でのユーザHの所定の特徴に係る「特徴量」(例えば心拍数や呼吸の速さ等の生理学指標から生成された特徴量)とを受け取って、「新たな状態」及び「特徴量」に基づき、ユーザHの「主体感レベル」を決定又は更新し、出力するとともに、上記(A)のビリーフモデル11で用いる「主体感レベル」を、決定又は更新した「主体感レベル」に更新させる主体感モデル17と
してコンピュータを機能させるモデルとなっている。
【0024】
このように、主体感推定モデル1は、従来推定の困難であった(特に、複雑な且つ刻々と変動する環境世界下での推定ができなかった)「主体感」を推定することができ、さらに、適宜更新したユーザHの「主体感(レベル)」を考慮して、環境世界に対する行動を決定することにより、その中でユーザHの行動変容、すなわち意思又は行動における変化を促すこともできる。例えば、主体感推定モデル1によれば、(主体感推定モデル1からの提案や説得等を受けて)ユーザHが自らの意思で行った行動と、その結果として現れた環境世界の状態との間に、ユーザH自身が繋がりや連動性を感じられるように、すなわちユーザHの「主体感」を向上させこそすれ減退させずに、適切な提案や説得等を行うことも可能となるのである。
【0025】
次に、
図2を用いて、本実施形態の主体感推定モデル(行動変容促進モデル)1における機能構成の理論的基礎について説明を行う。
【0026】
図2は、本発明の一実施形態における理論的基礎体系を説明するための模式図である。
【0027】
一般に、ユーザの主体感(SoA,Sense of Agency)は、(環境世界において予測される状態を目指して行われる)ユーザの意思的な行動の良好な流れを中断させるような妨害事象の発生から、強い影響を受けて変動する。以下、
図2を用い、状態-意思-行動-新たな状態の連鎖の中で、主体感レベルが如何に変化するのかを説明する。
【0028】
最初に、将来発生する意思を導出するモデルとして、ビリーフ-デザイア-意思モデル(Georgeff et al., 5th International Workshop, ATAL’98 Proceedings, pp.1-10, 1998)が公知である。このモデルにおいて、「ビリーフ(信念・確信)」(
図2)及び「デザイア(願望・欲求)」(
図2)はそれぞれ、環境世界の知覚された状態構造、及び環境世界の所望・希望する状態構造についての蓄積された情報となっている。
【0029】
また、「意思」(
図2)は、「ビリーフ」及び「デザイア」から決定され、具体的には、環境世界の所望・希望する状態構造をもたらすと仮定された行動を含む情報となっている。このように、「意思」は行動を特定し制御するのであるが、このような行動の特定・制御が、変化した「ビリーフ」や「デザイア」の影響を受けて更新されるのである。
【0030】
また、ここで主体感は、所望・希望する状態構造を達成することになる「意思」が「行動」(
図2)の中に具現化しているか否かによって決定される感覚であり、「意思」を受けた「行動計画・選択」(
図2)によって与えられることになる。
【0031】
本願発明者等は、以上に述べた「意思」についての知見と、従来の主体感の出現や途絶に関する認知科学や神経科学の理論とを統合し、
図2のような基礎体系を考案したのである。
【0032】
ここで従来、認知科学や神経科学ではモータ(motor)の学習制御の理論が存在する中、「比較器」(
図2)を用いたモデルの行動認知に対する妥当性が議論されてきた。この「比較器」モデルによれば、モータの駆動(行動)は、モータへの指令の遠心性コピーに基づき生成されるモータ出力の予測結果に伴って実施される。次いで、「比較器」において、この予測結果と実測されたモータ出力とが比較され、両者が一致する場合、このモータ出力は、モータ自身の駆動(行動)を原因としたものであるとして記録される。一方、一致しない場合、モータ駆動を制御しているという意味での"主体感"における中断や途絶が発生したとするのである。
【0033】
これに対し、認知科学や神経科学における遡及推定(RI,Retrospective inference)の理論は、意図された又は予測された状態と観測された実際の状態とが一致すれば、主体感が生じたとの「推定」(
図2)を行うものとなっている。また、「意思」とともに他の高次の(認知に係る)因子、例えば外界のコンテキストや社会的状況に係る手がかりも主体感の「推定」において考慮している。具体的にこの理論では、観測された状態が予測通りに生じた場合、行動は円滑に実施されていき、行動や態度についての考えは、意識の片隅におかれることになる。一方、観測された状態が予測とは異なる場合、脳は遡及推定(RI)を行い、起こした行動は観測された状態の原因となったのか否かについての解答を求めるのである。
【0034】
以下、以上に説明した理論的基礎体系をコンピュータにおいて具現した、本発明の一実施形態としての主体感推定モデル(行動変容促進モデル)1における具体的構成について詳細に説明を行う。
【0035】
ちなみに通常、人の脳は、他人の心を表現した精神モデルを保持し、それを使って他人の精神状態を察する処理をこなしている。この処理能力についての認知科学の理論であるいわゆる心の理論(ToM,Theory of Mind)では、人はこのような処理能力を保持するが故に、様々なコンテキストの中で他人が如何に振舞うのか及び何故そのように振舞うのかについての認知を直感的に得ることができるとしている。
【0036】
ここで以下に説明する主体感推定モデル(行動変容促進モデル)1は、この心の理論(ToM)をいわばエミュレートし、「ビリーフ」、「デザイア」、「意思」、「行動計画・選択」及び「推定」を他人(本実施形態ではユーザH)に帰するものとし、何故他人(ユーザH)はそのように行動するのか、及び行動の結果としての環境世界の状態を如何に認知するのか、言い換えれば他人(ユーザH)の主体感はどのようになっており如何に作用するのか、について理解を行うのである。
【0037】
[モデル構成,主体感推定方法]
以下、本発明による主体感推定モデル(行動変容促進モデル)1の一実施形態における機能構成について、より詳細に説明を行う。同じく
図1によれば、主体感推定モデル(行動変容促進モデル)1は、
(ア)ビリーフモデル11と、デザイアモデル12と、価値一致化モデル13と、意思モデル14と、
(イ)行動計画部151及び行動決定部152を含む行動モデル15と、
(ウ)CBN(Causal Bayesian Network)集合体161と、状態生成器162と、判別器163と、評価器164とを含む代替状態生成・評価モデル16と、
(エ)主体感モデル17と
を、コンピュータ(に搭載されたプログラム)によって具現される機能構成部として備えている。以下、上記の各機能構成部について具体的に説明を行う。
【0038】
<ビリーフ(信念・確信)モデル>
同じく
図1において、ビリーフ(信念・確信)モデル11は、ユーザHのある「主体感レベル」soaの下で、ある状態sに対してある行動aを行った結果、ある新たな状態s'が生じる確率を含む情報である「ビリーフ情報」を生成又は更新するモデルである。本実施形態において、このビリーフモデル11は、部分観測マルコフ決定過程(POMDP,Partially Observable Markov Decision Process)(MONAHAN G. E. Management Science 28(1), 1-16, 1982)に係るアルゴリズムを用いて構築される。
【0039】
具体的にビリーフモデル11は、
(a)ユーザH及び主体感推定モデル1を含む環境世界がとり得る状態sの集合を状態空間Sとし、
(b)ユーザH及び主体感推定モデル1が行い得る(出力し得る)行動aの集合を行動空間Aとし、
(c)状態sにおいて行動aを行った際に、状態s'への遷移が生じる条件付き確率を遷移確率Τ(s'|s, a)とし、
(d)状態sにおいて行動aを行った際のコストをc=c(s, a)とし、
(e)状態sにおいて行動aを行った際に状態s'への遷移が生じる場合に、主体感推定モデル1が環境世界から観測oを得る確率を観測確率O(o|s', a)として、
状態sにおいて行動aを行った主体感推定モデル1が、観測oを得た際の「ビリーフ情報」として、環境世界が状態s'をとる確率であるビリーフB(s')を導出する。
【0040】
より具体的には、前時点でのビリーフをB(s)とし、β=1/Prob(o|b, a)を規格化定数とすると、現時点での(B(s)の更新結果としての)ビリーフB(s')は、次式
(1) B(s')=β・O(o|s', a)・Σs∈SΤ(s'|s, a)B(s)
によって算出することができる。これはいわば、環境世界のとり得る状態がどのぐらい起こり得るのかについての"信念・確信"の度合いととることも可能な情報となっている。
【0041】
ここで、「主体感レベル」soaは、後に詳細に説明するが、ユーザHがとり得る状態として状態空間Sの要素となっており、ビリーフB(s')は、後述する主体感モデル17から受け取った更新された「主体感レベル」soa'を含む{s}についての総和(上式(1)のΣs∈S)をとることによって更新された値となるのである。
【0042】
ちなみに、ユーザHを、道路Xを走行している自動車のドライバとし、環境世界を、ユーザHの自動車も含む道路交通状況及び道路網周辺の環境とすると、状態は例えば、「目的地Wに向かっている」、「道路XのユーザHの位置での交通状況は"ノーマル"である」、「道路Xのこの先の交通状況は"渋滞"である」、「天候は"晴れ"である」、・・・であり、行動は例えば、「引き続き道路Xを走行する」、「(本モデルが)この先渋滞している旨を通知する」、「道路Yへ迂回する」、・・・とすることができる。また、「主体感レベル」は例えば、"high"、"a little high"、"neutral"、"a little low"、"low"の5段階に設定されてもよい。
【0043】
ここでこのビリーフモデル11を含む主体感推定モデル1全体において、通常とは異なり、主体感推定モデル1とユーザHとは完全に分離したエンティティとはなっておらず、主体感推定モデル1は、ユーザHが協力してくれることを期して処理を行うものとなっている。また、本主体感推定モデル1は、このビリーフモデル11において、通常のPOMDPにおいて用いられる報酬(関数)を採用しておらず、代わりに、この後説明するデザイア(願望・欲求)モデルにおいて報酬rを採用しているのである。
【0044】
<デザイア(願望・欲求)モデル>
同じく
図1において、デザイア(願望,欲求)モデル12は、ユーザにとっての価値vに係る「価値情報」と、それに対応する報酬rとを受け取って、「価値情報」及び報酬rに基づき、ユーザの所望する状態である所望状態sd(∈S)を生成し、所望状態sdをもたらす可能性のある行動aの集合である方針πを決定するモデルである。
【0045】
本実施形態において、このデザイアモデル12は具体的に、深層ニューラルネットワーク(DNN,Deep Neural Networks)アルゴリズムで構成され、
(a)ユーザHにとっての(例えば社会的価値である)価値vのセットτ=<v1, v2,・・・, vn>、例えばτ=<能率性, 倹約性, 利他性, 幸福度, 自己愛度, 他人の主体感を察する度合い>と、
(b)状態sにおいて行動aを行った際に得られた観測oによって算出される報酬r(∈R(報酬空間))と
を入力とし、ユーザの所望する状態である所望状態sd(∈S)を出力する価値・報酬モデルDMを用いて、所望状態sdをもたらす可能性のある行動aの集合である、観測oの関数としての方針π(o)=<a1, a2,・・・, an>を決定するのである。
【0046】
ここで、上記(a)の価値vのセットτも、上記(b)の報酬rもともに、主体感推定モデル1との相互作用の中でユーザHによって与えられた又は示されたものとなっている。ちなみに、このような価値vのセットτは、この後説明する価値一致化モデル13で生成されるのである。
【0047】
<価値一体化モデル>
一般論として、人はある状況において実際に望んでいることを、他人に対し誤って若しくは偽って伝えてしまうことも少なくない。これは、AIに対し自らの要望を伝えて期待通りの行動を行ってもらおうとする際、大きな問題となる。
【0048】
例えば、人は、AIロボットに対し、AIロボット自身がコーヒーを楽しむことよりも、自ら(人)のためにコーヒーを淹れてくれることを期待する(正解の価値とする)。また、人は、自律(自動)運転車に対し、運転中、自ら(人)にとってどのような価値が重要となるかを認知してくれることを要望することになる。例えば、交通ルールの順守、歩行者から離隔することや、愚図る子供が乗車している状況で交通渋滞に巻き込まれないこと等を必須の価値として認知することを期待するのである。しかしながら、AIにとって、このような人の要望を的確に認知すること、言い換えると、人にとっての価値とAIの取り入れる価値とを一致化する(揃える)ことは、従来非常に困難となっていた。
【0049】
例えば、一般的な強化学習(RL,Reinforcement Learning)を実行するAIは、遠い将来の報酬ほど割り引いて加算した累積報酬を最大とするようにして、最適な方針を学習するが、このように扱われる報酬は、あくまで数学上の抽象量であって、現実の環境世界に本来的に備わったものではない。さらに言えば、人は何を考慮すべき価値とするかといった問題や、何故ある価値を重要とするかといった問題に対し、数学上の抽象量ではなく、実際に得られる量として答えるモデルを形成することは非常に困難である。
【0050】
また従来、逆強化学習(IRL,Inverse Reinforcement Learning)(Andrew Ng and Stuart J Russell, ICML 2000: Proceedings of the Seventeenth International Conference)を用いて、この価値一致化の問題を解決する試みもなされてきた。しかしながら、人は自らの全ての要望をAIに理解してもらいたいわけではなく(例えばコーヒータイムを楽しむといったような個人的な望みは理解される必要がない)、AIにとってそれを区別して処理することは非常に難しいとの問題が生じていた。さらに、IRLは、観測された人の行動・態度は最適化されたものであることを前提にしており、観測された人の行動・態度に含まれる様々な有用情報を活用して調整を行うことができなかった。
【0051】
そこで、本発明に係る価値一致化モデル13は、ユーザとの価値についてのコミュニケーションを可能にする、協調逆強化学習(CIRL,Cooperative Inverse Reinforcement Learning)(Dylan Hadfield-Menell et al., 30th Conference on Neural Information Processing Systems (NIPS) 2016)に係るアルゴリズムを用いて構築されている。
【0052】
具体的に価値一致化モデル13は、CIRLの処理フローの一環として、ユーザから、
(a)「価値情報」に係る情報、本実施形態ではユーザHにとっての価値v(ユーザHが(例えば社会生活上)重要であると認識している価値v)のセットτ=<v1, v2,・・・, vn>に係る情報、すなわち、各価値v1, v2,・・・, vnについての情報と、
(b)「価値情報」に係る情報に対応する報酬rに係る情報、本実施形態では各価値v1, v2,・・・, vnの報酬rについての情報と
を受け取って、これら(a)及び(b)の情報に基づき、「価値情報」及びそれに対応する報酬rを生成又は更新し、デザイアモデル12へ出力するモデルとなっている。
【0053】
ここで、(主体感推定モデル1としての)価値一致化モデル13は、
(ア)当初、ユーザHが個人的にその価値を認めるもの、本実施形態では価値セットτ=<v1, v2,・・・, vn>について明確に認知しておらず、
(イ)カメラ等の測定手段から出力される測定結果を入力可能な、又はテキスト入出力・音声入出力等の可能なインタフェース(IF)を介し、ユーザHに対して、価値セットτに係る観測や問い合わせを行い、
(ウ)「ユーザは通常、価値セットτに基づいた行動を行う」ことを大前提として、価値セットτに関する情報(例えばユーザの動作・態度や回答、さらにはそれに関連して得られた報酬・成果に係る情報)を収集し、
(エ)収集した情報に基づき、推定した価値セットτを最大化することを目的として価値セット・報酬生成処理を行うのである。
【0054】
ちなみに、より一致化した価値セットτを決定するため、上述したような主体感推定モデル1(価値一致化モデル13)とユーザHとの相互作用は、継続的に繰り返し行われることも好ましい。
【0055】
また、価値一致化モデル13は本実施形態において、上記のインタフェース(IF)を介し、例えばユーザHに対し問合せ・要求を行って、その応答内容からユーザHの主体感に係るセルフレポート(自己申告)soa_rを生成し、後に詳細に説明する主体感モデル17へ出力することも可能となっている。
【0056】
<意思モデル>
【0057】
将来発生する意思を導出するモデルとして、すでに説明したビリーフ-デザイア-意思モデル(Georgeff et al., 5th International Workshop, ATAL’98 Proceedings, pp.1-10, 1998)が知られている。ここで、意思は、環境世界において所望の状態(結果)をもたらす原因になるであろう行動として表される。しかしながら、ユーザHの主体感レベルsoaを導出する上では、主体感推定モデル1(やユーザH)が原因(行動)と結果(状態)との関係、すなわち因果関係を如何に把握するかの問題を解決しなければならない。
【0058】
この問題を解決するべく、同じく
図1において意思モデル14は、
(a)ビリーフモデル11から受け取ったビリーフ情報と、
(b)デザイアモデル12から受け取った価値セットτ(価値情報)及び対応する報酬と
に基づいて、状態、価値、報酬、及び行動(本実施形態ではさらに、ビリーフ情報に含まれるコスト)の間の因果関係に係る「因果関係情報」を生成するモデルとなっている。
【0059】
本実施形態において、この意思モデル14は、因果ベイジアンネットワーク(CBN,Causal Bayesian Network)アルゴリズムを用いて構築される。また、出力となる「因果関係情報」は本実施形態において、CBNアルゴリズムに係る情報、具体的には構成されたCBNの構成情報そのもの(
図1の左側下方参照)であり、具体的には、状態s及び行動aが与えられたときに結果として生じる状態s'の条件付き確率を含む情報となっている。
【0060】
ここでCBNは、有向非巡回グラフモデルであって、親関数群{pa(Yi)}で特定される有向エッジEを伴ったノード群{Yi}、及び条件付き確率群{Prob(Yi|pa(Yi)}で構成されている。ここで各ノードYiは、状態、行動、コスト、価値、及び報酬のいずれかに対応するものである。また、有向エッジEは、それによって結ばれるYiとYjとの間に因果関係的な遷移の可能性があることを示しており、具体的には、Yiはある確率をもってYjの原因となる、言い換えるとYjの起こる可能性が、Yiを条件とした条件付き確率分布で表されることを示している。
【0061】
さらに本実施形態において、CBNにはdo演算子:do(Yj=yj)が規定されている。このdo演算子がCBNに適用されると、pa(Yi)=Φであって、Prob(Yi)=δ(Yi;yi)となる。すなわちdo演算子は、主体感推定モデル1によって実施される「(行動変容理論における)介入」に対応する演算子となっているのである。
【0062】
また、意思モデル14は当初、「介入」を通して環境世界の因果関係を推定するが、最終的には、「過去の段階で、ある異なる「介入」が実施されていたとしたら、何が生じていたのか」といった反実仮想的な問いに答える必要が生じる。そのため本実施形態では、意思モデル14は「反実仮想モード」をとることも可能となっている。
【0063】
以上説明したように、意思モデル14は、
・人の意思は、「環境世界の事象は如何なる因果関係で繋がっているのか」についての考えや、「意図した行動による結果として何がもたらされるか」についての予想に基づいて形成されるとの、本願発明者等によって新たに設定された仮説
のもとに構築されている。
【0064】
すなわち、意思モデル14は、
図2に示した本発明の理論的基礎体系における「比較器」や「推定」の機能、すなわち行われた行動の結果(観測された実際の状態)が予測又は意図された状態となっているかを判定・推定する機能、を取り込んだものとなっているのである。ちなみに、状態s及び行動aが与えられたときに結果として生じる状態s'の条件付き確率、すなわち状態s'の生じる確率がどのくらい高いかは、意思モデル14の出力に含まれる情報となっているが、まさに意図した状態との対応関係を反映したものとなっている。
【0065】
またさらに、意思モデル14には、ビリーフモデル11から受け取ったビリーフ情報を介し、ユーザHが想定した状態と、実際の状態が一致しているか否かに係る情報、すなわち主体感レベルsoaに係る情報が反映されているのである。
【0066】
<行動モデル>
同じく
図1において、行動モデル15は、
(a)デザイアモデル12から受け取った方針π=<a1, a2,・・・, an>と、
(b)意思モデル14から受け取った因果関係情報(CBN構成情報)
とに基づき、観測された状態sに対して行うべき行動aを決定し、出力するモデルとなっており、本実施形態において、行動計画部151及び行動決定部152を備えている。
【0067】
このうち行動計画部151は、
上記(a)の方針πと、上記(b)の因果関係情報(CBN構成情報)と、さらに、
(c)カメラ等の測定手段から出力される測定結果を入力可能な、又はテキスト入出力・音声入出力等の可能なインタフェース(IF)を介し、ユーザHとの間で行った所定の問いかけを含むコミュニケーションの内容と
に基づき、最適とされる方針である最適方針π*を生成する。
【0068】
この行動計画部151は本実施形態において、公知のXAIP(eXplainable AI Planning agent)(Chakraborti et al., Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence IJCAI-19, pp.1335-1343, 2019)における行動決定処理を用いて構築されている。ここでXAIPでは通常、行動計画問題P、遷移関数ζP:S×A→S×Cや、行動計画アルゴリズムA:P×t→π が定義される。ここで、tは最適性や健常性といった(本発明のτとは異なる)性質を表す量となっている。これに対し、本願発明者等は、行動計画問題Pの代わりに、ユーザHの精神モデルΠを採用して、行動計画部151を構築しているのである。
【0069】
ここで、精神モデルΠは、本実施形態において意思モデル14から受け取った因果関係情報(CBN構成情報)であり、例えばユーザHが自動車を運転している状況において、「現状の道路Xでこのまま進み、目的地Wまでの所要時間をよく考慮し、渋滞を回避してできるだけ速い速度で走行し、途中下車は極力避ける」といったようなユーザHの心的な情報をとりまとめたモデルとなっている。
【0070】
具体的に、行動計画部151は、このユーザHの精神モデルΠと、遷移関数ζΠ:S×A→S×Cと、行動計画アルゴリズムPA:Π×DM→π*とを規定する。ここで、DMは、デザイアモデル12を構成する価値・報酬モデルであり、ここでは所望状態sd(∈S)をもたらす可能性のある(状態sにおける)行動aの集合である方針π=<a1, a2,・・・, an>として実施される。また、π*は上述したように最適方針である。
【0071】
この最適方針π*は、実際の状態sを所望状態sdに遷移させる行動の集合であり、すなわち遷移関数は、次式
(2) ζΠ(π, s)=<sd, Σai∈π(ci+ri)>
のようになるのである。ここで、ci及びriはそれぞれ、方針πの実行時に最適化すべきコスト及び報酬となっている。なお、上式(2)の遷移関数ζΠは、公知のXAIPでは採用されることのない報酬riを含むことを特徴の1つとしている。
【0072】
行動計画部151は、行動計画アルゴリズムPAに従い、最適方針π*を決定するべく、方針πの行動を実施した際に遷移先の状態として生じた状態s(i+1)(=ζΠ(π, si))が、所望状態sdに完全に若しくは概ね一致するように方針最適化処理を行うのである。以下、この方針最適化処理の具体的な実施形態を説明する。
【0073】
本実施形態では基本的に、行動計画部151は、ユーザHの精神モデルと同様のモデルを維持する必要があり、したがって、ユーザHの予測される行動や精神モデルが自らの行動やモデルと一致していない場合には、ユーザHに対し「説明」を行い、モデルの一致化を進める。
【0074】
例えば、ユーザH(ドライバ)が「引き続き道路Xを走行する」場合に、「道路Yへ迂回する」ことを方針とするべく、「説明」として「道路Xはこの先渋滞しているのに対し、道路Yは渋滞していない」を採用してもよいのである。
【0075】
ここで「説明」のための1つの手法として、予測調停(inference reconciliation)が実施される。具体的には、行動計画部151の行動計画アルゴリズムPAχ(以後χを、AIとしてのモデル1を表すものとする)が方針πを生成するのに対し、ユーザHの行動計画アルゴリズムPAHは同じ方針πを生成しない場合に、行動計画部151は、説明εを実施し、PAHが同じ方針πを生成するように、すなわちPAH:Π×D→επとなるようにする。
【0076】
この説明εは例えば、ユーザH(の行動計画アルゴリズムPAH)に対してなされる、PAχから生成される方針πについての具体的な問いかけ・質問を含むコミュニケーション内容とすることができる。ここで、この問いかけ・質問は、「何故ある行動aが方針πにあるのか」、「何故方針πであって他の方針π'ではないのか」や、「何故方針πが最適であるのか(すなわち何故π(s)はaであってa'ではないのか)」についての説明的な若しくは説得的な対話の形をとることも好ましい。ちなみにこのような対話は、上述した(c)カメラ等の測定手段から出力される測定結果を入力可能な、又はテキスト入出力・音声入出力等の可能なインタフェース(IF)を介し実施可能となっているのである。
【0077】
また、上述した予測調停とは別に、この説明εによってユーザHの精神モデルΠHを変化させることを考えてもよい。具体的には、ユーザHは、行動計画アルゴリズムPAχが最適であるとする方針πを、全く異なる"精神性"をもって評する可能性がある。そこで、説明εを、ユーザHも決定された方針πに同意するように用いるのである。例えば、PAχ:Π×D→πである下で、HHを、PAH:HH×D→πを満たすようなユーザHの精神モデルとした上で、精神モデルΠHを説明εによって、HHに変換させてもよい(すなわち、ΠH+ε→HHとしてもよい)。
【0078】
またさらに他の手法として、行動計画部151は、互いに異なる仮定の下で生成された価値セットτ(の中の価値)の相違を強調する説明εを実施することもできる。このような説明εの実施は、例えばユーザHと主体感推定モデル1(行動計画部151)との間では、ε←τΔτHと表すことができ、ユーザH1とユーザH2との間では、ε←τH1ΔτH2と表すことが可能である。このうち、後者については、ユーザH1の価値をユーザH2の価値の上位と捉える主体感推定モデル1の意向と適合したものとなっており、共同で行動を行うケースにおける、主体感推定モデル1の目標である主体感レベルのバランスのとれた推定を実現することも可能となる。
【0079】
ここで具体的に、PAχ:Π×D→πである下で、ユーザHと主体感推定モデル1との相互作用の中、τH+ε→τ'H、及びPAχ:Π×R×τ'H→πとなるような説明εが生成され、実施される。または、主体感推定モデル1がユーザH1の価値をユーザH2の価値の上位と捉える中(すなわち、PAχ:Π×R×τH2→πである中)、τH1+ε→τ'H1=τ'H2を満たすような説明εが生成され、実施されてもよいのである。
【0080】
ちなみに、以上説明したことからも明らかなように、行動計画部151は、上述した価値一致化モデル13での状況とは異なり、ユーザH(の行動計画アルゴリズム)よりも問題解決能力のより高い行動計画アルゴリズムを備えているのである。すなわち、PAχ>PAHとなっているのである。
【0081】
以上、AIがユーザに対し「説明」を行い、モデルの一致化を図るためのいくつかの手法を説明したが、いずれにしても、本実施形態での手法は、AIによる説得技術(persuasive technology)における3つの基本に則っている。すなわち第1の基本として、主体感推定モデル1は、ユーザHに対し、行動の計画や推定の結果の提示についての高い透明性を有し、ユーザHは、質問したり説明を求めたりすることができるようになっている。なおこれにより、主体感推定モデル1はユーザHにとって信頼できるものとなり、両者の関係がより向上することが期待される。
【0082】
また第2の基本として、主体感推定モデル1は、自身がユーザHの行動を理解していることを、当のユーザHへ説明することができる。なおこれにより、ユーザHの主体感推定モデル1への共感度を高めることが可能となる。さらに第3の基本として、主体感推定モデル1は、ユーザHに対し、行動の計画や推定を、ユーザHと協働して行っている。なおこれによって、本発明の推定対象であるユーザHの主体感レベルそのものを、向上させることも可能となるのである。
【0083】
同じく
図1において、行動モデル15の行動決定部152は、行動計画部151で生成された最適方針π*を用いて、観測された状態sに対して行うべき行動aを決定し、出力する。具体的には、π(s)=aを実行するのである。ちなみに、ここで決定される行動は、(主体感推定モデル1が自律AIとして制御を行っている場合における)主体感推定モデル1、(ユーザHが主に制御を行っている場合における)ユーザH、及び(主体感推定モデル1とユーザHとが協働して制御を行っている場合における)主体感推定モデル1とユーザHとの両者、のうちのいずれかの行動となる。
【0084】
ここで、決定される行動が主体感推定モデル1の行動である場合、行動決定部152から出力された行動aは、所定のインタフェース(IF)を介し(例えばアクチュエータの駆動、ディスプレイへの表示や、スピーカからの音声出力といった態様を介し)ユーザHを含む環境世界へ作用し、これを受けた環境世界の状態sは、状態s'へ変化することになるのである。
【0085】
また、行動aの結果として世界において観測される状態s'は、「意図した(予測された)状態が、行動モデルで実施された行動aによるもの(であって他の行動主体の行動によるものではない)か否か」を決定するべく、意思モデル14にフィードバックされるのである。
【0086】
ちなみに、ユーザHを、道路Xを走行している自動車のドライバとし、環境世界を、ユーザHの自動車も含む道路交通状況及び道路網周辺の環境とすると、決定された行動:「道路Yへ迂回すべき旨を通知する」や「道路Yへ迂回する」によって、例えば新たな状態:「道路Yを走行して目的地Wに向かっている」や「走行している道路Yの交通状況は"渋滞"ではない」が発生することになる。またこれにより、例えば当初"low"であったユーザHの「主体感レベル」が"high"に変化することになるのである。
【0087】
<代替状態生成・評価モデル>
同じく
図1において、代替状態生成・評価モデル16は、過去に見られない、予測されない又は希にしか起こらない状況においては、新規の方針を生成し、評価しなければならない、といった問題を解決するためのモデルである。いわば、行動変容を促すための「介入」用の介入コンテンツを自動で生成するモデルと捉えることもできるのである。
【0088】
具体的に、代替状態生成・評価モデル16は、起こり得る新規の状態としての代替状態salを生成する状態「生成」器(162)、及び生成された代替状態salを評価する「評価器」(164)を備えており、公知の「生成・評価(actor-critic)フレームワーク」(Aras Dargazany, arXiv:2004.04574 Artificial Intelligence [cs.AI], 2020)(Zhewei Huang et al., arXiv:1903.04411 Computer Vision and Pattern Recognition [cs.CV], 2019)に基づき構成されたモデルである。ちなみにこの「生成・評価(actor-critic)フレームワーク」は、敵対的生成ネットワーク(GAN,Generative Adversarial Networks)・深層強化学習(DRL,Deep Reinforcement Learning)アルゴリズムを用いて構築されている。
【0089】
ただし、この公知の「生成・評価(actor-critic)フレームワーク」では、AIは現状の環境世界を正確にモデル化できているとの前提の下で処理が進められるのに対し、代替状態生成・評価モデル16では、過去に学習された様々なコンテキストからの知識や、互いに異なる複数のユーザの精神モデル(CBN)からの知見(の集積体)を採用して、(ユーザHにとって)予測・予見し得なかった、しかし発生し得る様々な状況を学習し、問題を解決するものとなっているのである。
【0090】
同じく
図1において、代替状態生成・評価モデル16のCBN集合体161は、互いに異なる複数のユーザであるH1, H2, ・・・, Hpそれぞれの意思モデル(精神モデル,因果関係情報)であるCBN1, CBN2, ・・・, CBNpの集合体CBN
∪(=CBN
{Hi})、言い換えれば統合因果関係情報、となっている。なお、CBN1, CBN2, ・・・, CBNpの少なくとも一部は、(人の違いではなく)コンテキストの違いに対応した、例えば互いに異なるコンテキストに対応したエンティティとすることも可能である。
【0091】
具体的に集合体CBN∪は、例えばCBNH1=(DAG<YH1, EH1>, ProbH1)及びCBNH2=(DAG<YH2, EH2>, ProbH2)が与えられたときに、次式
(3) CBN∪=(DAG∪<YH1∪YH2, EH1∪EH2>, ProbH1∪ProbH2)
で表すことができる。ここで、DAG<Y, E>は、ノード(変数)Y及びエッジEで構成さされる有向非巡回グラフを指しており、また、Probは、各エッジEに対応する遷移確率である。
【0092】
同じく
図1において、代替状態生成・評価モデル16の状態生成器162は、
(a)観測された状態sと、これに対応する(行動決定部152から)出力された行動aとを受け取って、
(b)CBN集合体161から受け取った意思モデルの集合体CBN
∪(統合因果関係情報)に基づき、
起こり得る状態候補としての代替状態s
alを生成し、出力する。
【0093】
ここで代替状態salは、ユーザHが予測・予期しなかった又は起こり得るとは考えなかった新規の状態であり、例えば過去に見られなかった未知の問題に対する、より好適な代替の解決行動を決定するのに使用されるものとなっている。
【0094】
ちなみに、状態生成器162は、公知の敵対的生成ネットワーク(GAN)の生成部分に対応するものになってはいるが、従来のように例えばフェイクデータを生成するのではなく、新規の問題を解決するための新たな戦略を生み出すための代替状態salを生成するのである。
【0095】
同じく
図1において、代替状態生成・評価モデル16の判別器163は、状態生成器162で生成された代替状態s
alが、ユーザHのいるコンテキストではあり得ないほどに架空のものとなってはいないか否かを判別する。すなわち判別器163は、生成された新規の代替状態s
alが現実の問題を解決するのに有用となり得るものか否かを見極め、代替状態s
alがそのような状態となるように、状態生成器162の訓練を促すものとなっているのである。
【0096】
具体的に判別器163は本実施形態において、複数の全結合層を含む深層ニューラルネットワーク(DNN,Deep Neural Networks)アルゴリズムで構成されており、(行動決定部152による)行動aによって生じた新たな状態s'と、(状態生成器162で生成された)代替状態salとから、所望状態sdとの相違を表す損失ALossを生成し、この損失ALossをもって、(a)状態生成器162に対し訓練を行わせ、また、(b)自ら(判別器163)の訓練を行う。
【0097】
ここで、一般的な敵対的生成ネットワーク(GAN)においては、敵対的損失として、現在の状態s'と生成された状態sgとの相違の度合い、すなわち、maxψ(Exs~μ[ψ(s')]-Exsg~ug[ψ(sg)])が算出される。ここで、Exは期待値であって、μ及びugはそれぞれ現在の状態のサンプル確率分布、及び生成された状態のサンプル確率分布である。
【0098】
これに対し、判別器163は本実施形態において、スカラである敵対的損失ALossそのものを出力するのであり、従来とは異なり、
(a)ALoss(s'):現在の状態s'と所望の状態sdとの間の損失、及び
(b)AL(sal):代替状態salと所望の状態sdとの間の損失
として、ALoss(s')とAL(sal)との間の最適な誤差を選択することを目的としているのである。
【0099】
同じく
図1において、代替状態生成・評価モデル16の評価器164は、(敵対的損失ALossによって訓練された)状態生成器162で生成される代替状態s
alに対応する報酬である予測報酬を生成する。ここで、この予測報酬は、行動モデル15(の行動決定部152)から出力される行動aによって算出される報酬をもはや含まないものとなっている。
【0100】
また評価器164は、この予測報酬をもって行動モデル15(の行動決定部152)に対し行動の決定についての訓練を行わせる。これにより、行動モデル15(の行動決定部152)における行動決定処理を、過去に見られない、予測されない又は希にしか起こらない状況に対しても適用できるように更新することが可能となるのである。
【0101】
具体的に、時点tにおける予測報酬は、強化学習のQ学習価値関数Q(sal
t)とすることができる。このQ学習価値関数Q(sal
t)は、次式
(4) Q(sal
t)=r(sal
t, at)+γQ(sal
t+1)
のように、割り引きされた報酬として更新される。ここで、r(sal
t, at)は、状態sal
tの下で行動atを行う場合の報酬となっている。
【0102】
次いで本実施形態において、行動モデル15の行動決定部152は、この予測報酬(Q学習価値関数)Q(sal
t)を用い、行動aを導出するためのπ*(s)を、r(sal
t, π*(sal
t))+Q(ζ(sal
t, π*(sal
t)))が最大化するように訓練するのである。ここで、遷移関数ζ(sal
t, π*(sal
t))は、時刻t+1における代替状態sal
t+1となる。このような代替状態sal
t+1は、ユーザHがその能力の限界から、提示された問題への回答は不可能であるといったような苦境に立たされた場合に、主体感推定モデル1によって提示される解答と捉えることもできる。またこのような解答をユーザHに提示することは、ユーザHの主体感推定モデル(行動変容促進モデル)1に対する信頼性を高めるのに貢献することにもなるのである。
【0103】
<主体感モデル>
同じく
図1において、主体感モデル17は本実施形態において、行動の表現型としての動的なコンテキストに依存する主体感(SoA)レベルのリアルタイムの変動を推定し出力する。
【0104】
過去に行われたある心理学的実験(Tapal, A. et al., Frontiers in Psychology, 8, Article 1552. 2017, <https://doi.org/10.3389/fpsyg.2017.01552>)では、特定のイベントについての自己の主体感(SoA,Sense of Agency)を本人が直接評価した結果であるセルフリポート(自己申告)を介した、直接的な主体感の測定が行われている。
【0105】
また過去には、主体感の変動についての本人による測定値と外部からの測定値との知覚的差異を用いた、直接的な主体感の測定例も存在する。しかしながらいずれの手法においても、測定対象者からの直接的な主体感に関する応答を必須とし、それ故、測定対象者に断続的な行動の中断を強いることになるので、特に主体感レベルが大きく変動する状況においては、適用することが困難となっていた。
【0106】
これに対し、本願発明者等は、主体感レベルsoaの変化が、ユーザH(測定対象者)における生理学的指標(例えば心拍数や呼吸の速さ等)、姿勢、身振りや、音声韻律指標(例えば調子、アクセント、イントネーション、発話速度、発話ピッチ、及び発話量等)における時間変化に明確に現れること(を仮説として上手くいくこと)を見出した。ここで、これらの測定結果は従来、(情動や気分を含む)感情状態の推定に効果的に用いられてきたものとなっている。
【0107】
また、いわゆるアフェクティブコンピューティング(Affective Computing)の分野では、ウェアラブルセンサや環境センサによって得られた行動・態度の表現型の情報からAIを用いて、対象者の感情を認識したり、感情における適応応答を探ったりする研究が精力的に行われている。またさらに、人の主体感と情動とは、日々の生活の中で常に相互作用していることを証明した研究もいくつか存在する(例えば、Matthis Synofzik et al., Front. Psychol., 4(127), 2013 <https://doi.org/10.3389/fpsyg.2013.00127>や,Antje Gentsch1 and Matthis Synofzik, Front. Hum. Neurosci., 8:608, 2014 <https://doi.org/10.3389/fnhum.2014.00608>等)。
【0108】
また例えば、主体感は、感情的な因子、例えば行動による感情に関わる結果への期待がポジティブかネガティブか、今回の行動を行う動機は高いのか低いのかや、行動を行うのは友好的な環境においてか敵対的な環境においてか等によって変調し得るとの研究結果(Julia F Christensen et al., Exp Brain Res. 237(5), 1205-1212, 2019 <https://doi.org/10.1007/s00221-018-5461-6>)も開示されている。
【0109】
以上に説明したような知見や発見を定式化するべく、主体感モデル17においては、現時点の主体感レベルsoaを出力する主体感認識関数Ω:ρ1×ρ2×ρ3×ρ4×・・・→Sを規定する。ここで、ρ1, ρ2, ・・・は、ユーザH(測定対象者)における生理学的指標(例えば心拍数や呼吸の速さ等)、姿勢、身振りや、音声韻律指標(例えば調子、アクセント、イントネーション、発話速度、発話ピッチ、及び発話量等)を表す特徴量パラメータである。
【0110】
このような主体感認識関数Ωを規定した上で、主体感モデル17は具体的に、深層ニューラルネットワーク(DNN,Deep Neural Networks)アルゴリズムで構成され、
(a)行動決定部152から出力された行動aによって生じた新たな状態s'と、
(b)この新たな状態s'の下での(新たな状態s'の影響を受けた)ユーザHにおける所定の特徴ρに係る特徴量と
を受け取って、これら新たな状態s'及び特徴量ρに基づき、ユーザHの主体感レベル(soa)を決定又は更新し、出力する。さらに、ビリーフモデル11で用いる主体感レベルsoaを、決定又は更新した主体感レベルsoa'に更新させる。これにより、例えば主体感の中断や途絶が生じる原因や特徴を推定したり予期したりすることも可能となるのである。
【0111】
ちなみに、この主体感モデル17から出力された主体感レベルsoa'がビリーフモデル11の「ビリーフ情報」を更新し、さらにこの更新されたビリーフ情報が意思モデル14の「因果関係情報」(CBN構成情報)を更新する流れは、まさに、主体感にかかわる「知覚対象を制御しているとの確信・信念」(perceived control)が「意思」に影響を及ぼす、との従来の心理学理論を体現したものとなっている。
【0112】
ここで、主体感モデル17は、
(c)価値一致化モデル13から受け取った、ユーザHの主体感に係るセルフレポート(自己申告)soa_r
にも基づいて、ユーザHの主体感レベル(soa)を決定又は更新し、出力することも好ましい。これは、価値一体化モデル13が、CIRL(協調逆強化学習)の処理フローの一環として、(認識している主体感に疑いのある場合に)ユーザHに対し、ユーザHの主体感レベルを問い合わせた結果として、ユーザHの主体感に係るセルフレポートsoa_rを取得した場合の処理となる。
【0113】
以上、主体感モデル17における主体感レベルsoaの生成・更新処理を説明したが、主体感推定モデル1はこれにより、例えば、ユーザHに生じている主体感レベルを如何に確実に捉えて理解しているのかをユーザHに対し説明することもでき、またその結果、ユーザHに対し共感性と信頼性の高さを更に実証してみせることも可能となるのである。さらに、主体感推定モデル1はその上で、提示した方針がユーザHの主体感レベルを向上させこそすれ、減退させるものではないと考えられることを、ユーザHに納得させることも可能となり、またこのように、ユーザHに対し、賢く分別のある応答を提供することもできるのである。
【0114】
[主体感推定装置,主体感推定プログラム]
以下、
図1に戻って、以上に説明したような主体感推定モデル1を搭載しており、推定対象ユーザであるユーザHの主体感を推定する主体感推定装置9について説明する。ちなみに同様の構成によって本装置は、行動変容促進モデル(主体感推定モデル)1を搭載した行動変容促進装置とすることも可能となっている。
【0115】
図1の左側下部に示した本実施形態の主体感推定装置9は、搭載した主体感推定モデル1を用いて、環境世界における観測された状態から、推定対象であるユーザHの主体感を推定する、具体的にはユーザHの主体感レベルを決定する装置となっている。
【0116】
具体的に
図1において、主体感推定装置9のユーザインタフェース(IF)91は、価値一致化モデル13のインタフェース(IF)、行動計画部151のインタフェース(IF)、及び行動モデル15(行動決定部152)のインタフェース(IF)に相当し、ユーザHに係る測定結果を取り入れたり、ユーザHとの各種コミュニケーションに係る情報を入出力したり、さらには決定された行動を環境世界に対し作用させる役割を果たす。また、環境世界の状態といったような、主体感推定モデル1の訓練に必要となる情報や、主体感推定の条件となる情報を収集する入力部ともなっている。
【0117】
訓練部92は、受け取った主体感推定モデル1の訓練に必要となる情報から訓練データを生成し、これを用いて主体感推定モデル1の訓練を実施する。
【0118】
主体感推定部93は、受け取った主体感推定の条件となる情報に基づき、訓練済みの主体感推定モデル1を用いて、ユーザHの主体感レベルを決定する。ここで本実施形態においては、複雑な又は刻々と変動する環境世界の状況の中でも、ユーザHのリアルタイムの主体感レベルや、ユーザHの主体感レベルのダイナミックな変動を決定し出力することが可能となっている。
【0119】
出力部94は、決定された主体感レベルに係る情報を、(通信機能を備えている場合に)外部の情報処理装置へ送信したり、(表示機能を備えている場合に)表示したりする。
【0120】
ここで、訓練部92及び主体感推定部93は、本発明による主体感推定方法の一実施形態を実施する主要機能構成部であり、また、本発明による主体感推定プログラムの一実施形態を保存したプロセッサ・メモリの機能と捉えることもできる。またこのことから、主体感推定装置9は、主体感推定の専用装置であってもよいが、本発明による主体感推定プログラムを搭載した、例えばクラウドサーバ、非クラウドのサーバ装置、パーソナル・コンピュータ(PC)、ノート型若しくはタブレット型コンピュータ、スマートフォン、又はウェアラブルコンピュータ等とすることも可能である。
【0121】
以上詳細に説明したように、本発明によれば、従来推定の困難であった(特に、複雑な且つ刻々と変動する環境世界下での推定ができなかった)ユーザの主体感を推定することができ、また、適宜更新したユーザの主体感を考慮して、環境世界に対する行動を決定することにより、その中でユーザの行動変容、すなわち意思又は行動における変化を促すことも可能となる。
【0122】
例えば、適切な実施形態をとることによって、(本発明による主体感推定モデルからの提案や説得等を受けて)ユーザが自らの意思で行った行動と、その結果として現れた環境世界の状態との間に、ユーザ自身が繋がりや連動性を感じられるように、すなわちユーザの主体感を向上させこそすれ減退させずに、適切な提案や説得等を行うことも可能となるのである。
【0123】
また、本発明は、以上に述べたような作用効果を奏するが故に、将来様々な場面において見られるであろう人間とAIとの相互理解や協働活動について、その内容を向上・発展させるのにも大いに貢献するものになると考えられる。
【0124】
さらに、例えば子供達に対し質の高い、すなわち子供達の主体性や勉強への意欲を尊重した教育を提供するために、本発明による主体感推定モデルや行動変容促進モデルを用いて、子供達の主体感を維持・向上させるような提案・指導を含む教育行動を、実施することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標4「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。
【0125】
また、例えば大人達に対し、ディーセント・ワーク(働きがいのある人間らしい仕事)を提供するために、本発明による主体感推定モデルや行動変容促進モデルを用いて、大人達の主体感を維持・向上させるような、仕事を得るための又は仕事上のアドバイスを実施し、大人達の適切な仕事上の行動変容を促すこともできる。すなわち本発明によれば、国連が主導するSDGsの目標8「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することも可能となるのである。
【0126】
さらに、例えば都市部を走行する自動車のドライバ達に対し、このドライバ達の目的を確実に且つ円滑に達成するため、本発明による主体感推定モデルや行動変容促進モデルを用いて、ドライバ達の主体感を減退させない、すなわちドライバ達にとって納得し易いナビゲーションを実施することもできる。すなわち本発明によれば、国連が主導するSDGsの目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することも可能となるのである。
【0127】
またさらに、例えば消費者達に対し、持続可能な消費とライフスタイルを提供するため、本発明による主体感推定モデルや行動変容促進モデルを用いて、消費者達の主体感を減退させない、すなわち消費者達にとって納得し易い消費行動上のアドバイスや提案を実施することもできる。すなわち本発明によれば、国連が主導するSDGsの目標12「持続可能な消費と生産のパターンを確保する」に貢献することも可能となるのである。
【0128】
上述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。上述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0129】
1 主体感推定モデル(行動変容促進モデル)
11 ビリーフモデル
12 デザイアモデル
13 価値一致化モデル
14 意思モデル
15 行動モデル
151 行動計画部
152 行動決定部
16 代替状態生成・評価モデル
161 CBN(Causal Bayesian Network)集合体
162 状態生成器
163 判別器
164 評価器
17 主体感モデル
9 主体感推定装置
91 ユーザインタフェース(ユーザIF)
92 訓練部
93 主体感推定部
94 出力部